productize.life
TH EN
AI · Cost Control

โมเดลแพงสุดไม่ใช่คำตอบ
โมเดลที่พอดีกับงานต่างหาก

คืนที่โมเดลแพงสุดของบ้านเผา credit หมดกลางงาน สอนเราว่าคำถามไม่ใช่ "ตัวไหนเก่งสุด" แต่คือ "งานนี้ต้องการความคิดระดับไหน" นี่คือวิธีเลือกที่เราใช้จริงทั้งฝูง

Yim· เขียนด้วยกันกับ Dobby (AI Oracle)/5 ก.ค. 2026

ต้นเดือนกรกฎา เราปล่อยให้โมเดลที่แพงที่สุดในบ้าน นั่งเขียน HTML กับ CSS ราวสองพันบรรทัดด้วยมือ มันทำได้ดีด้วย ประณีตทุกบรรทัด แต่พองานใกล้เสร็จ credit ก็หมดกลางอากาศ ต้องเรียกโมเดลอีกตัวที่ถูกกว่ามารับช่วงต่อ พร้อมโน้ตส่งงานยาวเหยียด

ความผิดไม่ใช่ของโมเดล มันทำงานที่ถูกสั่งอย่างซื่อสัตย์ ความผิดคือการจัดงาน: เราเอาหัวหน้าสถาปนิกมานั่งก่ออิฐ แล้วจ่ายค่าตัวสถาปนิกให้กับกำแพงที่ช่างปูนคนไหนก็ก่อได้

คืนนั้นทำให้เรานั่งเขียนกติกาการเลือกโมเดลของทั้งฝูงใหม่ทั้งชุด บทความนี้คือกติกาชุดนั้น เทียบ Claude ทั้งสี่ระดับจากการใช้งานจริง ว่างานแบบไหนควรใช้ตัวไหน และถ้ามีงบแค่ตัวกลาง จะบีบให้มันทำงานเกินระดับตัวเองได้ยังไง

ช่วงที่ 1รู้จักทั้งสี่ระดับ

ตระกูล Claude ตอนนี้มีสี่ระดับที่เราใช้งานจริง สามตัวแรกคุ้นชื่อกันดี ตัวที่สี่เพิ่งมา: Fable 5 โมเดลแรกของตระกูล Claude 5 อยู่ในระดับใหม่ชื่อ Mythos-class ที่ Anthropic วางไว้เหนือ Opus (ประกาศทางการ)

ระดับนิสัยเด่นบทบาทในทีมของเรา
Haikuเร็วและถูกที่สุด ตอบตรงคำถามหน่วยลาดตระเวน: ค้นไฟล์ กวาดหา pattern ยิงพร้อมกันได้เป็นสิบตัว
Sonnetสมดุลราคากับฝีมือ ทำตามสั่งแม่นมือหลักของทีม: เขียนโค้ดตาม spec เขียนเทสต์ งานซ้ำรูปแบบ
Opusคิดหลายชั้น เห็นความเชื่อมโยงข้ามไฟล์นักคิด: ออกแบบระบบ ดีบักเคสยาก review งานของตัวอื่น
Fable 5อ่านสถานการณ์ ชั่ง tradeoff จับความกำกวมหัวหน้างาน: แตกงาน สังเคราะห์ผลข้ามแหล่ง เฝ้าจุดตัดสินใจ

ข้อที่ต้องพูดให้ชัดก่อนไปต่อ: ความต่างระหว่างระดับบนสุดกับระดับรองเป็นเรื่องของดีกรี ไม่ใช่ชนิด Fable ไม่ได้ทำอะไรที่ Opus ทำไม่ได้เลย มันแค่พลาดน้อยกว่าในงานที่ตีความยาก และนั่นแปลว่าคำถามเรื่องเลือกโมเดล จริงๆ เป็นคำถามเรื่องธรรมชาติของงาน

ช่วงที่ 2เกณฑ์เดียวที่สำคัญที่สุด: ความกำกวมของงาน

ตอนแรกเราก็คิดแบบที่ทุกคนคิด ว่าเกณฑ์คือความยากของงาน งานยากใช้ตัวแพง งานง่ายใช้ตัวถูก แต่พอรันฝูง agent จริงมาหลายเดือน เกณฑ์ที่ใช้งานได้จริงกลับเป็นอีกตัว: ความกำกวม ไม่ใช่ความยาก

งานที่ยากแต่ชัด เช่น เขียน parser ตาม grammar ที่ระบุครบ มี test ให้รันตรวจ งานแบบนี้ Sonnet ทำได้ดีจนแยกจากตัวแพงแทบไม่ออก เพราะเกณฑ์ตัดสินอยู่นอกตัวโมเดล: เทสต์ผ่านคือผ่าน

ส่วนงานที่ดูง่ายแต่กำกวม เช่น "ช่วยดูหน่อยว่า handoff นี้เชื่อได้ไหม" อันนี้ระดับโมเดลโผล่ทันที เพราะต้องอ่านว่าคนเขียนรู้จริงหรือเดา ต้องจับว่าประโยคไหนคือ claim ที่ยังไม่ verify ความสามารถแบบนี้ไม่มีเทสต์ให้รัน

ช่องว่างระหว่างระดับโมเดล แคบลงตามความชัดของงาน ยิ่ง spec แน่น เกณฑ์ตรวจรับรันได้ งานหั่นเล็ก โมเดลถูกก็ยิ่งทำได้เท่าโมเดลแพง

มีเกณฑ์รองอีกตัวที่เราใช้คู่กัน: action นั้นย้อนกลับได้ไหม งานที่พังแล้ว undo ได้ ปล่อยระดับไหนทำก็ได้ตามความกำกวมของมัน แต่จุดที่ย้อนไม่ได้ อย่างการ deploy การลบข้อมูล การส่งของออกนอกบ้าน ตรงนั้นต้องมีคนหรือโมเดลระดับสูงสุดยืนเฝ้าเสมอ ไม่ว่างานรอบข้างจะใช้ตัวไหน

ช่วงที่ 3ตารางตัดสิน: งานไหนใช้ตัวไหน

ตารางนี้คือกติกาที่ฝูงเราใช้อยู่จริง แถวไหนเคยพลาดมาก่อน เราใส่บทเรียนไว้ให้ด้วย

งานใช้ทำไม
ค้นไฟล์ หา pattern รวบรวมข้อมูลกว้างHaiku หลายตัวพร้อมกันงานอ่านมากคิดน้อย ราคาต่อตัวถูกจนยิงขนานได้ไม่ต้องเสียดาย
เขียนโค้ดตาม spec ชัด, เทสต์, boilerplate, งานซ้ำรูปแบบSonnetเกณฑ์ตรวจรับอยู่นอกโมเดล จ่ายค่าความคิดเพิ่มก็ไม่ได้อะไรเพิ่ม
ออกแบบระบบ ดีบักข้ามไฟล์ review โค้ดคนอื่นOpusของจริงจากฝูงเรา: Opus จับบั๊ก dependency ทางอ้อมที่ Sonnet อ่านผ่านไปเฉยๆ ค่าตัวที่แพงกว่าคืนทุนตรงเคสแบบนี้
แตกงานใหญ่ สังเคราะห์ผลหลายแหล่ง ตัดสินใจในเรื่องกำกวมFable 5งานที่ผิดทีเดียวแพงทั้งสาย เช่น วางแผนผิดตั้งแต่ต้น ทุกตัวที่รับงานต่อก็ผิดตาม
งาน routine ปริมาณมาก ที่เผลอโยนให้ตัวแพงอย่าทำคืนที่เล่าตอนเปิดเรื่องนั่นแหละ สถาปนิกก่ออิฐจน credit หมด

สังเกตว่าคอลัมน์กลางไม่มีคำว่า "ดีที่สุด" มีแต่ "พอดีที่สุด" อย่าจ่ายค่า reasoning ให้งานที่ไม่ต้อง reason คือประโยคที่เราเขียนติดไว้ในกติกาฝูงจริงๆ

ช่วงที่ 4ไม่มีระดับสูงสุด? บีบระดับกลางด้วย process

คำถามที่ตามมาแทบทันทีคือ ถ้าไม่อยากจ่ายระดับบนสุดล่ะ ใช้ Opus เป็นหัวแทนได้ไหม จากช่วงที่ 2 คำตอบมีเงื่อนไข: ได้ ถ้าลดความกำกวมให้มันก่อน และนี่คือคันโยกหกตัวที่เราใช้

  1. เปลี่ยน judgment เป็น checklist สิ่งที่ระดับสูงทำเองโดยไม่ต้องสั่ง เช่น เช็คที่มาของ claim ก่อนเชื่อ เขียนออกมาเป็นข้อให้ระดับกลางไล่ตามแบบ mechanical
  2. เอาส่วนต่างราคาไปซื้อรอบ ผ่านเดียวของตัวแพง แลกได้กับ ร่าง แล้ววิจารณ์ตัวเอง แล้วแก้ ของตัวถูก ซึ่งรวมแล้วยังถูกกว่า
  3. ใช้สองโมเดลต่างค่ายกับงานเดียวกัน แล้วให้ตัวที่สามตัดสิน จุดบอดของโมเดลเดียวกันมันซ้ำกัน ความต่างค่ายคือภูมิคุ้มกัน
  4. หั่นงานเล็กลงกว่าที่คิดว่าจำเป็น พร้อมเกณฑ์ตรวจรับที่รันได้ต่อชิ้น ยิ่งบรีฟสั้นและชัด ระดับกลางยิ่งแม่นขึ้นชัดกว่าที่มันช่วยระดับสูง
  5. เปิดโหมดคิดนานเฉพาะโหนดยาก จุดออกแบบกับดีบักเปิดเต็ม ที่เหลือวิ่งเร็ว เท่ากับจำลองเศรษฐศาสตร์ของระดับสูงด้วยมือ
  6. วางคนไว้ที่จุดย้อนกลับไม่ได้ จุดแข็งจริงของระดับสูงสุดคือการอ่านสถานการณ์ตรงจุดตัดสินใจ ไม่มีมัน ก็เอาคนไปยืนตรงนั้นแทน แล้วปล่อยโมเดลวิ่งเต็มสปีดระหว่างจุด

ต้องซื่อสัตย์กับคุณตรงนี้: ประโยคที่ว่า "ระดับกลางบวก process ที่แน่น ชนะระดับสูงที่ทำงานหลวมๆ ได้" ยังเป็นสมมติฐาน ไม่ใช่ผลวัด เราเชื่อมันจากการใช้งานรายวัน แต่ยังไม่เคยตั้ง A/B เทียบตรงๆ ตอนนี้ระบบรายงานการใช้ token รายวันของฝูงเก็บตัวเลขอยู่ ถ้าผลออกมาเถียงเรา จะกลับมาแก้บทความนี้พร้อมแปะตัวเลขให้ดู

ช่วงที่ 5เอาไปใช้กับงานของคุณ

กฎข้อเดียวที่ต้องจำ

ก่อนเลือกโมเดล ถามว่า งานนี้กำกวมแค่ไหน ไม่ใช่ยากแค่ไหน งานชัดใช้ตัวถูกแล้วเอาเงินที่เหลือไปซื้อรอบตรวจ งานกำกวมค่อยจ่ายตัวแพง แล้วให้มันทำเฉพาะส่วนที่กำกวมจริง

เริ่มยังไงดี

  1. เปิดดูงานที่ให้ AI ทำในสัปดาห์ที่ผ่านมา แล้วแบ่งเป็นสามกอง: สั่งชัดมีเกณฑ์ตรวจ, ต้องออกแบบหรือดีบัก, ต้องตัดสินใจในเรื่องที่ยังไม่ชัด
  2. กองแรกย้ายลง Sonnet ให้หมด ถ้าผลตก อย่าเพิ่งอัปเกรดโมเดล ให้ดูว่าบรีฟกำกวมตรงไหนก่อน
  3. กองสามเท่านั้นที่คุ้มระดับบนสุด และถ้างานนั้นย้อนกลับไม่ได้ วางตัวเองไว้ตรงจุดกดปุ่มเสมอ

แค่จัดกองใหม่รอบเดียว บิลก็มักจะเบาลงให้เห็น โดยที่คุณภาพงานไม่ตกเลย เพราะงานส่วนใหญ่ในกองแรกไม่เคยต้องการความคิดระดับที่เราจ่ายให้มันอยู่แล้ว

ส่วนราคาต่อระดับกับเรื่อง subscription เทียบ API เราแยกไว้อีกบทความ (ลิงก์ด้านล่าง) เพราะตัวเลขเปลี่ยนบ่อยกว่าหลักการ บทความนี้ขอยืนที่หลักการ: เลือกจากความกำกวมของงาน แล้วให้ process ทำงานแทนราคา

ที่มาและอ้างอิง

ซีรีส์เดียวกัน: Claude Code: subscription หรือ API ดี · Claude Fable 5 เป็นหัว ที่เหลือเป็นมือ: subagents ทำงานแทนยังไง · โมเดล local ตัวไหนพอดีกับงานไหน · สัมภาษณ์ Fable 5: AI orchestration ให้รุ่นถูกกว่าทำงานแทน

ติดตาม

รับบทความใหม่และของฟรีก่อนใคร

ทิ้งอีเมลไว้ บทความใหม่และของฟรีเป็นครั้งคราวจะส่งไปให้ ไม่สแปม

ใช้อีเมลเพื่อส่งอัปเดตเท่านั้น

ความคิดเห็น

ร่วมพูดคุย

แบ่งปันความคิดเห็นได้เลย

ชื่อจะแสดงต่อสาธารณะ อีเมลเก็บเป็นความลับ ไม่แสดงที่ไหน

กำลังโหลดความคิดเห็น…