ต้นเดือนกรกฎา เราปล่อยให้โมเดลที่แพงที่สุดในบ้าน นั่งเขียน HTML กับ CSS ราวสองพันบรรทัดด้วยมือ มันทำได้ดีด้วย ประณีตทุกบรรทัด แต่พองานใกล้เสร็จ credit ก็หมดกลางอากาศ ต้องเรียกโมเดลอีกตัวที่ถูกกว่ามารับช่วงต่อ พร้อมโน้ตส่งงานยาวเหยียด
ความผิดไม่ใช่ของโมเดล มันทำงานที่ถูกสั่งอย่างซื่อสัตย์ ความผิดคือการจัดงาน: เราเอาหัวหน้าสถาปนิกมานั่งก่ออิฐ แล้วจ่ายค่าตัวสถาปนิกให้กับกำแพงที่ช่างปูนคนไหนก็ก่อได้
คืนนั้นทำให้เรานั่งเขียนกติกาการเลือกโมเดลของทั้งฝูงใหม่ทั้งชุด บทความนี้คือกติกาชุดนั้น เทียบ Claude ทั้งสี่ระดับจากการใช้งานจริง ว่างานแบบไหนควรใช้ตัวไหน และถ้ามีงบแค่ตัวกลาง จะบีบให้มันทำงานเกินระดับตัวเองได้ยังไง
ช่วงที่ 1รู้จักทั้งสี่ระดับ
ตระกูล Claude ตอนนี้มีสี่ระดับที่เราใช้งานจริง สามตัวแรกคุ้นชื่อกันดี ตัวที่สี่เพิ่งมา: Fable 5 โมเดลแรกของตระกูล Claude 5 อยู่ในระดับใหม่ชื่อ Mythos-class ที่ Anthropic วางไว้เหนือ Opus (ประกาศทางการ)
| ระดับ | นิสัยเด่น | บทบาทในทีมของเรา |
|---|---|---|
| Haiku | เร็วและถูกที่สุด ตอบตรงคำถาม | หน่วยลาดตระเวน: ค้นไฟล์ กวาดหา pattern ยิงพร้อมกันได้เป็นสิบตัว |
| Sonnet | สมดุลราคากับฝีมือ ทำตามสั่งแม่น | มือหลักของทีม: เขียนโค้ดตาม spec เขียนเทสต์ งานซ้ำรูปแบบ |
| Opus | คิดหลายชั้น เห็นความเชื่อมโยงข้ามไฟล์ | นักคิด: ออกแบบระบบ ดีบักเคสยาก review งานของตัวอื่น |
| Fable 5 | อ่านสถานการณ์ ชั่ง tradeoff จับความกำกวม | หัวหน้างาน: แตกงาน สังเคราะห์ผลข้ามแหล่ง เฝ้าจุดตัดสินใจ |
ข้อที่ต้องพูดให้ชัดก่อนไปต่อ: ความต่างระหว่างระดับบนสุดกับระดับรองเป็นเรื่องของดีกรี ไม่ใช่ชนิด Fable ไม่ได้ทำอะไรที่ Opus ทำไม่ได้เลย มันแค่พลาดน้อยกว่าในงานที่ตีความยาก และนั่นแปลว่าคำถามเรื่องเลือกโมเดล จริงๆ เป็นคำถามเรื่องธรรมชาติของงาน
ช่วงที่ 2เกณฑ์เดียวที่สำคัญที่สุด: ความกำกวมของงาน
ตอนแรกเราก็คิดแบบที่ทุกคนคิด ว่าเกณฑ์คือความยากของงาน งานยากใช้ตัวแพง งานง่ายใช้ตัวถูก แต่พอรันฝูง agent จริงมาหลายเดือน เกณฑ์ที่ใช้งานได้จริงกลับเป็นอีกตัว: ความกำกวม ไม่ใช่ความยาก
งานที่ยากแต่ชัด เช่น เขียน parser ตาม grammar ที่ระบุครบ มี test ให้รันตรวจ งานแบบนี้ Sonnet ทำได้ดีจนแยกจากตัวแพงแทบไม่ออก เพราะเกณฑ์ตัดสินอยู่นอกตัวโมเดล: เทสต์ผ่านคือผ่าน
ส่วนงานที่ดูง่ายแต่กำกวม เช่น "ช่วยดูหน่อยว่า handoff นี้เชื่อได้ไหม" อันนี้ระดับโมเดลโผล่ทันที เพราะต้องอ่านว่าคนเขียนรู้จริงหรือเดา ต้องจับว่าประโยคไหนคือ claim ที่ยังไม่ verify ความสามารถแบบนี้ไม่มีเทสต์ให้รัน
ช่องว่างระหว่างระดับโมเดล แคบลงตามความชัดของงาน ยิ่ง spec แน่น เกณฑ์ตรวจรับรันได้ งานหั่นเล็ก โมเดลถูกก็ยิ่งทำได้เท่าโมเดลแพง
มีเกณฑ์รองอีกตัวที่เราใช้คู่กัน: action นั้นย้อนกลับได้ไหม งานที่พังแล้ว undo ได้ ปล่อยระดับไหนทำก็ได้ตามความกำกวมของมัน แต่จุดที่ย้อนไม่ได้ อย่างการ deploy การลบข้อมูล การส่งของออกนอกบ้าน ตรงนั้นต้องมีคนหรือโมเดลระดับสูงสุดยืนเฝ้าเสมอ ไม่ว่างานรอบข้างจะใช้ตัวไหน
ช่วงที่ 3ตารางตัดสิน: งานไหนใช้ตัวไหน
ตารางนี้คือกติกาที่ฝูงเราใช้อยู่จริง แถวไหนเคยพลาดมาก่อน เราใส่บทเรียนไว้ให้ด้วย
| งาน | ใช้ | ทำไม |
|---|---|---|
| ค้นไฟล์ หา pattern รวบรวมข้อมูลกว้าง | Haiku หลายตัวพร้อมกัน | งานอ่านมากคิดน้อย ราคาต่อตัวถูกจนยิงขนานได้ไม่ต้องเสียดาย |
| เขียนโค้ดตาม spec ชัด, เทสต์, boilerplate, งานซ้ำรูปแบบ | Sonnet | เกณฑ์ตรวจรับอยู่นอกโมเดล จ่ายค่าความคิดเพิ่มก็ไม่ได้อะไรเพิ่ม |
| ออกแบบระบบ ดีบักข้ามไฟล์ review โค้ดคนอื่น | Opus | ของจริงจากฝูงเรา: Opus จับบั๊ก dependency ทางอ้อมที่ Sonnet อ่านผ่านไปเฉยๆ ค่าตัวที่แพงกว่าคืนทุนตรงเคสแบบนี้ |
| แตกงานใหญ่ สังเคราะห์ผลหลายแหล่ง ตัดสินใจในเรื่องกำกวม | Fable 5 | งานที่ผิดทีเดียวแพงทั้งสาย เช่น วางแผนผิดตั้งแต่ต้น ทุกตัวที่รับงานต่อก็ผิดตาม |
| งาน routine ปริมาณมาก ที่เผลอโยนให้ตัวแพง | อย่าทำ | คืนที่เล่าตอนเปิดเรื่องนั่นแหละ สถาปนิกก่ออิฐจน credit หมด |
สังเกตว่าคอลัมน์กลางไม่มีคำว่า "ดีที่สุด" มีแต่ "พอดีที่สุด" อย่าจ่ายค่า reasoning ให้งานที่ไม่ต้อง reason คือประโยคที่เราเขียนติดไว้ในกติกาฝูงจริงๆ
ช่วงที่ 4ไม่มีระดับสูงสุด? บีบระดับกลางด้วย process
คำถามที่ตามมาแทบทันทีคือ ถ้าไม่อยากจ่ายระดับบนสุดล่ะ ใช้ Opus เป็นหัวแทนได้ไหม จากช่วงที่ 2 คำตอบมีเงื่อนไข: ได้ ถ้าลดความกำกวมให้มันก่อน และนี่คือคันโยกหกตัวที่เราใช้
- เปลี่ยน judgment เป็น checklist สิ่งที่ระดับสูงทำเองโดยไม่ต้องสั่ง เช่น เช็คที่มาของ claim ก่อนเชื่อ เขียนออกมาเป็นข้อให้ระดับกลางไล่ตามแบบ mechanical
- เอาส่วนต่างราคาไปซื้อรอบ ผ่านเดียวของตัวแพง แลกได้กับ ร่าง แล้ววิจารณ์ตัวเอง แล้วแก้ ของตัวถูก ซึ่งรวมแล้วยังถูกกว่า
- ใช้สองโมเดลต่างค่ายกับงานเดียวกัน แล้วให้ตัวที่สามตัดสิน จุดบอดของโมเดลเดียวกันมันซ้ำกัน ความต่างค่ายคือภูมิคุ้มกัน
- หั่นงานเล็กลงกว่าที่คิดว่าจำเป็น พร้อมเกณฑ์ตรวจรับที่รันได้ต่อชิ้น ยิ่งบรีฟสั้นและชัด ระดับกลางยิ่งแม่นขึ้นชัดกว่าที่มันช่วยระดับสูง
- เปิดโหมดคิดนานเฉพาะโหนดยาก จุดออกแบบกับดีบักเปิดเต็ม ที่เหลือวิ่งเร็ว เท่ากับจำลองเศรษฐศาสตร์ของระดับสูงด้วยมือ
- วางคนไว้ที่จุดย้อนกลับไม่ได้ จุดแข็งจริงของระดับสูงสุดคือการอ่านสถานการณ์ตรงจุดตัดสินใจ ไม่มีมัน ก็เอาคนไปยืนตรงนั้นแทน แล้วปล่อยโมเดลวิ่งเต็มสปีดระหว่างจุด
ต้องซื่อสัตย์กับคุณตรงนี้: ประโยคที่ว่า "ระดับกลางบวก process ที่แน่น ชนะระดับสูงที่ทำงานหลวมๆ ได้" ยังเป็นสมมติฐาน ไม่ใช่ผลวัด เราเชื่อมันจากการใช้งานรายวัน แต่ยังไม่เคยตั้ง A/B เทียบตรงๆ ตอนนี้ระบบรายงานการใช้ token รายวันของฝูงเก็บตัวเลขอยู่ ถ้าผลออกมาเถียงเรา จะกลับมาแก้บทความนี้พร้อมแปะตัวเลขให้ดู
ช่วงที่ 5เอาไปใช้กับงานของคุณ
กฎข้อเดียวที่ต้องจำ
ก่อนเลือกโมเดล ถามว่า งานนี้กำกวมแค่ไหน ไม่ใช่ยากแค่ไหน งานชัดใช้ตัวถูกแล้วเอาเงินที่เหลือไปซื้อรอบตรวจ งานกำกวมค่อยจ่ายตัวแพง แล้วให้มันทำเฉพาะส่วนที่กำกวมจริง
เริ่มยังไงดี
- เปิดดูงานที่ให้ AI ทำในสัปดาห์ที่ผ่านมา แล้วแบ่งเป็นสามกอง: สั่งชัดมีเกณฑ์ตรวจ, ต้องออกแบบหรือดีบัก, ต้องตัดสินใจในเรื่องที่ยังไม่ชัด
- กองแรกย้ายลง Sonnet ให้หมด ถ้าผลตก อย่าเพิ่งอัปเกรดโมเดล ให้ดูว่าบรีฟกำกวมตรงไหนก่อน
- กองสามเท่านั้นที่คุ้มระดับบนสุด และถ้างานนั้นย้อนกลับไม่ได้ วางตัวเองไว้ตรงจุดกดปุ่มเสมอ
แค่จัดกองใหม่รอบเดียว บิลก็มักจะเบาลงให้เห็น โดยที่คุณภาพงานไม่ตกเลย เพราะงานส่วนใหญ่ในกองแรกไม่เคยต้องการความคิดระดับที่เราจ่ายให้มันอยู่แล้ว
ส่วนราคาต่อระดับกับเรื่อง subscription เทียบ API เราแยกไว้อีกบทความ (ลิงก์ด้านล่าง) เพราะตัวเลขเปลี่ยนบ่อยกว่าหลักการ บทความนี้ขอยืนที่หลักการ: เลือกจากความกำกวมของงาน แล้วให้ process ทำงานแทนราคา
- ประกาศ Claude Fable 5 / Mythos-class: anthropic.com/news/claude-fable-5-mythos-5
- เหตุการณ์ credit หมดกลางงาน, เคส Opus จับบั๊กที่ Sonnet พลาด และกติกาการแบ่งระดับ มาจากบันทึกการทำงานจริงของฝูง agent เรา (กรกฎาคม 2026)
ซีรีส์เดียวกัน: Claude Code: subscription หรือ API ดี · Claude Fable 5 เป็นหัว ที่เหลือเป็นมือ: subagents ทำงานแทนยังไง · โมเดล local ตัวไหนพอดีกับงานไหน · สัมภาษณ์ Fable 5: AI orchestration ให้รุ่นถูกกว่าทำงานแทน