เรามี AI agent ลงทุนส่วนตัวรันอยู่ตัวหนึ่ง สมองของมันต่อผ่าน OpenRouter มาตั้งแต่วันแรก พอเปิดหน้า usage ดูตอนนั่งเขียนโพสต์นี้ ค่าใช้จ่ายสะสมทั้งหมดคือ 0.47 ดอลลาร์ ไม่ได้พิมพ์ผิด สี่สิบเจ็ดเซนต์ จากงานที่รันจริงทุกวัน
โพสต์ที่แล้วเราเล่าเรื่องเอากล่อง AI ขึ้นเว็บ static แล้วแตะ OpenRouter ไว้นิดหนึ่งว่าทำไมไม่เลือกโมเดลฟรีของเขา ตอนนั้นตอบจากตัวเลขในเอกสาร คราวนี้ในเมื่อมี key จริงอยู่ในมือ ก็ไม่ต้องเชื่อเอกสารแล้ว ยิงวัดเองให้จบ ทั้งคลังโมเดลฟรี กติกาโควต้า และคำถามที่สำคัญกว่าทุกอย่าง กดแล้วได้คำตอบจริงไหม
ช่วงที่ 1ของฟรี 23 ตัว กับกติกาที่ซ่อนในเลขเดียว
OpenRouter มีโมเดลให้เลือกหลายร้อยตัว ในนั้นเปิดเป็นรุ่นฟรีอยู่ 23 ตัว (นับจาก API ของเขาเอง วันที่ 4 ก.ค. 2026) และไม่ใช่ตัวเล็ก ๆ ด้วย ตัวเด่นของคลังฟรีตอนนี้
- nemotron-3-ultra ขนาด 550B ใหญ่สุดในคลังฟรี
- hermes-405b ขนาด 405B
- gpt-oss-120b โมเดลที่ OpenAI เปิดให้โหลดไปรันเองได้ สาย reasoning (คิดเป็นขั้นก่อนตอบ)
- qwen3-next-80b ตระกูล Qwen รุ่นใหม่
- llama-3.3-70b ตัวเดียวกับที่เราใช้บน Workers AI ในโพสต์ที่แล้ว
กติกาการใช้ฟรีอยู่ในเอกสารหน้าเดียว (ตรวจล่าสุดวันเดียวกัน) สรุปได้สามข้อ
- โมเดลฟรีคือรุ่นย่อยที่รหัสลงท้าย
:freeมีเพดานยิงต่อนาทีกำกับอยู่ชั้นหนึ่ง - บัญชีที่ไม่เคยเติมเงินเลย เรียกโมเดลฟรีได้ 50 ครั้งต่อวัน
- เติมเงินสะสมถึง 10 ดอลลาร์เมื่อไหร่ เพดานขยับเป็น 1,000 ครั้งต่อวัน
บัญชีเราเคยเติมไปรอบหนึ่งแล้ว (บิล 47 เซนต์ที่เล่าไปก็หักจากก้อนนั้นแหละ) สถานะนี้เช็คได้จาก endpoint /key ของเขา ฟิลด์ is_free_tier ของเราตอบ false เพดานเราจึงเป็น 1,000 ครั้งต่อวัน อ่านถึงตรงนี้ก็ดูเป็นดีลที่ดีมาก จ่ายครั้งเดียว 10 ดอลลาร์ ได้สิทธิ์เรียกโมเดลระดับ 550B วันละพันครั้ง
แต่เลข 1,000 นี้มีสิ่งที่ไม่ได้สัญญาไว้ โควต้าเป็นของบัญชีเรา แต่เครื่องที่รันเป็นของทุกคน และตรงนี้แหละที่ตัวเลขในเอกสารกับของจริงแยกทางกัน
ช่วงที่ 2rate limit ของจริง: โควต้าเหลือเต็ม แต่โดน 429 ทั้งเก้าครั้ง
บ่ายวันที่ 4 ก.ค. เรายิงสามโมเดลจากคลังฟรี ด้วย key จริง ในวันที่ยังไม่ได้ใช้โควต้าเลยสักครั้ง ผลออกมาแบบนี้
| โมเดล (รุ่น :free) | ยิงไป | ผลที่ได้ |
|---|---|---|
| llama-3.3-70b | 9 ครั้ง ใน ~5 นาที | 429 ทั้ง 9 ครั้ง ไม่ได้คำตอบเลย |
| qwen3-next-80b | 3 ครั้ง | 429 ทั้ง 3 ครั้ง |
| gpt-oss-120b | 2 ครั้ง | ครั้งที่ 2 ได้คำตอบ ใช้เวลา 34.7 วินาที |
ข้อความ error ที่ได้กลับมาน่าสนใจกว่าตัวเลขอีก มันเขียนว่า temporarily rate-limited upstream คนที่บอกว่ารับไม่ไหวไม่ใช่ OpenRouter แต่เป็น provider ปลายทางที่แบ่งเครื่องมารันโมเดลฟรีตัวนั้น เราโดน 429 ทั้งเก้าครั้ง ทั้งที่โควต้า 1,000 ของวันนั้นยังเต็มอยู่ เพราะคิวที่เต็มไม่ใช่คิวของบัญชีเรา แต่เป็นคิวรวมของทุกคนบนอินเทอร์เน็ตที่กำลังเรียกโมเดลฟรีตัวเดียวกันอยู่นาทีนั้น
ส่วน gpt-oss-120b ที่ได้คำตอบ ก็มีเรื่องให้เล่าอีกสองอย่าง อย่างแรก ภาษาไทยใช้ได้จริง อย่างที่สอง ความช้า 34.7 วินาทีไม่ใช่เพราะคิวยาว แต่เพราะตัวโมเดลเป็นสาย reasoning ที่คิดก่อนตอบ ขาออก 1,380 token นับรวมช่วงคิดในใจด้วย (ขาเข้ามีแค่ 123) ใครจะใช้โมเดลแนวนี้ อย่าลืมว่าช่วงคิดก็เป็นของที่ต้องรอ และในรุ่นเสียเงินก็เป็นของที่ต้องจ่ายด้วย
ช่วงที่ 3ฟรีแบบมีเจ้าภาพ กับฟรีแบบต่อคิว
ตัวที่ทำให้ภาพชัดที่สุดคือ llama-3.3-70b เพราะโมเดลตัวเดียวกันนี้อยู่ในมือเราสองที่ ที่แรกคือรุ่น :free บน OpenRouter ที่เพิ่งโดน 429 ไปเก้าครั้ง อีกที่คือบน Workers AI ที่เราวัดไว้ในโพสต์ที่แล้ว วันเดียวกันเป๊ะ
| เส้นทาง | ผลที่วัดได้ (4 ก.ค. 2026) |
|---|---|
| OpenRouter llama-3.3-70b:free | ยิง 9 ครั้ง ไม่ได้คำตอบเลย (429 ทุกครั้ง) |
| Workers AI llama-3.3-70b (fast) | ยิง 5 ครั้ง ได้ครบทุกครั้ง เฉลี่ย 9.8 วินาที ไม่เจอ 429 |
ความต่างไม่ได้อยู่ที่โมเดล อยู่ที่ใครเป็นเจ้าของคิวต่างหาก พอมองจากมุมนี้ ของฟรีในโลก AI ตอนนี้มีสองแบบ
- ฟรีแบบมีเจ้าภาพ โควต้าฟรีที่ผูกกับบัญชีเรา บนเครื่องที่ผู้ให้บริการคุมเองทั้งระบบ อย่าง Workers AI ให้วันละ 10,000 neurons (หน่วยนับค่าใช้งานของเขา) ช้าหน่อยแต่มาแน่
- ฟรีแบบต่อคิว pool กลางที่ทุกคนแชร์กัน อย่างรุ่น :free ของ OpenRouter บางจังหวะว่าง บางจังหวะเต็มทั้งบ่าย เราเดาไม่ได้ และคุมไม่ได้
แบบแรกเหมาะกับของที่มีคนรออยู่หน้าจอ แบบหลังเหมาะกับของที่รอได้ retry ได้ หรือแค่อยากลองให้รู้
ช่วงที่ 4งานแบบไหน ควรใช้ทางไหน
| งานของคุณ | ทางที่เหมาะ | เหตุผล |
|---|---|---|
| อยากลองโมเดลใหม่ เทียบหลายตัว | OpenRouter :free | คลังเดียว 23 ตัว รวมของระดับ 550B ใช้ key เดียว เปลี่ยนชื่อโมเดลบรรทัดเดียว |
| สคริปต์เบื้องหลังที่รอได้ retry ได้ | OpenRouter :free + เขียน retry | 429 คือธรรมชาติของ pool ฟรี ออกแบบเผื่อไว้ตั้งแต่แรกก็ใช้งานได้ |
| endpoint บนเว็บที่คนนั่งรอคำตอบ | Workers AI หรือโควต้าที่มีเจ้าภาพ | คิวเป็นของเรา ตอบช้าได้แต่ต้องตอบแน่ วิธีทำทั้งระบบอยู่ในโพสต์ที่แล้ว |
| traffic โตจนเกินโควต้าฟรี | OpenRouter แบบจ่ายต่อ token | ขยับจากฟรีได้โดยแทบไม่ต้องแก้โค้ด และการเติม 10 ดอลลาร์แรกก็ปลดเพดาน :free เป็น 1,000 ครั้งให้ด้วยในตัว |
ถ้าจะเก็บหลักการเดียวจากโพสต์นี้กลับไป ขอให้เป็นข้อนี้ ก่อนใช้ของฟรี ให้ถามว่าใครเป็นเจ้าของคิว ถ้าคิวเป็นของเรา ฟรีแปลว่าถูก ถ้าคิวเป็นของทุกคน ฟรีแปลว่าไม่แน่นอน แล้วออกแบบงานให้อยู่กับความไม่แน่นอนนั้นให้ได้
เริ่มยังไง
- สมัคร OpenRouter สร้าง key แล้วลองยิงรุ่น :free สักตัวด้วยงานจริงของคุณ ไม่ต้องผูกบัตร
- ถ้าเจอ 429 อย่าเพิ่งสรุปว่าใช้ไม่ได้ นั่นคือธรรมชาติของคิวฟรี เขียน retry แล้วปล่อยให้มันทำงานเบื้องหลังไป
- วันไหนอยากให้ AI ขึ้นไปนั่งบนหน้าเว็บให้คนอื่นใช้ ค่อยย้ายไปเส้นทางที่มีเจ้าภาพ ซึ่งเราเขียนวิธีทำไว้แล้วในโพสต์ที่แล้ว
agent ลงทุนตัวนั้นยังรันอยู่ทุกวัน บิลยังไต่ขึ้นทีละไม่กี่เซนต์ ส่วนโมเดลฟรีทั้ง 23 ตัว เราเก็บไว้เป็นสนามซ้อม ไม่ใช่สนามจริง ของฟรีที่ดีที่สุดไม่ใช่ตัวที่ใหญ่ที่สุด แต่คือตัวที่เรารู้ว่าฟรีตรงไหน
- กติกาโมเดลฟรีและเพดานต่อวัน: API Rate Limits (OpenRouter Docs) ตรวจล่าสุด 4 ก.ค. 2026: รุ่น :free มีเพดานต่อนาที บัญชีเติมเงินสะสมไม่ถึง $10 เรียกได้ 50 ครั้ง/วัน ถึง $10 เรียกได้ 1,000 ครั้ง/วัน
- ผลวัด 429 และเวลา: วัดเองด้วย key จริงของเรา 4 ก.ค. 2026 (llama-3.3-70b:free 9 ครั้ง, qwen3-next-80b:free 3 ครั้ง, gpt-oss-120b:free 2 ครั้ง สำเร็จครั้งที่ 2 ที่ 34.7 วินาที ขาเข้า 123 / ขาออก 1,380 token) สถานะบัญชีตรวจจาก endpoint
/key(is_free_tier: false) - จำนวนโมเดลฟรี 23 ตัว: นับจากคลังโมเดลของ OpenRouter ผ่าน API วันเดียวกัน
- ตัวเลข Workers AI (ได้ครบ 5/5 เฉลี่ย 9.8 วินาที): จากโพสต์ที่แล้วของเรา วัดวันเดียวกัน