Self-hosted LLM คุ้มกว่าจ่ายต่อ token ตอนไหน

คุ้มเมื่องานยิงต่อเนื่องมากพอที่ค่าเช่ารายชั่วโมงหารออกมาแล้วถูกกว่าค่า token สูตรคือ ค่าเช่าต่อชั่วโมง หารด้วย ค่าใช้จ่ายต่องานผ่าน API เช่น GPU $0.36/ชม. กับงานละ $0.004 ต้องยิงเกิน 90 งานต่อชั่วโมงแบบต่อเนื่องถึงเริ่มคุ้ม ต่ำกว่านั้นจ่ายต่อ token ถูกกว่า เพราะ GPU เช่าคิดเงินทุกชั่วโมงรวมชั่วโมงที่ว่าง

เช่า GPU รันโมเดลที่ไหนถูกสุด

ราคาที่เราตรวจเอง 3 ก.ค. 2026 สำหรับ RTX 5090: Salad $0.25/ชม. (เครือข่ายเครื่อง consumer) Vast.ai เริ่ม $0.36/ชม. สำหรับเครื่อง verified (ตลาดประมูล ราคาแกว่งตามอุปทาน) RunPod $0.99/ชม. (community cloud ศูนย์ข้อมูล) ถูกสุดไม่เท่ากับเหมาะสุด ต้องดูว่าข้อมูลของเรานั่งอยู่บนเครื่องของใคร

ทำไม Salad ถึงถูกกว่าเจ้าอื่นมาก

เพราะโครงสร้างเป็นเครือข่ายกระจาย Salad อธิบายเองว่าใช้ GPU กว่า 60,000 ตัวทั้งเครื่อง consumer และ data center ส่วนใหญ่คือเครื่องเกมของคนทั่วไปที่แบ่งให้เช่าตอนว่าง ข้อแลกคืองานของเราไปรันบนเครื่องที่เราไม่รู้จัก เหมาะกับงานสาธารณะที่ข้อมูลรั่วได้โดยไม่เสียหาย ไม่เหมาะกับข้อมูลส่วนตัวหรือข้อมูลลูกค้า

Serverless GPU ต่างจากเช่า GPU รายชั่วโมงยังไง

เช่ารายชั่วโมงคือเหมาเครื่องไว้ตลอด มิเตอร์เดินแม้ตอนไม่มีงาน serverless GPU คือเครื่องถูกปลุกเมื่อมีงานเข้าและคิดเงินเฉพาะช่วงที่รัน เรตต่อชั่วโมงแพงกว่า (เช่น RunPod serverless 5090 $1.58/ชม. เทียบ pod $0.99/ชม.) แต่ชั่วโมงว่างเป็นศูนย์ เหมาะกับงานที่มาเป็นพักๆ แลกกับ cold start ตอนปลุกเครื่อง

Self-hosted LLM: เช่า GPU รันโมเดลเองตอนไหนถึงคุ้ม

คำตอบสั้นๆ

รันโมเดลเองคุ้มเมื่องานยิงต่อเนื่องพอ: ค่าเช่าต่อชั่วโมงหารด้วยค่างานต่อชิ้นผ่าน API คือจำนวนงานต่อชั่วโมงที่ต้องยิงให้ถึง เช่น GPU $0.36/ชม. กับงานละ $0.004 ต้องเกิน 90 งาน/ชม. ต่อเนื่อง ราคา RTX 5090 วันนี้: Salad $0.25 · Vast $0.36 · RunPod $0.99 แต่ตัวตัดสินจริงมีสองตัว คือชั่วโมงที่เครื่องว่าง กับข้อมูลของเราไปนั่งอยู่บนเครื่องของใคร

เมื่อวานเราเพิ่งเช่า GPU ตัวแรกให้ตัวเอง RTX 5090 หนึ่งตัวบน Vast.ai เป็นเครื่องเกรด datacenter ในยุโรป ราคา $0.756 ต่อชั่วโมง (ในตลาดมีถูกกว่านี้ครึ่งหนึ่ง เดี๋ยวเล่าว่าทำไมเราจ่ายแพงขึ้น) เอาไว้รันโมเดล open-weight (โมเดลที่เปิดตัวน้ำหนักให้โหลดไปรันเองได้) ขนาด 27B หรือ 27 พันล้านพารามิเตอร์ ผ่าน vLLM สำหรับงานสั้นๆ ที่ต้องยิงเป็นชุดจำนวนมาก ตอนกดจองใช้เวลาไม่ถึงห้านาที เครื่องมาจริง รันจริง ตอบจริง

สิ่งที่ใช้เวลานานกว่านั้นมากคือคำถามก่อนหน้า: ควรเช่าเครื่องเองตั้งแต่แรกหรือเปล่า ในเมื่อโมเดลเดียวกันนี้จ่ายต่อ token ผ่าน API ก็ได้ ไม่ต้องดูแลเครื่อง ไม่มีค่าเช่าตอนไม่ใช้ บทความนี้เลยเก็บการบ้านที่ทำตอนตัดสินใจมาเรียงให้ดู ราคาทุกตัวตรวจสดจากหน้าผู้ให้บริการวันที่ 3 ก.ค. 2026 และสูตรคิดทั้งหมดเป็นสูตรที่ใช้กับงานตัวเองจริง

ศัพท์ที่จะใช้ รวมไว้ตรงนี้ที่เดียว

self-hosted LLM การรันโมเดลภาษาบนเครื่องที่เราคุมเอง จะเป็นเครื่องที่บ้านหรือ GPU ที่เช่ามาก็นับ
per-token API บริการที่รับ prompt แล้วคิดเงินตามจำนวน token ที่ใช้จริง ไม่ใช้ = ไม่จ่าย
GPU cloud บริการให้เช่า GPU เป็นรายชั่วโมง ได้เครื่องมาทั้งตัว ลงอะไรก็ได้
serverless GPU ทางสายกลาง เครื่องถูกปลุกเมื่อมีงานเข้า คิดเงินเฉพาะช่วงที่รัน
idle cost ค่าเช่าของชั่วโมงที่เครื่องเปิดอยู่แต่ไม่มีงานทำ
vLLM โปรแกรมเสิร์ฟโมเดล open-weight ที่นิยมใช้กัน เปิดเครื่องแล้วได้ API หน้าตาเหมือนของ OpenAI
quantization การบีบโมเดลให้เล็กลง (เช่นฟอร์แมต NVFP4) เพื่อให้โมเดลใหญ่ลงการ์ดใบเดียวได้

ช่วงที่ 1สามวิธีจ่ายเงินให้โมเดลตัวเดียวกัน

โมเดล open-weight ตัวเดียวกัน เช่น Qwen ขนาด 27B มีวิธีจ่ายเงินให้มันทำงานอยู่สามแบบ และสามแบบนี้คิดเงินคนละตรรกะ

แบบแรก จ่ายต่อ token. ผู้ให้บริการ inference เอาโมเดลขึ้นเครื่องของเขา เรายิง API แล้วจ่ายตามที่ใช้ ข้อดีที่ชนะขาดคือชั่วโมงว่างของเราเป็นศูนย์ คืนไหนไม่มีงาน คืนนั้นไม่เสียเงินเลย ข้อจำกัดคือข้อมูลทุกชิ้นวิ่งผ่านเครื่องของผู้ให้บริการ และโมเดลที่มีให้เลือกขึ้นกับเขา

แบบที่สอง เช่า GPU มารันเอง. ได้เครื่องมาทั้งตัว ลงโมเดลอะไรก็ได้ ปรับแต่งได้สุดทาง แลกกับความจริงที่โหดที่สุดของทางนี้: มิเตอร์เดินทุกชั่วโมง ไม่สนว่ามีงานหรือไม่ เครื่องที่เปิดทิ้งไว้เฉยๆ หนึ่งเดือนที่ $0.36/ชม. คือราว $260 ก่อนจะได้ทำงานสักชิ้น

แบบที่สาม serverless GPU. ทางสายกลาง ผู้ให้บริการปลุกเครื่องเมื่อมีงานเข้า คิดเงินเฉพาะวินาทีที่รัน เรตแพงกว่าเช่าเหมา (ตัวอย่างจริงในช่วงถัดไป) และมี cold start คือช่วงรอปลุกเครื่องกับโหลดโมเดล แต่ตัดปัญหาชั่วโมงว่างทิ้งทั้งก้อน

สังเกตว่ายังไม่มีคำว่า "ถูก" หรือ "แพง" เลย เพราะสามแบบนี้เทียบกันตรงๆ ไม่ได้จนกว่าจะรู้จังหวะงานของตัวเอง งานมาสม่ำเสมอทั้งวันกับงานมาเป็นพักๆ ให้คำตอบคนละทาง

ช่วงที่ 2ราคาเช่า GPU วันนี้ เทียบสามเจ้า

ตารางนี้คือราคาสำหรับ RTX 5090 (VRAM 32GB ตัวเดียวพอสำหรับโมเดล 27B ที่ผ่าน quantization แล้ว) ตรวจสดวันที่ 3 ก.ค. 2026 จากหน้าราคาทางการหรือตลาดจริงของแต่ละเจ้า

เจ้า	RTX 5090 ต่อชั่วโมง	เครื่องเป็นของใคร	เหมาะกับ
Salad	$0.25	เครือข่ายกระจาย GPU กว่า 60,000 ตัว ส่วนใหญ่เป็นเครื่อง consumer ของคนทั่วไป	งานสาธารณะที่ทนข้อมูลรั่วได้ เช่น ประมวลผลข้อมูล public ราคาชนะทุกเจ้า
Vast.ai	เริ่ม $0.36 (เครื่อง verified)	ตลาดประมูล มีทั้ง host รายย่อยและ data center เลือกเกรดเครื่องได้ ราคาแกว่งตามอุปทาน	งานทั่วไปที่อยากได้ราคาดี ยอมใช้เวลาเลือกเครื่อง จุดที่เราใช้อยู่ (เราเลือกเครื่องเกรด datacenter $0.756 ไม่ใช่ตัวถูกสุด)
RunPod	$0.99 (community pod)	ศูนย์ข้อมูล ราคานิ่ง มีทีมซัพพอร์ต	งานที่อยากได้ความนิ่งและเครื่องหายไปกลางคันไม่ได้
RunPod serverless	$1.58 (เฉพาะช่วงที่รัน)	ศูนย์ข้อมูลเดียวกัน แต่ปลุกเครื่องตามงาน	งานมาเป็นพักๆ ที่ไม่อยากจ่ายค่าเครื่องว่าง

อ่านตารางแล้วอย่าเพิ่งรีบสรุปว่า Salad ชนะ ราคาถูกสุดสามเท่าของ RunPod ก็จริง แต่คอลัมน์ที่สามสำคัญกว่าคอลัมน์ที่สอง แล้วจะกลับมาเรื่องนี้ในช่วงที่ 4

ราคาของ Vast มีรายละเอียดที่ควรรู้: มันคือตลาดประมูล ไม่ใช่ป้ายราคาตายตัว ตัวเลข $0.36 คือเครื่องเกรด verified (ผ่านการตรวจรับรองของแพลตฟอร์ม) ที่ถูกที่สุดตอนเราตรวจ ถ้ายอมรับเครื่องที่ยังไม่ verified จะเจอถูกกว่านั้นอีก และพรุ่งนี้ตัวเลขอาจขยับ ธรรมชาติของตลาดแบบนี้คือราคาดีมาพร้อมการบ้านที่ต้องทำเอง ทั้งเลือกเครื่อง เช็คความเร็วเน็ต และยอมรับว่า host รายย่อยอาจปิดเครื่องหนีได้

ช่วงที่ 3คณิตศาสตร์ของชั่วโมงว่าง

คำถาม "เช่าเองคุ้มไหม" ตอบได้ด้วยการหารเลขเดียว

ค่าเช่าต่อชั่วโมง ÷ ค่าใช้จ่ายต่องานหนึ่งชิ้นผ่าน API = จำนวนงานต่อชั่วโมงที่ต้องยิงให้ถึง ถึงจะเริ่มคุ้ม

แทนตัวเลขดู: GPU ถูกสุดในตลาดวันนี้ $0.36/ชม. งานสั้นหนึ่งชิ้น (prompt ไม่กี่ร้อย token ตอบไม่เกินร้อย token) ผ่าน API โมเดลระดับกลางตกราวๆ $0.004 ต่อชิ้น ตัวเลขนี้เป็นค่าตั้งต้นในสคริปต์วัดงาน (harness) ที่เราเขียนใช้เอง ปรับตามงานจริงของแต่ละคนได้ หารออกมาคือ 90 งานต่อชั่วโมง แบบต่อเนื่อง ยิงต่ำกว่านี้เมื่อไหร่ จ่ายต่อ token ถูกกว่า เครื่องจริงของเราที่ $0.756/ชม. เส้นคุ้มทุน (break-even) อยู่ราว 190 งานต่อชั่วโมง ส่วนเครื่อง RunPod $0.99/ชม. ขยับขึ้นไปราว 250

คำว่า "แบบต่อเนื่อง" คือหัวใจ งานที่มาเช้าชั่วโมงเดียวแล้วเงียบทั้งวัน เฉลี่ยแล้วไม่มีทางถึงเส้นนี้ เพราะชั่วโมงที่เหลือเครื่องนั่งกินค่าเช่าเฉยๆ นี่คือเหตุผลที่เราตั้งชื่อบทความว่าของแพงจริงคือชั่วโมงว่าง ค่าเช่ารายชั่วโมงไม่ใช่ต้นทุนของงาน มันคือต้นทุนของเวลา งานน้อยเวลามาก = แพงเอง

ก่อนตัดสินใจ เราเขียนสคริปต์วัดสั้นๆ ยิงงานตัวอย่างจริงใส่เครื่องแล้วนับ: งานหนึ่งชิ้นใช้กี่วินาที ชั่วโมงหนึ่งได้กี่งาน คิดเป็นเงินต่อพันงานเท่าไหร่ เทียบกับพันงานผ่าน API แล้วให้ตัวเลขตัดสิน ไม่ให้ความรู้สึก "มี GPU เองเท่แน่" ตัดสิน แนะนำให้ทำแบบเดียวกันก่อนกดเช่า ใช้เวลาเขียนไม่ถึงชั่วโมง ประหยัดเงินได้เป็นเดือน

อีกทางที่ทำให้เส้นคุ้มทุนขยับลงคือปิดเครื่องเมื่อไม่ใช้ ตลาดเช่าคิดเงินตามชั่วโมงที่เปิด งานเราเป็นรอบเช้ารอบเย็น เปิดเฉพาะช่วงรันก็จ่ายแค่นั้น แลกกับเวลาบูตเครื่องและโหลดโมเดลใหม่ทุกครั้ง ซึ่งพอโมเดลระดับ 27B ก็หลายนาทีอยู่ ต้องชั่งเอาว่างานเรารอได้ไหม

ช่วงที่ 4เส้นแบ่งที่ป้ายราคาไม่บอก: ข้อมูลไปนั่งบนเครื่องใคร

กลับมาที่คำถามค้างจากตาราง ทำไมไม่จบที่ Salad $0.25 ทั้งที่ถูกสุด

เพราะความถูกของมันมาจากโครงสร้าง Salad อธิบายตัวเองตรงๆ ว่าเป็นเครือข่าย GPU กว่า 60,000 ตัวที่รวมทั้งเครื่อง consumer และ data center พูดภาษาคนคือ ส่วนใหญ่เป็นเครื่องเกมของคนแปลกหน้าที่แบ่งให้เช่าตอนเจ้าของไม่ใช้ โมเดลของเราขึ้นไปรัน prompt ของเราวิ่งเข้าไป บนเครื่องในห้องนอนใครสักคน

สำหรับงานที่ข้อมูลเป็นของสาธารณะอยู่แล้ว นี่คือดีลที่ดีมาก แต่ถ้า prompt ของเรามีข้อมูลส่วนตัว ข้อมูลลูกค้า หรืออะไรก็ตามที่หลุดแล้วเจ็บ ราคาถูกแค่ไหนก็ไม่ควรไป เรื่องนี้ไม่ใช่การกล่าวหาว่าใครจะขโมยข้อมูล มันคือหลักพื้นฐานเดียวกับที่เราไม่เอาเอกสารลับไปถ่ายเอกสารร้านที่ไม่รู้จัก ต่อให้ถูกกว่าครึ่งราคา

นี่คือคำตอบที่ค้างไว้ตั้งแต่ต้นเรื่องว่าทำไมเครื่องของเราไม่ใช่ตัวถูกสุดในตาราง งานที่เราจะส่งขึ้นไปมีข้อมูลที่ไม่อยากให้ไปนั่งบนเครื่องของคนแปลกหน้า เลยจ่าย $0.756 ให้เครื่องเกรด datacenter แทนที่จะจ่าย $0.36 ให้เครื่องที่ตอบคำถามข้อนี้ไม่ได้

หลักที่เราใช้แบ่งจริงมีข้อเดียว: ดูว่างานชิ้นนั้นทนการรั่วได้แค่ไหน แล้วเลือกชั้นเครื่องตามนั้น งาน public ไปเครื่องถูกสุดได้เลย งานที่มีข้อมูลอ่อนไหวขึ้นมาหนึ่งขั้น อย่างน้อยต้องเป็นเครื่องเกรด verified หรือ data center และงานที่แตะข้อมูลลูกค้า ควรอยู่บนเครื่องที่มีสัญญาชัดเจนเท่านั้น ถึงตรงนั้นค่อยเทียบราคากันในชั้นเดียวกัน ไม่ใช่เทียบข้ามชั้น

ข้อดีข้อหนึ่งของ self-host ที่มักถูกลืมในบทสนทนาเรื่องราคา: เมื่อเครื่องเป็นของเรา ข้อมูลไม่ต้องเดินทางไปหาผู้ให้บริการโมเดลเลย สำหรับบางงานนี่ไม่ใช่เรื่องประหยัด แต่เป็นเงื่อนไขตั้งต้นว่าทำได้หรือไม่ได้เลยทีเดียว

ช่วงที่ 5สรุปว่าเลือกทางไหน เมื่อไหร่

กติกาที่เราสรุปให้ตัวเอง

เริ่มที่จ่ายต่อ token เสมอ ชั่วโมงว่างเป็นศูนย์ ไม่มีเครื่องให้ดูแล จนกว่าตัวเลขจะบอกว่าถึงเวลาย้าย
วัดงานตัวเองก่อนเช่า เขียนสคริปต์ยิงงานจริงแล้วหาเส้นคุ้มทุนของตัวเอง อย่าตัดสินใจจากความรู้สึก
งานถี่ต่อเนื่อง + ข้อมูลอ่อนไหว = ค่อยเช่าเครื่องเอง สองเงื่อนไขต้องมาด้วยกัน ขาดข้อแรกจ่ายแพงกว่า API ขาดข้อสองยังไม่จำเป็นต้องรีบ
งานเป็นพักๆ ให้มอง serverless GPU เรตแพงกว่าแต่จ่ายเฉพาะที่ใช้ อย่าลืมคิดค่า cold start เข้าไปด้วย
เลือกชั้นเครื่องตามความอ่อนไหวของข้อมูล ก่อนเลือกราคา เทียบราคาเฉพาะเจ้าที่อยู่ในชั้นเดียวกัน
ปิดเครื่องเมื่อไม่ใช้ วินัยข้อเดียวที่เปลี่ยนบิลได้เป็นเท่าตัว

แล้วเราเลือกอะไร

ตรงไปตรงมา: งานหลักของเรายังอยู่บน subscription และ per-token API เหมือนเดิม GPU ที่เช่าเป็นเครื่องมือเฉพาะทางสำหรับงานชุดใหญ่ที่ยิงถี่และอยากคุมข้อมูลเอง และเราปิดมันได้ทุกเมื่อที่งานหมด ถ้าจะให้เหลือประโยคเดียวติดมือกลับไป: อย่าถามว่าเช่า GPU ถูกไหม ให้ถามว่างานของเราเลี้ยงมันไว้ทั้งวันได้หรือเปล่า

ที่มาและอ้างอิง

ราคาทั้งหมดตรวจวันที่ 3 ก.ค. 2026: RunPod pricing (RTX 5090 pod $0.99/ชม., 4090 $0.69/ชม., serverless 5090 $1.58/ชม.) · Salad pricing (RTX 5090 $0.25/ชม., 4090 $0.16/ชม. และคำอธิบาย "60,000+ consumer and data center GPUs" ของเขาเอง) · Vast.ai ตรวจจากตลาดจริงผ่าน API สาธารณะของเขา (เครื่อง 5090 verified ถูกสุด $0.361/ชม. ณ เวลาตรวจ ราคาแกว่งตามอุปทาน)
เรตที่เราเช่าจริงบน Vast.ai คือ $0.756/ชม. (RTX 5090 เกรด secure/datacenter ในยุโรป) ส่วน $0.36 คือ offer เกรด verified ที่ถูกสุดในตลาด ณ เวลาตรวจ สูตร break-even กับตัวเลข $0.004 ต่องานมาจาก harness วัดงานที่เราเขียนใช้เอง
vLLM (เอกสารทางการ)

ซีรีส์เดียวกัน

ภาคลงมือ (ติดตั้งจริงทีละกับดัก): เอาโมเดล 27B ขึ้น GPU เช่าด้วย vLLM
ภาพรวมทั้งซีรีส์: สถาปัตยกรรม AI agent ที่ใช้งานได้จริง
เศรษฐศาสตร์ฝั่ง Claude Code: ราคา Claude Code และวิธีคุมค่าใช้จ่าย
เลือกโมเดลหนึ่งตัวให้พอดีงาน: Local LLM แบบพอดีงาน
จ่ายแพงกับการคิด จ่ายถูกกับการทำ: Claude Fable 5 เป็นหัว ที่เหลือเป็นมือ

เช่า GPU มารันโมเดลเอง
ของแพงจริงคือชั่วโมงที่มันนั่งว่าง