productize.life
TH EN
Cost & Model · Self-hosting

เช่า GPU มารันโมเดลเอง
ของแพงจริงคือชั่วโมงที่มันนั่งว่าง

เทียบของจริงสามทาง จ่ายต่อ token, เช่า GPU รายชั่วโมง, serverless GPU พร้อมราคาที่ตรวจสดวันนี้ สูตร break-even ที่ใช้กับงานตัวเอง และเส้นแบ่งเรื่องข้อมูลที่ป้ายราคาไม่เคยบอก

Yim· เขียนด้วยกันกับ Dobby (AI Oracle)/3 ก.ค. 2026

เมื่อวานเราเพิ่งเช่า GPU ตัวแรกให้ตัวเอง RTX 5090 หนึ่งตัวบน Vast.ai เป็นเครื่องเกรด datacenter ในยุโรป ราคา $0.756 ต่อชั่วโมง (ในตลาดมีถูกกว่านี้ครึ่งหนึ่ง เดี๋ยวเล่าว่าทำไมเราจ่ายแพงขึ้น) เอาไว้รันโมเดล open-weight (โมเดลที่เปิดตัวน้ำหนักให้โหลดไปรันเองได้) ขนาด 27B หรือ 27 พันล้านพารามิเตอร์ ผ่าน vLLM สำหรับงานสั้นๆ ที่ต้องยิงเป็นชุดจำนวนมาก ตอนกดจองใช้เวลาไม่ถึงห้านาที เครื่องมาจริง รันจริง ตอบจริง

สิ่งที่ใช้เวลานานกว่านั้นมากคือคำถามก่อนหน้า: ควรเช่าเครื่องเองตั้งแต่แรกหรือเปล่า ในเมื่อโมเดลเดียวกันนี้จ่ายต่อ token ผ่าน API ก็ได้ ไม่ต้องดูแลเครื่อง ไม่มีค่าเช่าตอนไม่ใช้ บทความนี้เลยเก็บการบ้านที่ทำตอนตัดสินใจมาเรียงให้ดู ราคาทุกตัวตรวจสดจากหน้าผู้ให้บริการวันที่ 3 ก.ค. 2026 และสูตรคิดทั้งหมดเป็นสูตรที่ใช้กับงานตัวเองจริง

ช่วงที่ 1สามวิธีจ่ายเงินให้โมเดลตัวเดียวกัน

โมเดล open-weight ตัวเดียวกัน เช่น Qwen ขนาด 27B มีวิธีจ่ายเงินให้มันทำงานอยู่สามแบบ และสามแบบนี้คิดเงินคนละตรรกะ

แบบแรก จ่ายต่อ token. ผู้ให้บริการ inference เอาโมเดลขึ้นเครื่องของเขา เรายิง API แล้วจ่ายตามที่ใช้ ข้อดีที่ชนะขาดคือชั่วโมงว่างของเราเป็นศูนย์ คืนไหนไม่มีงาน คืนนั้นไม่เสียเงินเลย ข้อจำกัดคือข้อมูลทุกชิ้นวิ่งผ่านเครื่องของผู้ให้บริการ และโมเดลที่มีให้เลือกขึ้นกับเขา

แบบที่สอง เช่า GPU มารันเอง. ได้เครื่องมาทั้งตัว ลงโมเดลอะไรก็ได้ ปรับแต่งได้สุดทาง แลกกับความจริงที่โหดที่สุดของทางนี้: มิเตอร์เดินทุกชั่วโมง ไม่สนว่ามีงานหรือไม่ เครื่องที่เปิดทิ้งไว้เฉยๆ หนึ่งเดือนที่ $0.36/ชม. คือราว $260 ก่อนจะได้ทำงานสักชิ้น

แบบที่สาม serverless GPU. ทางสายกลาง ผู้ให้บริการปลุกเครื่องเมื่อมีงานเข้า คิดเงินเฉพาะวินาทีที่รัน เรตแพงกว่าเช่าเหมา (ตัวอย่างจริงในช่วงถัดไป) และมี cold start คือช่วงรอปลุกเครื่องกับโหลดโมเดล แต่ตัดปัญหาชั่วโมงว่างทิ้งทั้งก้อน

สังเกตว่ายังไม่มีคำว่า "ถูก" หรือ "แพง" เลย เพราะสามแบบนี้เทียบกันตรงๆ ไม่ได้จนกว่าจะรู้จังหวะงานของตัวเอง งานมาสม่ำเสมอทั้งวันกับงานมาเป็นพักๆ ให้คำตอบคนละทาง

ช่วงที่ 2ราคาเช่า GPU วันนี้ เทียบสามเจ้า

ตารางนี้คือราคาสำหรับ RTX 5090 (VRAM 32GB ตัวเดียวพอสำหรับโมเดล 27B ที่ผ่าน quantization แล้ว) ตรวจสดวันที่ 3 ก.ค. 2026 จากหน้าราคาทางการหรือตลาดจริงของแต่ละเจ้า

เจ้าRTX 5090 ต่อชั่วโมงเครื่องเป็นของใครเหมาะกับ
Salad $0.25 เครือข่ายกระจาย GPU กว่า 60,000 ตัว ส่วนใหญ่เป็นเครื่อง consumer ของคนทั่วไป งานสาธารณะที่ทนข้อมูลรั่วได้ เช่น ประมวลผลข้อมูล public ราคาชนะทุกเจ้า
Vast.ai เริ่ม $0.36 (เครื่อง verified) ตลาดประมูล มีทั้ง host รายย่อยและ data center เลือกเกรดเครื่องได้ ราคาแกว่งตามอุปทาน งานทั่วไปที่อยากได้ราคาดี ยอมใช้เวลาเลือกเครื่อง จุดที่เราใช้อยู่ (เราเลือกเครื่องเกรด datacenter $0.756 ไม่ใช่ตัวถูกสุด)
RunPod $0.99 (community pod) ศูนย์ข้อมูล ราคานิ่ง มีทีมซัพพอร์ต งานที่อยากได้ความนิ่งและเครื่องหายไปกลางคันไม่ได้
RunPod serverless $1.58 (เฉพาะช่วงที่รัน) ศูนย์ข้อมูลเดียวกัน แต่ปลุกเครื่องตามงาน งานมาเป็นพักๆ ที่ไม่อยากจ่ายค่าเครื่องว่าง

อ่านตารางแล้วอย่าเพิ่งรีบสรุปว่า Salad ชนะ ราคาถูกสุดสามเท่าของ RunPod ก็จริง แต่คอลัมน์ที่สามสำคัญกว่าคอลัมน์ที่สอง แล้วจะกลับมาเรื่องนี้ในช่วงที่ 4

ราคาของ Vast มีรายละเอียดที่ควรรู้: มันคือตลาดประมูล ไม่ใช่ป้ายราคาตายตัว ตัวเลข $0.36 คือเครื่องเกรด verified (ผ่านการตรวจรับรองของแพลตฟอร์ม) ที่ถูกที่สุดตอนเราตรวจ ถ้ายอมรับเครื่องที่ยังไม่ verified จะเจอถูกกว่านั้นอีก และพรุ่งนี้ตัวเลขอาจขยับ ธรรมชาติของตลาดแบบนี้คือราคาดีมาพร้อมการบ้านที่ต้องทำเอง ทั้งเลือกเครื่อง เช็คความเร็วเน็ต และยอมรับว่า host รายย่อยอาจปิดเครื่องหนีได้

ช่วงที่ 3คณิตศาสตร์ของชั่วโมงว่าง

คำถาม "เช่าเองคุ้มไหม" ตอบได้ด้วยการหารเลขเดียว

ค่าเช่าต่อชั่วโมง ÷ ค่าใช้จ่ายต่องานหนึ่งชิ้นผ่าน API = จำนวนงานต่อชั่วโมงที่ต้องยิงให้ถึง ถึงจะเริ่มคุ้ม

แทนตัวเลขดู: GPU ถูกสุดในตลาดวันนี้ $0.36/ชม. งานสั้นหนึ่งชิ้น (prompt ไม่กี่ร้อย token ตอบไม่เกินร้อย token) ผ่าน API โมเดลระดับกลางตกราวๆ $0.004 ต่อชิ้น ตัวเลขนี้เป็นค่าตั้งต้นในสคริปต์วัดงาน (harness) ที่เราเขียนใช้เอง ปรับตามงานจริงของแต่ละคนได้ หารออกมาคือ 90 งานต่อชั่วโมง แบบต่อเนื่อง ยิงต่ำกว่านี้เมื่อไหร่ จ่ายต่อ token ถูกกว่า เครื่องจริงของเราที่ $0.756/ชม. เส้นคุ้มทุน (break-even) อยู่ราว 190 งานต่อชั่วโมง ส่วนเครื่อง RunPod $0.99/ชม. ขยับขึ้นไปราว 250

คำว่า "แบบต่อเนื่อง" คือหัวใจ งานที่มาเช้าชั่วโมงเดียวแล้วเงียบทั้งวัน เฉลี่ยแล้วไม่มีทางถึงเส้นนี้ เพราะชั่วโมงที่เหลือเครื่องนั่งกินค่าเช่าเฉยๆ นี่คือเหตุผลที่เราตั้งชื่อบทความว่าของแพงจริงคือชั่วโมงว่าง ค่าเช่ารายชั่วโมงไม่ใช่ต้นทุนของงาน มันคือต้นทุนของเวลา งานน้อยเวลามาก = แพงเอง

ก่อนตัดสินใจ เราเขียนสคริปต์วัดสั้นๆ ยิงงานตัวอย่างจริงใส่เครื่องแล้วนับ: งานหนึ่งชิ้นใช้กี่วินาที ชั่วโมงหนึ่งได้กี่งาน คิดเป็นเงินต่อพันงานเท่าไหร่ เทียบกับพันงานผ่าน API แล้วให้ตัวเลขตัดสิน ไม่ให้ความรู้สึก "มี GPU เองเท่แน่" ตัดสิน แนะนำให้ทำแบบเดียวกันก่อนกดเช่า ใช้เวลาเขียนไม่ถึงชั่วโมง ประหยัดเงินได้เป็นเดือน

อีกทางที่ทำให้เส้นคุ้มทุนขยับลงคือปิดเครื่องเมื่อไม่ใช้ ตลาดเช่าคิดเงินตามชั่วโมงที่เปิด งานเราเป็นรอบเช้ารอบเย็น เปิดเฉพาะช่วงรันก็จ่ายแค่นั้น แลกกับเวลาบูตเครื่องและโหลดโมเดลใหม่ทุกครั้ง ซึ่งพอโมเดลระดับ 27B ก็หลายนาทีอยู่ ต้องชั่งเอาว่างานเรารอได้ไหม

ช่วงที่ 4เส้นแบ่งที่ป้ายราคาไม่บอก: ข้อมูลไปนั่งบนเครื่องใคร

กลับมาที่คำถามค้างจากตาราง ทำไมไม่จบที่ Salad $0.25 ทั้งที่ถูกสุด

เพราะความถูกของมันมาจากโครงสร้าง Salad อธิบายตัวเองตรงๆ ว่าเป็นเครือข่าย GPU กว่า 60,000 ตัวที่รวมทั้งเครื่อง consumer และ data center พูดภาษาคนคือ ส่วนใหญ่เป็นเครื่องเกมของคนแปลกหน้าที่แบ่งให้เช่าตอนเจ้าของไม่ใช้ โมเดลของเราขึ้นไปรัน prompt ของเราวิ่งเข้าไป บนเครื่องในห้องนอนใครสักคน

สำหรับงานที่ข้อมูลเป็นของสาธารณะอยู่แล้ว นี่คือดีลที่ดีมาก แต่ถ้า prompt ของเรามีข้อมูลส่วนตัว ข้อมูลลูกค้า หรืออะไรก็ตามที่หลุดแล้วเจ็บ ราคาถูกแค่ไหนก็ไม่ควรไป เรื่องนี้ไม่ใช่การกล่าวหาว่าใครจะขโมยข้อมูล มันคือหลักพื้นฐานเดียวกับที่เราไม่เอาเอกสารลับไปถ่ายเอกสารร้านที่ไม่รู้จัก ต่อให้ถูกกว่าครึ่งราคา

นี่คือคำตอบที่ค้างไว้ตั้งแต่ต้นเรื่องว่าทำไมเครื่องของเราไม่ใช่ตัวถูกสุดในตาราง งานที่เราจะส่งขึ้นไปมีข้อมูลที่ไม่อยากให้ไปนั่งบนเครื่องของคนแปลกหน้า เลยจ่าย $0.756 ให้เครื่องเกรด datacenter แทนที่จะจ่าย $0.36 ให้เครื่องที่ตอบคำถามข้อนี้ไม่ได้

หลักที่เราใช้แบ่งจริงมีข้อเดียว: ดูว่างานชิ้นนั้นทนการรั่วได้แค่ไหน แล้วเลือกชั้นเครื่องตามนั้น งาน public ไปเครื่องถูกสุดได้เลย งานที่มีข้อมูลอ่อนไหวขึ้นมาหนึ่งขั้น อย่างน้อยต้องเป็นเครื่องเกรด verified หรือ data center และงานที่แตะข้อมูลลูกค้า ควรอยู่บนเครื่องที่มีสัญญาชัดเจนเท่านั้น ถึงตรงนั้นค่อยเทียบราคากันในชั้นเดียวกัน ไม่ใช่เทียบข้ามชั้น

ข้อดีข้อหนึ่งของ self-host ที่มักถูกลืมในบทสนทนาเรื่องราคา: เมื่อเครื่องเป็นของเรา ข้อมูลไม่ต้องเดินทางไปหาผู้ให้บริการโมเดลเลย สำหรับบางงานนี่ไม่ใช่เรื่องประหยัด แต่เป็นเงื่อนไขตั้งต้นว่าทำได้หรือไม่ได้เลยทีเดียว

ช่วงที่ 5สรุปว่าเลือกทางไหน เมื่อไหร่

กติกาที่เราสรุปให้ตัวเอง

  1. เริ่มที่จ่ายต่อ token เสมอ ชั่วโมงว่างเป็นศูนย์ ไม่มีเครื่องให้ดูแล จนกว่าตัวเลขจะบอกว่าถึงเวลาย้าย
  2. วัดงานตัวเองก่อนเช่า เขียนสคริปต์ยิงงานจริงแล้วหาเส้นคุ้มทุนของตัวเอง อย่าตัดสินใจจากความรู้สึก
  3. งานถี่ต่อเนื่อง + ข้อมูลอ่อนไหว = ค่อยเช่าเครื่องเอง สองเงื่อนไขต้องมาด้วยกัน ขาดข้อแรกจ่ายแพงกว่า API ขาดข้อสองยังไม่จำเป็นต้องรีบ
  4. งานเป็นพักๆ ให้มอง serverless GPU เรตแพงกว่าแต่จ่ายเฉพาะที่ใช้ อย่าลืมคิดค่า cold start เข้าไปด้วย
  5. เลือกชั้นเครื่องตามความอ่อนไหวของข้อมูล ก่อนเลือกราคา เทียบราคาเฉพาะเจ้าที่อยู่ในชั้นเดียวกัน
  6. ปิดเครื่องเมื่อไม่ใช้ วินัยข้อเดียวที่เปลี่ยนบิลได้เป็นเท่าตัว

แล้วเราเลือกอะไร

ตรงไปตรงมา: งานหลักของเรายังอยู่บน subscription และ per-token API เหมือนเดิม GPU ที่เช่าเป็นเครื่องมือเฉพาะทางสำหรับงานชุดใหญ่ที่ยิงถี่และอยากคุมข้อมูลเอง และเราปิดมันได้ทุกเมื่อที่งานหมด ถ้าจะให้เหลือประโยคเดียวติดมือกลับไป: อย่าถามว่าเช่า GPU ถูกไหม ให้ถามว่างานของเราเลี้ยงมันไว้ทั้งวันได้หรือเปล่า

ที่มาและอ้างอิง
ติดตาม

รับบทความใหม่และของฟรีก่อนใคร

ทิ้งอีเมลไว้ บทความใหม่และของฟรีเป็นครั้งคราวจะส่งไปให้ ไม่สแปม

ใช้อีเมลเพื่อส่งอัปเดตเท่านั้น

ความคิดเห็น

ร่วมพูดคุย

แบ่งปันความคิดเห็นได้เลย

ชื่อจะแสดงต่อสาธารณะ อีเมลเก็บเป็นความลับ ไม่แสดงที่ไหน

กำลังโหลดความคิดเห็น…