AI สรุปการประชุมโดยไม่กุเรื่อง เป็นบันทึกที่เชื่อถือได้

เรื่องนี้เริ่มจากการนั่งฟังเลคเชอร์ชุดยาวชุดหนึ่ง แล้วอยากเก็บเป็นบันทึกความรู้ไว้ใช้ต่อ ส่วนใหญ่เราโยนเข้า NotebookLM ก็จบ ถามอะไรมันก็ตอบพร้อมบอกว่าเอามาจากตรงไหน แต่มีบางคลิปที่มันไม่ยอมรับไฟล์ เลยต้องถอดเสียงเป็นตัวหนังสือเองก่อน แล้วค่อยให้ AI สรุป

พอให้ AI สรุปตัวหนังสือที่ถอดมา อ่านดูดีมาก จนไปสะดุดบรรทัดหนึ่ง มันเขียนว่าอาจารย์พูดถึง "ทฤษฎีพีทาโกรัส" พร้อมสูตรเป๊ะ ๆ แต่พอย้อนกลับไปฟังเสียงจริง อาจารย์ไม่เคยพูดถึงมันเลยสักครั้ง

ที่น่ากลัวไม่ใช่ว่าเขียนผิด แต่คือ "ผิดแบบดูสมเหตุสมผล" สิ่งที่ AI เติมเข้ามามัน น่าจะ อยู่ในเลคเชอร์แนวนั้นพอดี อ่านผ่าน ๆ จับไม่ได้เลย แล้วถ้าปล่อยไว้ ก็กลายเป็น"ความรู้" ที่ไม่มีใครเคยพูดออกมา

ตรงนั้นแหละที่ทำให้ต้องคิดใหม่ทั้งหมด ว่าจะเปลี่ยนเสียงพูดให้เป็นบันทึกที่ เชื่อได้จริง ยังไง โดยไม่ต้องมานั่งเปิดฟังเทียบเองทุกบรรทัด เรื่องที่จะเล่าไล่เป็นขั้น เริ่มจาก ถอดเสียงให้ได้ตัวหนังสือที่ใช้ได้ ต่อด้วย ตั้งด่านตรวจไม่ให้ AI กุเรื่อง แล้ว เก็บเป็นบันทึกที่ค้นเจอและไม่ตกยุค ปิดท้ายด้วยว่าเอาไปใช้กับงานจริงยังไง

ศัพท์ที่จะใช้ รวมไว้ตรงนี้ที่เดียว

ASR ระบบถอดเสียงพูดเป็นตัวหนังสือ
claim แต่ละประเด็นที่ AI สรุปออกมา หน่วยที่เราตรวจทีละอัน
grounding gate (ด่านตรวจหลักฐาน) ขั้นที่บังคับว่าทุก claim ต้องชี้กลับไปหาหลักฐานในเสียงจริงได้
provenance (วัตถุดิบต้นทาง) คลิปเสียงและตัวหนังสือที่ถอดมา เก็บไว้เป็นหลักฐานให้บันทึกอ้างกลับ

ช่วงที่ 1ทำให้ได้บันทึกที่เชื่อได้

ทำไม AI ถึงกุเรื่องตรงนี้ได้ง่าย

เครื่องมือที่ตอบพร้อมบอกแหล่งที่มา ถ้ามันสรุปเพี้ยนเราก็เห็น เพราะมีตัวอ้างอิงคอยค้ำอยู่ แต่ตัวหนังสือที่ถอดจากเสียงของวัตถุดิบต้นทาง มันเป็นแค่ข้อความเปล่า ไม่มีอะไรค้ำ พอให้ AI สรุป มันเลยเติมของที่ "น่าจะมี" เข้ามาได้สบาย

จุดสำคัญอยู่ตรงนี้ AI ไม่ได้มั่วแบบสุ่ม มันมั่วแบบ "เดาสิ่งที่น่าจะใช่" เพราะงั้นจะกันแบบสุ่ม ๆ ไม่ได้ผล ต้องใช้กฎข้อเดียว: ทุก claim (ทุกประเด็นที่ AI เขียน) ต้องชี้กลับไปได้ว่าในเสียงจริงพูดตรงไหน ถ้าชี้ไม่ได้ = ตัดทิ้ง

สามอย่างที่ต้องเข้าใจก่อน

"หาไม่เจอ" ไม่เท่ากับ "AI กุเรื่อง" บางทีหาไม่เจอเพราะถอดเสียงเพี้ยน สะกดต่าง หรือพูดเป็นแนวคิดโดยไม่พูดศัพท์ตรง ๆ เราจะตัดมันออกเหมือนกัน (จนกว่าจะหาที่มาเจอ) แต่อย่าเพิ่งไปตราหน้าว่ามันโกหก
ครบไม่สำคัญเท่าถูก บันทึกสั้นแต่จริงทุกบรรทัด ดีกว่าบันทึกยาวแต่มีของกุเรื่องปนมาจุดเดียว
เจอคำ ไม่ได้แปลว่าหมายความตามนั้น ต้องเปิดอ่านรอบ ๆ จุดนั้นด้วยว่าพูดเรื่องเดียวกันจริงไหม

ทำยังไง

1. ถอดเสียงให้ดี คลิปไหนที่ NotebookLM รับไฟล์ ก็ให้มันถอดและสรุปได้เลย ส่วนคลิปที่มันไม่รับ เราถอดเองด้วยเครื่องมือถอดเสียง (ASR) โอเพนซอร์ส เช่น faster-whisper รุ่น large-v3 หรือ Typhoon ASR ของ SCB10X หาได้บน GitHub สิ่งที่ควรรู้ก่อนลงมือมีไม่กี่อย่าง

ตัดเสียงเป็นช่วงสั้น ๆ ราว 30 วินาที แล้วถอดทีละช่วง อย่ายัดทั้งไฟล์ทีเดียว เพราะไฟล์ยาว ๆ จะกิน RAM จนค้าง
ตัดตรงช่วงเงียบ เครื่องมือพวกนี้มี VAD (Voice Activity Detection) ที่ตรวจจับ silence ให้เอง ไม่งั้นคำที่อยู่ตรงรอยตัดจะขาดหาย
โหลดโมเดลทิ้งไว้ในหน่วยความจำครั้งเดียว แล้วป้อนทุกช่วงเข้าไปถอด ที่พลาดกันบ่อยคือเขียนสคริปต์ให้โหลดโมเดลใหม่ทุกช่วง โมเดลตัวใหญ่โหลดทีหนึ่งหลายวินาที คลิปที่ตัดเป็นร้อยช่วงก็เลยช้าจนรับไม่ได้
ตั้งภาษาเป็นไทย แต่คำอังกฤษที่แทรกมาจะออกมาเพี้ยนอยู่ดี ตรงนี้แหละที่ต้องมีขั้นเก็บกวาด (ข้อ 4) ตามมา

2. ให้ AI สรุปเป็นประเด็น บอกให้มันสรุปเฉพาะจากไฟล์นี้ไฟล์เดียว ห้ามเอาความรู้ข้างนอกมาปน เก็บแก่นพอ ไม่ต้องลอกคำต่อคำ (เสียงที่ถอดมามักมีคำเพี้ยน ลอกทั้งหมดก็รก) แต่ของที่ได้ตอนนี้ยังเป็นแค่ "ฉบับร่าง" ต้องผ่านด่านตรวจก่อนถึงนับเป็นความรู้

3. ตั้งด่านตรวจหลักฐาน (grounding gate) หัวใจของทั้งหมด นี่คือสิ่งที่ทำให้วิธีนี้ต่างจากการ "ถอดเสียงแล้วสรุป" ทั่วไป แนวคิดคือ ทุก claim ที่ AI สรุปมา ต้องมีหลักฐานในเสียงจริงก่อน ถึงจะเก็บไว้ ทำเป็นขั้น ๆ แบบนี้:

แตกบันทึกออกเป็น claim ทีละอัน ตัวเลข ชื่อ ข้อสรุป แต่ละอันแยกตรวจ
ไล่หาว่าแต่ละ claim พูดในเสียงจริงตรงไหน (ค้นในตัวหนังสือที่ถอดมา)
เปิดอ่านรอบ ๆ จุดนั้นด้วยตา ยืนยันว่าพูดเรื่องเดียวกันจริง ไม่ใช่แค่บังเอิญเจอคำ
claim ไหนไม่มีหลักฐาน = ตัด ไม่มีกั๊กแบบ "ผิดนิดหน่อยแต่เก็บไว้ก่อน"
จดไว้ว่า claim ไหนผ่านเพราะหลักฐานช่วงไหน ตรวจย้อนได้ ทีหลัง และของสำคัญ (ตัวเลข/ชื่อ) ตรวจซ้ำอีกรอบด้วยคนละสายตา

หลักการเท่านี้ใครก็ทำตามมือได้ ส่วนที่เราลงแรงทำต่อคือ "เครื่องมือ" ที่ทำให้ขั้นพวกนี้เร็วและทำซ้ำได้จริงในงานสเกลใหญ่ ตรงนั้นคือสิ่งที่กำลังพัฒนาอยู่

4. เก็บกวาด คำภาษาอังกฤษที่ถอดเสียงมาเป็นไทยเพี้ยน ๆ ก็เขียนกลับเป็นอังกฤษให้ถูก ส่วนตัวเลขหรือเหตุการณ์ที่ผูกกับช่วงเวลานั้น ๆ (เช่นราคาวันนั้น) เก็บแยกไว้ อย่าเอามาปนเป็นความรู้ถาวร เพราะเดี๋ยวมันก็เก่า

บทเรียนที่ชอบที่สุด: "หาไม่เจอ" ≠ "ของปลอม"

มีชื่อคนหนึ่งในเลคเชอร์ Edward Thorp พอค้นคำว่า "Thorp" ในตัวหนังสือที่ถอดมา หาไม่เจอเลย ดูเหมือน AI กุเรื่อง แต่พอเปิดอ่านรอบ ๆ ถึงรู้ว่าโปรแกรมถอดเสียงมันเขียนเป็น "เอ็ดเวิร์ดท็อป" มันมีจริง! ถ้าเชื่อแค่ผลค้นหา เราตัดผิดแน่ ๆ นี่แหละเหตุผลว่าทำไมต้องมีคนอ่านเองด้วยตา ไม่ใช่ปล่อยให้เครื่องตัดสิน

ช่วงที่ 2เก็บบันทึกให้ค้นเจอ ไม่ตกยุค

พอมีบันทึกที่ตรวจแล้ว คำถามต่อไปคือเก็บยังไงให้กลายเป็นความรู้ที่หยิบใช้ได้ ไม่ใช่กองไฟล์ที่หาไม่เจอ เราเก็บบน Obsidian (โปรแกรมจดโน้ตที่โยงโน้ตถึงกันได้) ด้วยหลักง่าย ๆ ไม่กี่ข้อ

เก็บยังไงให้ยังเชื่อได้

ไฟล์โน้ตคือของจริง เครื่องมือค้นหาอื่น ๆ เป็นแค่ทางลัดเข้าหาไฟล์ ถ้าอะไรขัดกัน ให้ยึดไฟล์โน้ตเป็นหลัก
เก็บวัตถุดิบต้นทางแยกจากฉบับที่เรียบเรียง ตัวหนังสือที่ถอดมาเก็บไว้อีกที่ ไม่ลบ เพราะมันคือหลักฐานที่โน้ตอ้างกลับไป เราเก็บแยกในโฟลเดอร์ sources/ ส่วนโน้ตที่เรียบเรียงแล้วอยู่อีกที่
ติดป้ายว่าอันไหน "ข้อเท็จจริง" อันไหน "ความเห็น" ใส่เป็น property ใน frontmatter (ส่วนหัวของไฟล์โน้ต) ความเห็นที่ไม่ติดป้ายไว้ วันหน้ากลับมาอ่านจะนึกว่ามันเป็นข้อเท็จจริง
ติดวันที่ให้ตัวเลขที่จะเก่าได้ ความรู้บางอย่างจริงตลอด บางอย่างเก่าเร็ว ติดวันไว้จะได้รู้ว่าอันไหนต้องกลับมาเช็ก
หนึ่งโน้ต = หนึ่งแหล่ง ไม่รวมกันมั่ว ความเห็นที่ขัดกันเก็บไว้ทั้งสองด้าน อย่าตัดทิ้งข้างใดข้างหนึ่ง
คนเป็นคนเคาะ AI ติดป้ายร่างให้ได้ แต่คนต้องเป็นคนยืนยัน ไม่ใช่ปล่อยให้มันตัดสินเองว่าอะไรคือข้อเท็จจริง

โยงให้ค้นเจอ ไม่ใช่กองทิ้ง

การโยงใน Obsidian ใช้ wikilink พิมพ์ [[ชื่อโน้ต]] แล้วมันก็ลิงก์ให้เอง เราโยงสามชั้น โน้ตเรื่องเดียวกันโยงหากัน โน้ตโยงกลับไปหาวัตถุดิบต้นทางที่อ้างอิง (ก็คือการทำ citation) และคำศัพท์โยงไปหน้าที่อธิบายคำนั้น ทุกโน้ตไปรวมที่โน้ตสารบัญกลางที่เรียกว่า MOC (Map of Content) หรือ Index พอจะหาอะไร เริ่มจากวิธีที่ถูกที่สุดก่อน เปิด Index หรือค้นคำ ค่อยขยับไปวิธีที่แพงขึ้น และที่สำคัญ อะไรที่ยังไม่ได้เขียนลงไฟล์ ถือว่ายังไม่มี

ช่วงที่ 3เอาไปใช้กับงานของคุณ

กฎข้อเดียวที่ต้องจำ

ถ้าจะจำอย่างเดียวจากบทความนี้ ขอให้เป็นข้อนี้ อย่าให้สิ่งที่ AI สรุป กลายเป็นความรู้ จนกว่ามันจะชี้กลับไปหาหลักฐานในต้นฉบับได้ ที่เหลือเป็นแค่รายละเอียดของการทำกฎข้อนี้ให้เกิดขึ้นจริงและตรวจย้อนได้

ใช้กับงานแบบไหนได้บ้าง

บันทึกประชุม ที่ไม่มี action item โผล่มาจากที่ไม่มีใครพูด
เลคเชอร์หรือคอร์ส ที่อ้างกลับไปต้นฉบับได้ทุกประเด็น
บทสัมภาษณ์ลูกค้า ที่เป็นเสียงลูกค้าจริง ไม่ใช่ AI เดาแทน
เอกสารที่ต้องตรวจสอบได้ อย่างงานสายแพทย์ กฎหมาย การเงิน ที่ผิดบรรทัดเดียวก็มีราคาต้องจ่าย

เริ่มยังไงดี

ไม่ต้องสร้างระบบอัตโนมัติตั้งแต่แรก ลองทำด้วยมือกับบันทึกเก่าสักอันก่อน เริ่มจากด่านตรวจ (ช่วงที่ 1 ข้อ 3) เป็นขั้น ๆ

หยิบบันทึกที่ AI เคยสรุปให้มา 1 อัน แล้ววางต้นฉบับ (ไฟล์เสียงหรือ transcript) ไว้ข้าง ๆ
ไฮไลต์ทีละประโยคที่เป็น claim ทั้งตัวเลข ชื่อ และข้อสรุป
ค้นแต่ละอันในต้นฉบับ เจอแล้วอ่านรอบ ๆ ว่าพูดเรื่องเดียวกันจริงไหม
อันไหนหาไม่เจอ ทำเครื่องหมายไว้ก่อน ยังไม่ต้องตัด เผื่อถอดเสียงเพี้ยน (จำ Edward Thorp ได้ไหม)
นับดูว่าในบันทึกเดียว มีกี่ประเด็นที่ชี้กลับต้นฉบับไม่ได้

แค่รอบเดียวก็จะเห็นเองว่าของพวกนี้หลุดเข้ามาเงียบ ๆ ได้ง่ายแค่ไหน

ที่ลองทำด้วยมือเมื่อกี้ พอเป็นคลิปเดียวยังไหว แต่พอต้องทำซ้ำหลายสิบคลิปก็เริ่มไม่ไหว ส่วนวิธีสกัดให้กลายเป็น KM อย่างเป็นระบบ ตั้งแต่ตอนถอดเสียงไปจนถึงโน้ตที่โยงกันทั้งคลัง และทำให้ด่านตรวจทำงานเองได้ ขอเก็บไว้เล่าต่อในบทความหน้า

อ่านต่อในซีรีส์

วางระบบเปลี่ยนเสียงพูดให้เป็น second brain ที่เชื่อถือได้ ตอนต่อไป วางด่านตรวจให้เป็นระบบที่ทำซ้ำได้ในสเกลใหญ่

เอา AI เข้ามาคุยใน Discord โดยไม่เปิดช่องให้ใครสั่งบอตแทนคุณ อีกตอนในซีรีส์ ให้สมองที่สองมีร่างที่คุยด้วยได้จากทุกที่

ถอดเสียงในเครื่องตัวเองให้เร็วกว่า Whisper หลายสิบเท่า เจาะลึกเชิงเทคนิค ทำไมการเปลี่ยนสถาปัตยกรรมโมเดลถึงเร็วกว่าการจูน

ไม่ใช่ทุกการกระทำที่ต้องรอคน โมเดล 3 ระดับ ตัดสินว่าให้ AI ทำเองได้แค่ไหน ก่อนต้องรอคนตรวจ

ดูบทความทั้งหมด

อ่านต่อในชุดเดียวกัน

ด่านกันไม่ให้ AI กุเรื่องในโพสต์นี้ มาจากหลักการเดียวกัน ถ้าอยากเข้าใจว่าทำไม AI ถึงโกหกตั้งแต่แรก และจับมันยังไง อ่านต่อที่ ทำไม AI agent ถึงโกหกคุณ

แล้วพอเริ่มเอาข้อมูลจริงป้อนให้ AI ก็ต้องคิดด้วยว่าอะไรห้ามหลุดออกไปข้างนอก อ่านต่อที่ ความลับที่ไม่ควรหลุดออกไป ด่านป้องกัน 3 ชั้น

มองภาพรวมทั้ง 4 ชั้นเป็นระบบเดียว อ่านที่ ระบบจัดการความรู้ด้วย AI ที่เชื่อได้ ประกอบทีละชั้น

บทความนี้เป็นหนึ่งชั้นใน สถาปัตยกรรม AI agent ระดับ production ทั้ง 7 ชั้น

เปลี่ยนเสียงพูด เป็นบันทึก ที่เชื่อถือได้ โดยไม่ให้ AI กุเรื่อง