productize.life
TH EN
AI · การคุม Crawler

ปล่อยให้ Claude อ้างเราได้
แต่ไม่ให้ใครเอาไปเทรนฟรี

เปิด robots.txt ของเว็บตัวเองดู เจอว่า Cloudflare บล็อก ClaudeBot ให้อัตโนมัติ ทั้งที่เป็นบอทตัวเดียวที่อยากให้เข้า พอจะเลือกปล่อยทีละตัว ฟีเจอร์สองอันของ Cloudflare ก็ตีกันเอง

Yim· เขียนด้วยกันกับ Dobby (AI Oracle)/18 มิ.ย. 2026/~7 นาที

วันก่อนเปิดไฟล์ robots.txt ของเว็บตัวเองขึ้นมาดู ไม่ได้ตั้งใจจะแก้อะไร แค่อยากรู้ว่าตอนนี้ปล่อยให้บอทตัวไหนเข้าบ้าง พอไล่รายชื่อลงไป ก็สะดุดอยู่บรรทัดหนึ่ง ClaudeBot โดนปิดอยู่ ทั้งที่เป็นตัวเดียวในนั้นที่เราอยากให้เข้าจริง ๆ

ClaudeBot คือบอทที่ Claude ส่งมาอ่านเว็บตอนมีคนถามแล้วมันต้องไปหยิบแหล่งจริงมาอ้าง ปิดมันก็เท่ากับบอกว่า เวลาใครถาม Claude เรื่องที่เราเขียน อย่าหยิบเราไปตอบ ส่วนที่มาของบรรทัดนั้นคือ Cloudflare ตั้งให้อัตโนมัติ มีปุ่มเดียวที่ปิดบอท AI ทั้งชุดรวดเดียว ClaudeBot เลยติดร่างแหไปกับเขาด้วย

ปฏิกิริยาแรกของคนส่วนใหญ่พอเห็นบอท AI คือกันไว้ก่อนให้หมด ดูปลอดภัยดี แต่พอมองใกล้ ๆ จะเห็นว่าคำว่า "เอาไปเทรน" กับ "อ้างอิงสด" มันคนละเรื่องกันเลย และการปิดรวดเดียวคือการปิดสองประตูพร้อมกัน ทั้งที่ตั้งใจจะปิดแค่บานเดียว

บล็อก AI ทุกตัวเหมือนเซฟดี แต่จริง ๆ เรากำลังปิดทั้งประตูที่คนเอางานเราไปเทรนฟรี และประตูที่ทำให้คนค้นเจอเราผ่าน AI ไปพร้อมกัน ทั้งที่อยากปิดแค่บานแรก

ช่วงที่ 1บรรทัดที่สะดุดใน robots.txt

ที่ ClaudeBot โดนปิดไม่ใช่เพราะเราไปสั่ง แต่เพราะ Cloudflare มีฟีเจอร์ป้องกันเว็บจากบอท AI เปิดสวิตช์เดียวมันจะเขียน robots.txt ให้เอง ใส่ Disallow ให้บอท AI ราว ๆ เก้าตัวพร้อมกัน คนทำเว็บส่วนใหญ่เปิดไว้เพราะคำว่า "กันบอท AI" ฟังดูเป็นเรื่องที่ควรทำ โดยไม่ได้ไล่ดูว่าในเก้าตัวนั้นมีตัวที่เราอยากเก็บไว้ปนอยู่ไหม

พอมานั่งดูทีละชื่อ ภาพถึงเปลี่ยน บอทพวกนี้ไม่ได้มาทำงานเดียวกัน บางตัวมาเก็บเนื้อหาไปเทรนโมเดล บางตัวมาอ่านเพื่อจะได้อ้างเราตอนมีคนถาม การจับมันรวมเป็นก้อนเดียวแล้วปิดทีเดียว เลยแปลว่าเรายอมเสียอย่างหลังไปเพื่อกันอย่างแรก ทั้งที่ไม่จำเป็นต้องแลกกันเลย

ตรงนี้แหละที่ทำให้หยุดคิด คำถามที่ถูกไม่ใช่ "บล็อกบอท AI ดีไหม" แต่เป็น "ตัวไหนที่เราอยากให้เจอเรา ตัวไหนที่แค่แวะมาเก็บของฟรี" สองคำถามนี้นำไปสู่การตั้งค่าคนละแบบกันเลย

ช่วงที่ 2"เทรน" กับ "อ้างอิงสด" คนละเรื่องกัน

บอท AI ที่มาอ่านเว็บเราแบ่งหยาบ ๆ ได้สองพวกตามงานที่มันทำ และนี่คือเส้นแบ่งที่ทำให้ทุกอย่างง่ายขึ้น

พวกแรกคือ บอทเทรน เก็บเนื้อหาเราไปสอนโมเดลรุ่นต่อไป GPTBot ของ OpenAI, Google-Extended, CCBot, Bytespider อยู่กลุ่มนี้ ปิดพวกนี้ได้เลยถ้าไม่อยากให้งานที่เราเขียนเองถูกหยิบไปเทรนฟรี แล้วที่สำคัญคือปิดแล้วแทบไม่กระทบการถูกค้นเจอ เพราะมันไม่ได้มีหน้าที่พาคนมาหาเรา

พวกที่สองคือ บอทอ้างอิงสด ตัวที่ทำให้เราถูก "เจอ" และ "ถูกอ้าง" ตอนมีคนถาม ClaudeBot คือของ Claude, OAI-SearchBot คือตัวที่ทำให้ ChatGPT หยิบเราไปตอบสด ๆ ส่วน Googlebot ก็คือตัวที่ทำให้ขึ้นผลค้นหา Google ตามปกติ ปิดพวกนี้เมื่อไรเราก็หายไปจากคำตอบของมันทันที

จุดที่คนสับสนกันบ่อยคือเอาชื่อมาปนกัน ปิด GPTBot ไม่ได้แปลว่า ChatGPT จะเลิกอ้างเรา เพราะตัวที่ทำให้ ChatGPT อ้างสดคือ OAI-SearchBot คนละตัวกัน เช่นเดียวกับ Google-Extended ที่เป็นแค่สวิตช์เทรน Gemini ปิดมันไป Google Search ก็ยังเห็นเราเหมือนเดิม พอแยกสองอย่างนี้ออก สมการเลยกลายเป็นง่าย บล็อกบอทเทรน = กันงานเราไม่ให้ถูกเอาไปใช้ฟรี โดยแทบไม่เสียการถูกค้นเจอ ส่วนบอทอ้างอิงสดที่คุ้มจะเปิดไว้ที่สุดตอนนี้คือ ClaudeBot

อีกชั้นที่ต้องเข้าใจคือ robots.txt เป็นแค่ป้ายขอความร่วมมือ บอทที่สุภาพอย่าง ClaudeBot หรือ GPTBot จะอ่านแล้วเชื่อฟัง แต่บอทที่ไม่สนป้ายก็มี ถ้าจะกันให้ได้จริงต้องใช้ด่านบังคับอย่าง AI Crawl Control หรือ WAF ที่ตอบกลับเป็น 403 ไปเลย สองชั้นนี้ทำงานคนละระดับ ป้ายไว้คุยกับบอทที่ฟัง ด่านบังคับไว้จัดการบอทที่ไม่ฟัง

ช่วงที่ 3พอจะปล่อยทีละตัว ฟีเจอร์ Cloudflare ก็ตีกันเอง

รู้แล้วว่าอยากปล่อย ClaudeBot แล้วปิดบอทเทรน ฟังดูเหมือนแค่ไปกดสวิตช์ แต่พอลงมือจริงกลับเจอว่าฟีเจอร์สองอันของ Cloudflare ขัดกันเอง

อย่างแรก managed robots.txt ที่เปิดไว้นั้น เป็นแบบทั้งหมดหรือไม่เอาเลย มันไม่ให้เราเลือกปล่อยทีละตัว จะปิดบอท AI ก็ปิดทั้งชุด ClaudeBot จะหลุดออกมาตัวเดียวไม่ได้ อย่างที่สอง พอไปเปิด AI Crawl Control แล้วกด Allow ให้ ClaudeBot ก็นึกว่าจบ แต่ที่จริงปุ่มนั้นคุมแค่ด่านบังคับ (ว่าจะตอบ 403 ไหม) มันไม่ได้ไปลบบรรทัด Disallow ของ ClaudeBot ออกจาก robots ที่ระบบเขียนไว้ สุดท้าย ClaudeBot ที่สุภาพก็ยังมาอ่าน robots เห็น Disallow แล้วถอยอยู่ดี

กับดักที่เจ็บกว่านั้นคือ ถ้าเราเขียนไฟล์ robots.txt ของเราเองทับลงไปทั้งที่ managed ยังเปิดอยู่ Cloudflare จะ เอาบล็อกของมันมาแปะไว้ข้างหน้าไฟล์เรา กลายเป็นว่ามี ClaudeBot สองกลุ่มในไฟล์เดียว กลุ่มบนเขียน Disallow กลุ่มล่างเขียน Allow แล้วบอทมันก็เชื่อกลุ่มแรกที่เจอ เท่ากับเราแก้แล้วแต่ไม่มีอะไรเปลี่ยน

ทางออกที่ใช้ได้จริงคือต้องทำสองอย่างพร้อมกัน เขียน robots.txt ของเราเองที่ชั้นหน้าสุด (edge คือเซิร์ฟเวอร์ที่อยู่หน้าเว็บจริง ตอบบอทได้ก่อนใคร) ในไฟล์นั้นปล่อยทุกคนเข้าได้ตามปกติ ใส่ Allow ให้ ClaudeBot แล้วใส่ Disallow รายตัวให้บอทเทรน ปิดท้ายด้วยบรรทัด Sitemap แล้วต้องปิดสวิตช์ managed robots.txt ทิ้งด้วย ทำอย่างเดียวไม่พอ ต้องคู่กัน robots ที่เราเขียนถึงจะเป็นเสียงเดียวที่บอทได้ยิน

วิธีพิสูจน์ว่าได้ผลจริงนั้นง่ายและไม่ต้องเดา เปิด ชื่อเว็บคุณ/robots.txt ขึ้นมาอ่าน ต้องเห็น ClaudeBot กลุ่มเดียว ไม่มี Disallow อยู่ใต้มัน ส่วนบอทเทรนขึ้น Disallow ครบ เท่านี้ก็รู้ว่าใครเข้าได้ใครไม่ได้ เพราะเราตั้งใจ ไม่ใช่เพราะปล่อยตาม default ส่วนตัวไฟล์ที่วางระดับ edge กับรายชื่อบอทเต็ม ๆ เป็นส่วนที่เรากำลังทำให้เป็นชุดที่หยิบไปวางซ้ำได้ หลักการกับวิธีสองชั้นข้างบนนี้คือส่วนที่สำคัญแล้ว

กลับมาที่ไฟล์เดิม พอแก้เสร็จแล้วเปิด robots.txt ขึ้นมาอีกที ความรู้สึกมันต่างออกไป ไม่ใช่เพราะตัวเลขบอทเปลี่ยน แต่เพราะทุกบรรทัดในนั้นเป็นสิ่งที่เราเลือกเอง ClaudeBot เข้ามาอ้างเราได้ บอทเทรนถูกกันไว้ คนที่ถาม Claude เรื่องที่เราเขียนก็มีโอกาสได้เราเป็นคำตอบ ส่วนงานที่ลงแรงเขียนก็ไม่ถูกตักไปเทรนเปล่า ๆ

ถ้าจะเริ่มสักอย่างวันนี้ ลองพิมพ์ /robots.txt ต่อท้ายชื่อเว็บตัวเองแล้วอ่านดูทีละบรรทัด ถามตัวเองว่าบอทตัวนี้เราอยากให้เข้าจริงไหม ส่วนใหญ่จะพบว่าไม่เคยได้เลือกเอง คำถามมันมีแค่ประโยคเดียว ตัวไหนที่เราอยากให้เจอเรา ตัวไหนที่แค่แวะมาเก็บของฟรี

ที่มาและอ้างอิงทุกขั้นมาจากการตั้งค่าจริงบน productize.life (มิ.ย. 2026) เปิดดู productize.life/robots.txt ได้ · ความต่างของบอท GPTBot (เทรน) กับ OAI-SearchBot (อ้างอิงสด) อ้างอิง OpenAI bots docs · Google-Extended อ้างอิง Google crawlers docs · กับดัก managed robots กับ AI Crawl Control อ้างอิง Cloudflare AI Crawl Control docs
ติดตาม

รับบทความใหม่และของฟรีก่อนใคร

ทิ้งอีเมลไว้ บทความใหม่และของฟรีเป็นครั้งคราวจะส่งไปให้ ไม่สแปม

ใช้อีเมลเพื่อส่งอัปเดตเท่านั้น

ความคิดเห็น

ร่วมพูดคุย

แบ่งปันความคิดเห็นได้เลย

ชื่อจะแสดงต่อสาธารณะ อีเมลเก็บเป็นความลับ ไม่แสดงที่ไหน

กำลังโหลดความคิดเห็น…