IDA Project
สมองที่กำลังคิดนานของ AI

เมื่อAI ‘คิดนาน’ แต่คำตอบแย่ลง เปิดงานวิจัยของ Anthropic

Date Post
05.08.2025
Post Views

เมื่อAI ‘คิดนาน’ แต่คำตอบแย่ลง (ฉบับยาวไปไม่อ่าน)

งานวิจัยล่าสุดจาก Anthropic พบว่าให้ AI คิดนานขึ้นในบางกรณีไม่ได้ช่วยให้คำตอบดีขึ้นเสมอ แถมอาจทำให้ผลลัพธ์แย่ลง โดยเฉพาะในงานที่มีข้อมูลลวง ความสัมพันธ์ผิดๆ หรือปัญหาที่ต้องคิดซับซ้อน หลักฐานจากโมเดลดังทั้ง Claude และ o-series ของ OpenAI ชี้ให้เห็นว่า “พลังคิด” ไม่ใช่ยาครอบจักรวาล นักพัฒนาอาจต้องหาวิธีควบคุมระยะเวลาคิดให้เหมาะสม แทนที่จะเพิ่มไม่ยั้ง


ผลวิจัยสดๆ ร้อนๆ ของ Anthropic ที่เหมือนตบไหล่เบาๆ แล้วกระซิบว่า “รู้ไหมว่าการที่คุณให้เวลา AI คิดมากขึ้นมันไม่ได้การันตีว่าคำตอบมันจะถูกนะ” งานวิจัยชื่อ Inverse Scaling in Test-Time Compute 

เผยให้เห็นว่าการขยายเวลาคิด ของโมเดลภายในช่วงการใช้งานจริง (test-time compute) ไม่ได้ให้ผลลัพธ์ที่ดีเสมอไป แถมในหลายสนามยังทำให้ความแม่นยำรูดลงจนทำเอาเจ็บลึกในใจ

เมื่อทฤษฎีขัดใจสัญชาตญาณ

วงการเรียนรู้เชิงลึกเติบโตด้วยกฎเหล็กง่ายๆ ว่า “ใหญ่กว่า ดีกว่า” ทั้งจำนวนพารามิเตอร์ ข้อมูล และรอบฝึกล้วนมักแปลเป็นคะแนนเทสต์สูงขึ้น แนวคิดนี้แผ่ขยายไปถึงตอนใช้งานด้วยที่เรามักจะคิดว่าคิดนานคือดีเสมอ

บริษัทชั้นนำตั้งสมมุติฐานว่า ถ้าเปิดโหมดให้โมเดลคิดยาว ด้วยโทเคนเหตุผลเพิ่มอีกหลายพันตัว ก็ย่อมได้คำตอบลุ่มลึกกว่าเดิม ทีมวิจัยของ Anthropic จึงพยายามทดสอบสมมุติฐานนั้นอย่างเป็นระบบ 

ผลลัพธ์กลับพลิกล็อก กราฟประสิทธิภาพที่ควรไต่ขึ้นตามเวลาคิดกลับดิ่งลงในงาน ‘บางประเภท’ เหตุการณ์นี้เองที่นักเขียนข่าวเทคโนโลยีหลายสำนักพาดหัวว่าเป็น “ อาการคิดมากจนหลอน ” ของ AI ในยุคนี้

4 ข้อมูลที่ทำให้โมเดลลื่นล้ม ถ้าคิดนาน

งานวิจัยนี้ทดสอบ AI รุ่นชั้นนำหลายตัว รวมถึง Claude ของ Anthropic เอง และ OpenAI’s o-series พวกเขาพบว่ามีงาน 4 ประเภทหลักที่ AI ยิ่งคิดนาน ยิ่งแย่ลง

  • red herring tasks – หรืองานที่มี “ข้อมูลลวงตา” แฝงอยู่ เหมือนมีตัวล่อให้ AI หลงทาง ยกตัวอย่างนะครับ สมมติโจทย์ถามเรื่องคณิต แต่มีข้อมูลไม่เกี่ยวข้องแทรกมา AI ที่คิดสั้นๆ อาจมองข้าม แต่ถ้าคิดยาว มันจะเริ่มเอาเจ้าข้อมูลลวงนั้นมาผสม แล้วตอบผิด ถัดมา 
  • spurious correlation tasks – ซึ่งเกี่ยวกับความสัมพันธ์หลอกลวง AI อาจเห็นแพตเทิร์นที่ไม่มีอยู่จริง แล้วยิ่งคิดยาว ยิ่งมั่นใจในแพตเทิร์นผิดๆ นั้น
  • constraint satisfaction problems – นี่ซับซ้อนหน่อย คือปัญหาที่ต้องคำนึงเงื่อนไขหลายอย่างพร้อมกัน เหมือนแก้ปริศนาซูโดกุขนาดยักษ์ AI เริ่มดี แต่พอ chain of thought ยาวขึ้น มันลืมเงื่อนไขบางอย่าง แล้วพลาดท่า 
  • advanced AI risk evaluations – ซึ่งเกี่ยวกับการประเมินความเสี่ยงของ AI เอง นี่แหละครับที่ชวนขนลุก เพราะถ้า AI คิดนานแล้วตอบผิดเรื่องความเสี่ยง มันอาจนำไปสู่ปัญหาใหญ่ในโลกจริง

ปรากฏว่านิสัยเสียไม่ได้กระจายเท่าๆ กัน ตระกูล Claude ถูกตัวล่อเบนความสนใจได้ง่ายเหมือนแมวเห็นแสงเลเซอร์ 

ขณะที่สาย o-series ของ OpenAI ดูแคล้วคลาดสิ่งรบกวนได้ดีกว่า แต่กลับมักจะ ‘ติดกรอบคำถาม’ ยิ่งคิดนานยิ่งผูกติดกับโครงสร้างโจทย์เดิมจนตอบผิดซ้ำๆ 

นักวิจัยจึงสรุปแบบปลงๆ ว่าไม่ว่าจะล้ำหน้าแค่ไหน โมเดลก็ยังมีสไตล์ล้มเหลวเฉพาะตัวเหมือนคนจริง

ผลสะเทือนต่ออุตสาหกรรมเมื่อ ‘พลังคิด’ ไม่ใช่ยาครอบจักรวาล

งานวิจัยนี้ตบหน้าแนวคิด reasoning tokens ของหลายค่าย รวมถึงโหมด extended thinking ใน Claude เอง Anthropic ชี้ว่าแทนที่จะป้อนเวลาไม่อั้น ผู้พัฒนาอาจต้องคุมลมหายใจของโมเดล 

หรือบริหารเวลาคิดให้พอดีกับงาน จัดกรอบตัวอย่าง few-shot หรือออกแบบกลไกรับรองไม่ให้สมองกลออกนอกลู่นอกทางมากเกินไป

ด้านความปลอดภัย ผลลัพธ์เตือนว่าการประเมินโมเดลเพียงรอบสั้นอาจพรางพฤติกรรมอันตราย ฝ่ายนโยบายจึงต้องทดสอบข้ามระยะเวลาคิดหลายสเกล เพื่อแน่ใจว่าโมเดลไม่ปล่อยพิษเมื่อได้ครุ่นคิดยืดยาว6.

นักวิทยาศาสตร์กำลังขุดลึกว่าทำไม โมเดลถึงตีบตันเมื่อคิดนาน บางกลุ่มหันไปออกแบบตัวแปรตรวจสอบภายใน หาเครื่องมือผ่าตัดโซ่เหตุผลทีละข้อเพื่อเช็กว่าสมองกลสะดุดตรงไหน 

ส่วนคนเล่านิทานเทคโนโลยี(สำนักข่าวเทคโนโลยี) ก็ได้วัตถุดิบใหม่ไว้เตือนว่า 

“ความฉลาดของ AI ไม่ได้เติบโตเป็นเส้นตรง บางทีเหมือนนักวิ่งมาราธอนที่ฝึกหนักเกินจนยางแตกตรงโค้งสุดท้าย”

ดังนั้นครั้งหน้าถ้าคุณเห็นปุ่ม DeepThink หรือชื่ออะไรก็ตาม ในแอปแชตบ็อตสุดไฮโซไม่ว่าจะค่ายไหน อย่าลืมว่างานวิจัยนี้บอกเราว่า 

การยืดเวลาคิดไม่ต่างจากทำกาแฟช็อตที่สาม อาจทำให้ตาสว่างขึ้น หรือหัวใจเต้นแรงจนยกคำตอบผิดยื่นให้คุณอย่างมั่นอกมั่นใจ ความพอดีจึงไม่ใช่แค่ศิลปะสำหรับมนุษย์ แต่กลายเป็นหลักสูตรจำเป็นสำหรับสมองกลด้วยเช่นกัน

แต่อย่าเพิ่งเข้าใจผิดว่าการคิดนานของ ChatBot จะไม่ดีเสมอ ผมขอย้ำในช่วงท้ายบทความนะครับว่ามันผิดพลาดแค่กับงานบางประเภทที่มีข้อมูล 4 ตัวที่เป็นตัวแปลที่ชวนเข้าใจผิดเท่านั้น

เพราะการใช้เทคโนโลยีอย่างเข้าใจมันดี มากกว่าการใช้มันแบบไม่รู้อะไรและคาดหวังว่ามันจะปาคำตอบที่ถูกและตรงใจกลับมาเสมอ


Logo-Company
Logo-Company
Logo-Company
logo-company
Pisit Poocharoen
Former field engineer seeking to break free from traditional learning frameworks. อดีตวิศวกรภาคสนามที่ต้องการหลุดออกจากกรอบการเรียนรู้แบบเดิม ๆ
Super Source-E-market place สำหรับสินค้าอุตสาหกรรม