SIEMENS WinCC
VEGA Instrument
สมองที่กำลังคิดนานของ AI

เมื่อAI ‘คิดนาน’ แต่คำตอบแย่ลง เปิดงานวิจัยของ Anthropic

Date Post
05.08.2025
Post Views

เมื่อAI ‘คิดนาน’ แต่คำตอบแย่ลง (ฉบับยาวไปไม่อ่าน)

งานวิจัยล่าสุดจาก Anthropic พบว่าให้ AI คิดนานขึ้นในบางกรณีไม่ได้ช่วยให้คำตอบดีขึ้นเสมอ แถมอาจทำให้ผลลัพธ์แย่ลง โดยเฉพาะในงานที่มีข้อมูลลวง ความสัมพันธ์ผิดๆ หรือปัญหาที่ต้องคิดซับซ้อน หลักฐานจากโมเดลดังทั้ง Claude และ o-series ของ OpenAI ชี้ให้เห็นว่า “พลังคิด” ไม่ใช่ยาครอบจักรวาล นักพัฒนาอาจต้องหาวิธีควบคุมระยะเวลาคิดให้เหมาะสม แทนที่จะเพิ่มไม่ยั้ง


ผลวิจัยสดๆ ร้อนๆ ของ Anthropic ที่เหมือนตบไหล่เบาๆ แล้วกระซิบว่า “รู้ไหมว่าการที่คุณให้เวลา AI คิดมากขึ้นมันไม่ได้การันตีว่าคำตอบมันจะถูกนะ” งานวิจัยชื่อ Inverse Scaling in Test-Time Compute 

เผยให้เห็นว่าการขยายเวลาคิด ของโมเดลภายในช่วงการใช้งานจริง (test-time compute) ไม่ได้ให้ผลลัพธ์ที่ดีเสมอไป แถมในหลายสนามยังทำให้ความแม่นยำรูดลงจนทำเอาเจ็บลึกในใจ

เมื่อทฤษฎีขัดใจสัญชาตญาณ

วงการเรียนรู้เชิงลึกเติบโตด้วยกฎเหล็กง่ายๆ ว่า “ใหญ่กว่า ดีกว่า” ทั้งจำนวนพารามิเตอร์ ข้อมูล และรอบฝึกล้วนมักแปลเป็นคะแนนเทสต์สูงขึ้น แนวคิดนี้แผ่ขยายไปถึงตอนใช้งานด้วยที่เรามักจะคิดว่าคิดนานคือดีเสมอ

บริษัทชั้นนำตั้งสมมุติฐานว่า ถ้าเปิดโหมดให้โมเดลคิดยาว ด้วยโทเคนเหตุผลเพิ่มอีกหลายพันตัว ก็ย่อมได้คำตอบลุ่มลึกกว่าเดิม ทีมวิจัยของ Anthropic จึงพยายามทดสอบสมมุติฐานนั้นอย่างเป็นระบบ 

ผลลัพธ์กลับพลิกล็อก กราฟประสิทธิภาพที่ควรไต่ขึ้นตามเวลาคิดกลับดิ่งลงในงาน ‘บางประเภท’ เหตุการณ์นี้เองที่นักเขียนข่าวเทคโนโลยีหลายสำนักพาดหัวว่าเป็น “ อาการคิดมากจนหลอน ” ของ AI ในยุคนี้

4 ข้อมูลที่ทำให้โมเดลลื่นล้ม ถ้าคิดนาน

งานวิจัยนี้ทดสอบ AI รุ่นชั้นนำหลายตัว รวมถึง Claude ของ Anthropic เอง และ OpenAI’s o-series พวกเขาพบว่ามีงาน 4 ประเภทหลักที่ AI ยิ่งคิดนาน ยิ่งแย่ลง

  • red herring tasks – หรืองานที่มี “ข้อมูลลวงตา” แฝงอยู่ เหมือนมีตัวล่อให้ AI หลงทาง ยกตัวอย่างนะครับ สมมติโจทย์ถามเรื่องคณิต แต่มีข้อมูลไม่เกี่ยวข้องแทรกมา AI ที่คิดสั้นๆ อาจมองข้าม แต่ถ้าคิดยาว มันจะเริ่มเอาเจ้าข้อมูลลวงนั้นมาผสม แล้วตอบผิด ถัดมา 
  • spurious correlation tasks – ซึ่งเกี่ยวกับความสัมพันธ์หลอกลวง AI อาจเห็นแพตเทิร์นที่ไม่มีอยู่จริง แล้วยิ่งคิดยาว ยิ่งมั่นใจในแพตเทิร์นผิดๆ นั้น
  • constraint satisfaction problems – นี่ซับซ้อนหน่อย คือปัญหาที่ต้องคำนึงเงื่อนไขหลายอย่างพร้อมกัน เหมือนแก้ปริศนาซูโดกุขนาดยักษ์ AI เริ่มดี แต่พอ chain of thought ยาวขึ้น มันลืมเงื่อนไขบางอย่าง แล้วพลาดท่า 
  • advanced AI risk evaluations – ซึ่งเกี่ยวกับการประเมินความเสี่ยงของ AI เอง นี่แหละครับที่ชวนขนลุก เพราะถ้า AI คิดนานแล้วตอบผิดเรื่องความเสี่ยง มันอาจนำไปสู่ปัญหาใหญ่ในโลกจริง

ปรากฏว่านิสัยเสียไม่ได้กระจายเท่าๆ กัน ตระกูล Claude ถูกตัวล่อเบนความสนใจได้ง่ายเหมือนแมวเห็นแสงเลเซอร์ 

ขณะที่สาย o-series ของ OpenAI ดูแคล้วคลาดสิ่งรบกวนได้ดีกว่า แต่กลับมักจะ ‘ติดกรอบคำถาม’ ยิ่งคิดนานยิ่งผูกติดกับโครงสร้างโจทย์เดิมจนตอบผิดซ้ำๆ 

นักวิจัยจึงสรุปแบบปลงๆ ว่าไม่ว่าจะล้ำหน้าแค่ไหน โมเดลก็ยังมีสไตล์ล้มเหลวเฉพาะตัวเหมือนคนจริง

ผลสะเทือนต่ออุตสาหกรรมเมื่อ ‘พลังคิด’ ไม่ใช่ยาครอบจักรวาล

งานวิจัยนี้ตบหน้าแนวคิด reasoning tokens ของหลายค่าย รวมถึงโหมด extended thinking ใน Claude เอง Anthropic ชี้ว่าแทนที่จะป้อนเวลาไม่อั้น ผู้พัฒนาอาจต้องคุมลมหายใจของโมเดล 

หรือบริหารเวลาคิดให้พอดีกับงาน จัดกรอบตัวอย่าง few-shot หรือออกแบบกลไกรับรองไม่ให้สมองกลออกนอกลู่นอกทางมากเกินไป

ด้านความปลอดภัย ผลลัพธ์เตือนว่าการประเมินโมเดลเพียงรอบสั้นอาจพรางพฤติกรรมอันตราย ฝ่ายนโยบายจึงต้องทดสอบข้ามระยะเวลาคิดหลายสเกล เพื่อแน่ใจว่าโมเดลไม่ปล่อยพิษเมื่อได้ครุ่นคิดยืดยาว6.

นักวิทยาศาสตร์กำลังขุดลึกว่าทำไม โมเดลถึงตีบตันเมื่อคิดนาน บางกลุ่มหันไปออกแบบตัวแปรตรวจสอบภายใน หาเครื่องมือผ่าตัดโซ่เหตุผลทีละข้อเพื่อเช็กว่าสมองกลสะดุดตรงไหน 

ส่วนคนเล่านิทานเทคโนโลยี(สำนักข่าวเทคโนโลยี) ก็ได้วัตถุดิบใหม่ไว้เตือนว่า 

“ความฉลาดของ AI ไม่ได้เติบโตเป็นเส้นตรง บางทีเหมือนนักวิ่งมาราธอนที่ฝึกหนักเกินจนยางแตกตรงโค้งสุดท้าย”

ดังนั้นครั้งหน้าถ้าคุณเห็นปุ่ม DeepThink หรือชื่ออะไรก็ตาม ในแอปแชตบ็อตสุดไฮโซไม่ว่าจะค่ายไหน อย่าลืมว่างานวิจัยนี้บอกเราว่า 

การยืดเวลาคิดไม่ต่างจากทำกาแฟช็อตที่สาม อาจทำให้ตาสว่างขึ้น หรือหัวใจเต้นแรงจนยกคำตอบผิดยื่นให้คุณอย่างมั่นอกมั่นใจ ความพอดีจึงไม่ใช่แค่ศิลปะสำหรับมนุษย์ แต่กลายเป็นหลักสูตรจำเป็นสำหรับสมองกลด้วยเช่นกัน

แต่อย่าเพิ่งเข้าใจผิดว่าการคิดนานของ ChatBot จะไม่ดีเสมอ ผมขอย้ำในช่วงท้ายบทความนะครับว่ามันผิดพลาดแค่กับงานบางประเภทที่มีข้อมูล 4 ตัวที่เป็นตัวแปลที่ชวนเข้าใจผิดเท่านั้น

เพราะการใช้เทคโนโลยีอย่างเข้าใจมันดี มากกว่าการใช้มันแบบไม่รู้อะไรและคาดหวังว่ามันจะปาคำตอบที่ถูกและตรงใจกลับมาเสมอ


Logo-Company
Logo-Company
Logo-Company
logo-company
Pisit Poocharoen
Former field engineer seeking to break free from traditional learning frameworks. อดีตวิศวกรภาคสนามที่ต้องการหลุดออกจากกรอบการเรียนรู้แบบเดิม ๆ