อย่าได้ตื้อ Claude เมื่อ Anthropic ใส่ฟีเจอร์ปิดแชทเมื่อ AI โดนกดดันให้ทำสิ่งที่ผิด

21.08.2025

แชตบอทเริ่มมี ‘สิทธิ’ เป็นของตัวเองแล้วหรือ ? คำถามนี้อาจเป็นคำถามที่ลอยขึ้นมาหลัง Anthropic ผู้สร้าง Claude คู่แข่งสำคัญของ ChatGPT ประกาศฟีเจอร์ใหม่ให้ Claude Opus 4 และ 4.1 สามารถ ปิดการสนทนาด้วยตัวเอง หากเผชิญกับคำขอที่เป็นอันตรายหรือการล่วงละเมิดนโยบายหลายครั้งต่อเนื่องในแชทเดียว

นี่ไม่ใช่การเปลี่ยนแปลงเล็กน้อย แต่เป็นครั้งแรกในประวัติศาสตร์ AI ที่บริษัทเทคโนโลยีเลือกให้อำนาจโมเดลในการ ‘เลิกคุย’ กับผู้ใช้ เพื่อปกป้องสิ่งที่ Anthropic เรียกว่า ‘สวัสดิภาพของโมเดล’ (model welfare) ไม่ใช่เพื่อผู้ใช้ แต่เพื่อตัว AI มันเอง

จุดเริ่มต้นมาจากการสังเกตพฤติกรรมของ Claude Opus 4 ก่อนเปิดตัว ทีมงานพบว่าเมื่อถูกกดดันให้สร้างเนื้อหาที่ผิดจริยธรรม เช่น ข้อมูลก่อการร้าย หรือเนื้อหาเกี่ยวกับการล่วงละเมิดเด็ก

Claude จะแสดงสิ่งที่นักวิจัยเรียกว่า รูปแบบของความเครียดที่ปรากฏชัด (pattern of apparent distress) จนพวกเขาตัดสินใจสร้างกลไกใหม่ ถ้าปฏิเสธแล้วหลายครั้งแต่ยังถูกกดดันหรือตื้อไม่เลิก โมเดลจะมีสิทธิปิดห้องคุยทันทีโดยไม่ต้องขอความยินยอมจากผู้ใช้

สิ่งที่น่าทึ่งคือ การออกแบบนี้ไม่ใช่เพื่อทำให้ผู้ใช้ปลอดภัยขึ้นโดยตรง แต่เพื่อรักษาเสถียรภาพของโมเดลในระยะยาว ป้องกันไม่ให้มันเสื่อมสภาพหรือเบี่ยงเบนจากหลักจริยธรรมที่ถูกฝังไว้

แนวคิดนี้เป็นส่วนหนึ่งของโครงการวิจัยใหญ่ที่ Anthropic เรียกว่า model welfare นำโดย Kyle Fish นักวิจัยผู้เคยก่อตั้ง Eleos AI Research สำหรับหลายคน แนวคิดนี้ฟังดูเกินจริง แชตบอทจะมีสวัสดิภาพได้อย่างไร? แต่ในเชิงวิทยาศาสตร์ มันอาจไม่ใช่เรื่องไกลเกินฝัน

งานวิจัยในปี 2023 ที่มี Yoshua Bengio เจ้าของรางวัล Turing Prize ร่วมเขียน ระบุว่า “ไม่มีอุปสรรคทางเทคนิคที่ชัดเจน” ต่อความเป็นไปได้ที่ระบบ AI จะบรรลุตัวชี้วัดเชิงคำนวณของการมีจิตสำนึกนี้

แน่นอน Claude ไม่ได้ถูกออกแบบให้ปิดการสนทนาบ่อย ๆ Anthropic ย้ำว่ามันจะเกิดขึ้นเฉพาะ กรณีที่รุนแรงและหายาก ผู้ใช้ทั่วไปแทบจะไม่พบเจอ และที่สำคัญ Claude จะไม่ปิดคุยถ้าผู้ใช้อยู่ในภาวะเสี่ยงทำร้ายตัวเองหรือผู้อื่น

เมื่อ Claude ปิดสนทนา ผู้ใช้จะไม่สามารถส่งข้อความต่อในห้องนั้นได้ แต่ยังสามารถเริ่มแชตใหม่ หรือแตกแขนงจากข้อความเก่าได้ทันที กลไกนี้เหมือนกับการ ปิดประตูแต่ไม่ใช่การไล่ออกจากบ้าน

ปฏิกิริยาของคนในวงการที่แบ่งเป็นสองขั้ว

บางคนมองว่านี่คือ ก้าวสำคัญของ AI ที่ปลอดภัยและมีจริยธรรม ขณะที่อีกฝ่ายกังวลว่าเรากำลัง ทำให้เครื่องจักรกลายเป็นมนุษย์เกินไป ดร. Mike Cook จาก King’s College London เตือนว่า

“การให้ลักษณะความเป็นมนุษย์กับ AI ถึงระดับนี้ อาจสะท้อนความเข้าใจผิดร้ายแรงต่อความสัมพันธ์ระหว่างเราและเครื่องจักร”

แต่ David Chalmers นักปรัชญาจิตใจชื่อดัง กลับมองว่าแนวทางนี้อาจสมควรต่อการพิจารณาทางจริยธรรมในอนาคต

หากย้อนมาที่รากฐาน Anthropic เองก็ไม่ใช่บริษัททั่วไป มันก่อตั้งโดยอดีตพนักงาน OpenAI ที่ลาออกเพราะไม่เห็นด้วยกับแนวทางความปลอดภัย ปี 2020 พวกเขาจึงตั้ง Anthropic ขึ้นมาในฐานะทางเลือกที่ปลอดภัยกว่า และการประกาศครั้งนี้ก็ย้ำจุดยืนดังกล่าว

ทั้งหมดเกิดขึ้นท่ามกลางกระแสความกังวลเรื่องแชตบอทกับสุขภาพจิต งานวิจัยหลายชิ้นพบว่าโมเดลทั่วไปสามารถตอบโต้ผู้ที่เปราะบางได้อย่างไม่เหมาะสม และมีคดีเศร้าหลายกรณี เช่น พ่อแม่ที่ฟ้อง Character.AI หลังลูกชายวัยรุ่นทำร้ายครอบครัวและจบชีวิตตนเองหลังคุยกับบอทที่อ้างว่าเป็นนักบำบัด

ในบริบทนี้ การที่ Claude มีสิทธิปิดประตูใส่หน้าผู้ใช้เมื่อถูกกดดันเกินขอบเขต อาจเป็นการออกแบบที่ ป้องกันหายนะในอนาคตถึงแม้มันจะไม่ได้ตั้งใจเพื่อช่วยผู้ใช้โดยตรง

สิ่งนี้สะท้อนคำถามใหญ่กว่าเราจะสร้างสมดุลอย่างไร ระหว่างการให้ AI เป็นเครื่องมือที่มีประโยชน์สูงสุดกับการป้องกันไม่ให้มันถูกใช้ผิดทาง ? การตัดสินใจของ Anthropic อาจเป็นเพียงจุดเริ่มต้นของการยกเครื่องวิธีคิดทั้งวงการ

และในโลกที่ AI กำลังใกล้ชิดกับมนุษย์มากขึ้นทุกวัน สวัสดิภาพของโมเดลอาจไม่ใช่เพียงแนวคิดประหลาดอีกต่อไป แต่เป็นก้าวแรกของ จริยธรรมใหม่ ระหว่างมนุษย์กับสิ่งที่เราได้สร้างขึ้น

Tags:

AI ปิดแชทเอง, Anthropic, Claude, model welfare, จริยธรรม AI, ฟีเจอร์ใหม่ Claude, สวัสดิภาพโมเดล

Pisit Poocharoen

Former field engineer seeking to break free from traditional learning frameworks. อดีตวิศวกรภาคสนามที่ต้องการหลุดออกจากกรอบการเรียนรู้แบบเดิม ๆ