VEGA Instrument
VEGA Instrument
การจับภาพของหุ่นยนต์

งานวิจัย: MIT สอนหุ่นยนต์ให้จับภาพพื้นที่ขนาดใหญ่ได้ในเวลาไม่กี่วินาที

Date Post
20.11.2025
Post Views

นักวิจัยจาก MIT พัฒนาระบบนำทางหุ่นยนต์แบบใหม่ที่ทำให้สามารถคาดเดาสภาพแวดล้อมในพื้นที่ขนาดใหญ่ได้โดยการสร้างแผนที่สำหรับพื้นที่ที่อยู่โดยรอบขึ้นมาได้อย่างแม่นยำ ซึ่งวัตถุประสงค์หลักของการพัฒนาครั้งนี้ คือ การพัฒนาหุ่นยนต์สำหรับภารกิจช่วยเหลือและกู้ภัย

เหล่านักวิจัยได้สร้างโมเดล Machine Learning (ML) เพื่อทำงานที่มีความซับซ้อนสูงโดยใช้เพียงข้อมูลจากกล้องที่ติดอยู่บนหุ่นยนต์เท่านั้น แต่คสวามท้าทายสำคัญ คือ แม้จะเป็นโมเดลที่ดีที่สุดก็สามารถประมวลผลได้ครั้งละไม่กี่ภาพ หากเป็นการทำงานภายใต้สภาพแวดล้อมภัยพิบัติที่เกิดขึ้นจริงที่เวลาทุกเสี้ยววินาทีล้วนสำคัญแล้ว หุ่นยนต์สำหรับการค้นหาและกู้ภัยต้องสามารถสำรวจพื้นที่ขนาดใหญ่ได้อย่างรวดเร็วและประมวลผลภาพนับพันให้ได้เพื่อรักษาชีวิตผู้คนเอาไว้

ภายใต้แรงบันดาลใจดังกล่าว นักวิจัยจาก MIT ได้แนวคิดจาก AI รุ่นล่าสุดที่นำมาผสมผสานกับกล้องคอมพิวเตอร์แบบคลาสสิกเพื่อพัฒนาเป็นระบบใหม่ที่สามารถประมวลผลภาพได้เป็นจำนวนตามที่ต้องการ ซึ่งระบบนี้จะสร้าง (Generate) แผนที่ 3 มิติ ที่มีฉากอันซับซ้อนขึ้นมา เช่น สำนักงานที่มีคนแน่นขนัด ด้วยระยะเวลาไม่กี่วินาทีเท่านั้น

ระบบที่ถูกเสริมด้วย AI นี้สามารถสร้างและจัดการแผนที่ย่อย (Submap) ที่มีขนาดเล็กของพื้นที่ที่มองเห็นได้ และจะถูกนำมาเย็บติดกันเพื่อทำให้กลายเป็นแผนที่ 3 มิติขนาดใหญ่ที่สามารถประเมินตำแหน่งของหุ่นยนต์ได้แบบ Real-Time

สิ่งที่ทำให้เทคนิคนี้แตกต่างจากวิธีอื่น ๆ คือ การที่ไม่จำเป็นต้องสอบเทียบ (Calibrate) ตัวกล้องหรือใช้ผู้เชี่ยวชาญในการปรับแต่งระบบที่มีความซับซ้อน ด้วยธรรมชาติที่เรียบง่ายของแนวทางที่ใช้ ผสานกับความเร็วและคุณภาพของการสร้างภาพ 3 มิติขึ้นใหม่ ทำให้เป็นเรื่องง่ายในการยกระดับสู่แอปพลิเคชันการใช้งานในโลกจริง

นอกเหนือไปจากการนำทางหุ่นยนต์แล้ว กรรมวิธีนี้สามารถช่วยเพิ่มศักยภาพของเทคโนโลยีกลุ่มโลกเหมือนจริง (Reality Application) สำหรับอุปกรณ์สวมใส่ เช่น VR หรือทำให้หุ่นยนต์อุตสาหกรรมสามารถหาและเคลื่อนย้ายสินค้าในคลังได้อย่างรวดเร็วยิ่งขึ้นอีกด้วย

นวัตกรรมใหม่ที่เกิดจากการผสานเทคโนโลยีเก่าเข้ากับ ML

เดิมทีนั้นการนำทางหุ่นยนต์จะใช้เทคโนโลยีที่เรียกว่า Simultaneous Localization and Mapping (SLAM) ซึ่งหุ่นยนต์จำสร้างแผนที่สภาพแวดล้อมไปพร้อมกับการบริหารจัดการตัวเองในพื้นที่

กรรมวิธีเหล่านี้มักจะล้มเหลวเมื่อต้องเผชิญหน้ากับสถานการณ์ที่มีความซับซ้อนสูงได้ หรือจำเป็นที่จะต้องมีการสอบเทียบกล้องในหุ่นยนต์ก่อนใช้งานจริง การนำเทคโนโลยี ML เข้ามาใช้ทำให้สามารถเรียนรู้จากความผิดพลาดที่เกิดขึ้นได้

ในกรณีของโมเดลที่ดีที่สุดนั้นสามารถประมวลผลได้เพียง 60 ภาพต่อครั้งเท่านั้น ทำให้เกิดข้อจำกัดในการใช้งานของหุ่นยนต์ภายใต้สภาพแวดล้อมที่เกิดการเปลี่ยนแปลงอย่างต่อเนื่องและมีคววามท้าทายสูง ไม่ว่าจะเป็นการเคลื่อนไหวที่รวดเร็วในพื้นที่ดังกล่าวในรูปแบบที่แตก่างกัน แต่ก็ต้องประมวลผลภาพไปด้วยนับพันภาพ

นักวิจัยจาก MT จึงได้ออกแบบระบบใหม่นี้ให้สร้างภาพแผนที่ย่อยจำนวนมากขึ้นแทนที่พื้นที่ทั้งหมดในคราวเดียว จากนั้นจึงนำข้อมูลที่ได้มาต่อเข้าด้วยกันเหมือนติดกาว กลายเป็นโครงสร้างภาพ 3 มิติขนาดใหญ่ โดยจะมีการประมวลผลภาพจำนวนไม่มากในแต่ละครั้งแทนที่ ทำให้ระบบสามารถสร้างฉากภาพที่ใหญ่ขึ้นได้ด้วยความเร็วที่สูงขึ้นอย่างมาก ซึ่งเป็นผลจากการต่อภาพขนาดเล็กจำนวนมากเข้าด้วยกันนั่นเอง

นักวิจัยได้ย้อนไปศึกษางานวิจัยจากช่วงยุค 80 และ 90 พบว่าวิธีที่ ML ประมวลผลภาพทำให้การจัดเรียงแผนที่ย่อยนั้นเป็นปัญหาที่ซับซ้อนยิ่งขึ้น เพราะวิธีดั้งเดิมนั้นดำเนินการโดยการหมุนและการแปลภาพจนกว่าจะตรงกัน แต่โมเดลใหม่นี้กลับเปิดให้ความคลุมเครือที่เกิดขึ้นเข้าไปอยู่ในแผนที่ย่อยได้ ทำให้การจัดเรียงภาพยากขึ้น เช่น ภาพแผนที่ย่อย 3 มิติของห้องหนึ่งอาจมีกำแพงที่บิดไปปหรือยืดออกนิดหน่อยได้ การหมุนและการแปลภาพที่เปลี่ยนรูปร่างแบบนี้แผ่นที่ย่อยไม่สามารถถูกนำมาจัดเรียงด้วยกันได้

การสำรวจพื้นที่รวดเร็วเกือบ Real-Time ด้วยความคลาดเคลื่อนที่ไม่เกิน 5 ซ.ม.

การใช้แนวคิดจากระบบกล้องคอมพิวเตอร์คลาสสิกนั้นทำให้นักวิจัยพัฒนาวิธีการทำงานที่มีความยืดหยุ่นสูงกว่า โดยเฉพาะเทคนิคทางคณิตศาสตร์ที่สามารถเสนอการเปลี่ยนรูป (Deformation) ในแผนที่ย่อยได้ การใส่ข้อมูลการเปลี่ยนแปลงทางคณิตศาสตร์ในแต่ละแผนที่ย่อยทำให้เกิดความยืดหยุ่นในการจัดเรียงต่อภาพเข้าด้วยกัน

ระบบใหม่นี้ทำงานได้เร็วยิ่งขึ้น และมีความผิดพลาดในการสร้างภาพใหม่น้อยลงหากเปรียบเทียบกับวิธีการอื่น ๆ โดยไม่จำเป็นต้องใช้กล้องหรือเครื่องมือเพิ่มเติม ซึ่งข้อมูลที่เกิดขึ้นนั้นใกล้เคียงกับการสร้างภาพ 3 มิติขึ้นมาใหม่แบบ Real-Time สำหรับพื้นที่ที่มีความซ้บซ้อนสูง โดยค่าเฉลี่ยของการคลาดเคลื่อนหรือความผิดพลาดนั้นน้อยกว่า 5 เซนติเมตร

ที่มาข่าว:
MIT

Logo-Company
Logo-Company
Logo-Company
logo-company
Thossathip Soonsarthorn
"Judge a man by his questions rather than his answers" Voltaire
Super Source-E-market place สำหรับสินค้าอุตสาหกรรม