จาก Token สู่ความเข้าใจ การเดินทางของภาษาในยุค AI

07.07.2025

ในบทความตอนก่อน เราได้ย้ำถึงขั้นตอนแรกของการประมวลผลภาษาธรรมชาติ นั่นคือการแปลงข้อความเป็น tokens ซึ่งทำให้ AI สามารถจัดการกับข้อความที่เป็นตัวอักษรธรรมดาได้ แต่เพียงแค่การแยกคำออกมาเป็นหน่วยเล็ก ๆ มันยังไม่พอ เพราะต่อให้เรารู้ว่าคำแต่ละคำคืออะไร แต่เรายังไม่เข้าใจความสัมพันธ์และความหมายเชิงลึกที่แฝงอยู่ในข้อความนั้น ๆ ดังนั้นในยุคของโมเดล NLP เราจึงต้องพึ่งพาสถาปัตยกรรมที่ชื่อว่า Transformer ซึ่งถูกนำเสนอครั้งแรกโดย Vaswani และคณะในปี 2017 และกลายเป็นรากฐานสำคัญของโมเดลชื่อดังอย่าง GPT, BERT, T5 ฯลฯ

Table of Contents

Transformer ไม่ใช่แค่โมเดลที่มาทดแทน RNN หรือ LSTM แต่เป็นการปฏิวัติแนวคิดในการประมวลผลลำดับข้อมูล ด้วยกลไกที่เรียกว่า Self-Attention ทำให้โมเดลสามารถ “มองเห็น” ความสัมพันธ์ระหว่างคำในประโยคได้อย่างเต็มที่ ขจัดปัญหาเรื่องการจำลำดับข้อมูลที่ไกลเกินไป (long–range dependency) และยังทำให้การฝึกโมเดลสามารถขนาน (parallel) กันได้เต็มที่ จึงเทรนได้เร็วขึ้นอย่างมีนัยยะสำคัญ

จาก Token สู่การเข้าใจ

เมื่อเริ่มต้นจาก sequence ของ tokens เราจะเข้าสู่กระบวนการแรกด้วย Embedding Layer ซึ่งเปลี่ยน token ID ที่เป็นตัวเลขชี้ตำแหน่งคำ ให้กลายเป็นเวกเตอร์ตัวเลขที่นำเสนอความหมายเชิงกว้าง (distributed representation) ของคำแต่ละคำ เสมือนการวาดคำแต่ละคำลงบนพิกัดหลายมิติ จากนั้นเราต้องเสริมข้อมูล “ลำดับ” เข้ามาด้วย Positional Encoding เพราะ Transformer ไม่มีโครงสร้างวนลูปตามลำดับคำเหมือน RNN จึงไม่มีความรู้เรื่องตำแหน่งในตัวเอง

เมื่อเวกเตอร์พร้อมแล้ว กลไกหลักคือชุดของเลเยอร์ที่เรียงซ้อนกัน ได้แก่ Multi-Head Self-Attention เพื่อวิเคราะห์ความสัมพันธ์ระหว่างคำในมุมมองต่าง ๆ แล้วจึงใช้ Feedforward Network เพื่อปรับปรุง representation ให้มีความลึกจำนวนหนึ่ง และต่อด้วย Normalization เพื่อให้การเรียนรู้นิ่งขึ้น ผลลัพธ์คือเวกเตอร์ของแต่ละ token ที่บรรจุทั้งความหมายพื้นฐานและข้อมูลบริบทจากทั้งประโยค

องค์ประกอบสำคัญของ Transformer

Embedding Layer

Embedding Layer คือประตูแรกที่แปลง token ID ให้ออกมาเป็นเวกเตอร์ความยาวคงที่ (เช่น 512 หรือ 768 มิติ) แต่ละมิติจะถูกเรียนรู้ในระหว่าง pretraining เพื่อจับลักษณะเฉพาะของคำ เช่น คำว่า “หมา” อาจมีเวกเตอร์ที่อยู่ใกล้กับ “สุนัข” แต่ห่างจาก “แมว” เพียงเล็กน้อย สิ่งนี้ทำให้โมเดลเข้าใจความสัมพันธ์เชิงความหมายเบื้องต้นได้ตั้งแต่ต้น กระบวนการเรียนรู้ร่วมกับโมเดล (joint embedding) ช่วยให้เวกเตอร์เหล่านี้มีความเหมาะสมกับสถาปัตยกรรม Transformer มากกว่าการใช้ embedding แบบคงที่

Positional Encoding

เพื่อให้โมเดลรับรู้ตำแหน่งของ token ในลำดับข้อมูล เราจะผนวก embedding ของคำเข้ากับ vector ที่บอกตำแหน่งด้วยฟังก์ชัน sine และ cosine ที่มีความถี่ต่างกัน วิธีนี้จะสร้าง pattern ที่ไม่ซ้ำกันสำหรับแต่ละตำแหน่ง เมื่อบวกกับ embedding เดิม โมเดลจะรู้ว่าคำไหนอยู่หน้า คำไหนอยู่หลัง ขณะที่เวอร์ชันอื่นยังเลือกใช้เวกเตอร์ตำแหน่งที่เรียนรู้ได้ (learnable positional embedding) ซึ่งจะมีพารามิเตอร์ให้โมเดลปรับเองทั้งหมด ทำให้ยืดหยุ่นกว่าแต่ต้องการข้อมูลมากขึ้น

Multi-Head Self-Attention

ไฮไลต์ของ Transformer คือกลไก Self-Attention ทุก token จะถูกแปลงเป็นสามเวกเตอร์ย่อยคือ Query, Key, และ Value แต่ละ head จะคำนวณน้ำหนัก (attention score) ระหว่าง Query ของคำปัจจุบันกับ Key ของคำทั้งชุด จากนั้นนำน้ำหนักไปถ่วงกับ Value เพื่อรวมข้อมูลบริบท การมีหลาย head (เช่น 8 หรือ 16 head) ช่วยให้โมเดลมองความสัมพันธ์ใน subspace ที่ต่างกัน เช่น บาง head อาจจับเรื่องไวยากรณ์ บาง head อาจจับเรื่องความสัมพันธ์เชิงความหมายระยะไกล จากนั้นจึงรวมผลลัพธ์ของทุก head ก่อนส่งต่อไปยังขั้นตอนถัดไป

Feedforward & Normalization

หลังจากได้เวกเตอร์ที่ผ่าน attention แต่ละตำแหน่ง จะถูกป้อนเข้า Feedforward Network แบบสองชั้นที่มี activation function (เช่น ReLU หรือ GELU) เพื่อปรับ representation ให้ลึกขึ้น เปรียบเสมือนการใส่เลเยอร์ที่ช่วยโมเดลคิดเชิงซ้อนก่อน จากนั้นจะมี Residual Connection ผนวกกับ Layer Normalization เพื่อรักษาความสเถียรของ gradient ระหว่างการฝึก ทำให้โมเดลเรียนรู้ได้เร็วและไม่เกิดการลอยของค่าในเลเยอร์

Encoder / Decoder โครงสร้างใหญ่

Transformer แบ่งออกเป็นสามสไตล์หลัก ตามการใช้งาน

Encoder-only (เช่น BERT) ทำงานโดยอ่านข้อความทั้งประโยคพร้อมกัน เรียนรู้ลำดับความสัมพันธ์ภายใน แล้วนำ representation ไปปรับแต่งสำหรับงาน classification หรือ tagging ต่าง ๆ
Decoder-only (เช่น GPT) อ่าน token ก่อนหน้าเพื่อคาดเดาคำถัดไป ทำซ้ำจนจบประโยค จึงเชี่ยวชาญในงาน text generation ทั้งบทสนทนาและการเขียนเชิงสร้างสรรค์
Encoder–Decoder (เช่น original Transformer, T5) แบ่งหน้าที่ระหว่าง encoder ที่แปลง input ให้ออกมาเป็น representation กลาง แล้ว decoder จึงสร้าง output (เช่น การแปลภาษา หรือการสรุปเนื้อหา)

โครงสร้าง Encoder–Decoder เหมาะกับงานที่ต้องเปลี่ยนรูปแบบข้อความเป็นข้อความ (text-to-text) ทำให้เราสามารถใช้โมเดลเดียวกันแก้ทั้ง translation, summarization, question answering เพียงแต่เปลี่ยน prefix หรือ prompt ในการฝึก

Transformer ดีกว่าวิธีเดิมยังไง

ในอดีต RNN และ LSTM ถูกใช้อย่างแพร่หลาย แต่มีข้อจำกัดเรื่องการประมวลผลแบบ sequential จึงไม่สามารถขนานได้ดี และเมื่อระยะทางของคำในลำดับเพิ่มขึ้น มักเจอปัญหา vanishing gradient หรือความยากในการเรียนรู้ long–range dependency

Transformer แก้ปัญหาทั้งหมดด้วย attention ซึ่งให้ความสำคัญกับ token ทุกคู่ได้โดยตรง จึงสามารถเก็บบริบทระยะไกลได้อย่างเท่าเทียม ขณะที่การขนาน (parallel) ช่วยลดเวลาในการเทรนลงอย่างมาก ถึงแม้ attention จะมีความซับซ้อน O(n²) แต่ด้วยการ optimize ในฮาร์ดแวร์สมัยใหม่ ก็ยังเร็วกว่า RNN/LSTM ในงานขนาดใหญ่อยู่ดี

ตัวอย่างการใช้งาน

ปัจจุบันเรามีโมเดลหลากหลายที่ใช้สถาปัตยกรรม Transformer อย่างแพร่หลาย GPT เองก็ได้พิสูจน์ตัวเองในด้านการสร้างข้อความอัตโนมัติ ตั้งแต่การเขียนบทความจนถึงโค้ดโปรแกรม ในขณะที่ BERT และรุ่นต่อยอด เช่น RoBERTa, ALBERT ถูกนำไปประยุกต์กับงาน classification, sentiment analysis, question answering และ named entity recognition อย่างกว้างขวาง ส่วน T5 และ MT5 ได้แสดงศักยภาพในการทำหลาย task ในกรอบ text-to-text เพียงแค่เปลี่ยน prefix ของ prompt ทำให้เรามีโมเดลเดียวแต่งานได้หลายรูปแบบ

ข้อจำกัดและความท้าทาย

แม้จะก้าวหน้ากว่าเดิม แต่ Transformer ยังต้องใช้ทรัพยากรคอมพิวต์มหาศาล ทั้ง GPU/TPU ในการ pretrain และ fine-tune โมเดลใหญ่ ยิ่งโมเดลใหญ่เท่าไร ความต้องการพลังงานก็ยิ่งสูง นำไปสู่ต้นทุนทางเศรษฐกิจและสิ่งแวดล้อม อีกทั้ง context window ของ attention ยังถูกจำกัด (เช่น 512–2,048 tokens) แม้มีเทคนิคเช่น Longformer, Performer, หรือ Retrieval-Augmented Generation (RAG) แต่ก็ยังเป็นโจทย์สำคัญสำหรับการทำความเข้าใจเอกสารยาว ๆ นอกจากนี้ การนำ Transformer มาใช้ในงานภาษาที่มี resources จำกัดหรือภาษาท้องถิ่น ก็ยังขาด pretraining data ที่หลากหลาย

Transformer ไม่เพียงแต่เป็นสถาปัตยกรรมใหม่ แต่เป็นการเปลี่ยนเกมวงการ NLP อย่างแท้จริง จากการที่เราเคยต้องพึ่งพา RNN/LSTM มาสู่โมเดลที่ใช้ attention เป็นหลัก กลไก Multi-Head Self-Attention ทำให้โมเดล เข้าใจความหมายเชิงบริบทได้ลึกซึ้งมากขึ้น การแบ่งโครงสร้างเป็น Encoder, Decoder หรือผสมผสานทั้งสอง ยังช่วยให้เราเลือกใช้โมเดลให้เหมาะสมกับงาน ตั้งแต่การสร้างข้อความ ไปจนถึงการวิเคราะห์ความรู้สึก และแม้จะมีข้อจำกัดเรื่องทรัพยากรและขนาดบริบท แต่ด้วยงานวิจัยที่ไม่หยุดนิ่ง เรากำลังก้าวสู่อนาคตที่ AI จะเข้าใจภาษาและบทสนทนาได้อย่างเป็นธรรมชาติมากขึ้นทุกวัน

บทความที่น่าสนใจ

Tags:

AI, AI Chatbot, ChatGPT, GenAI, Tokenizer

Pisit Poocharoen

Former field engineer seeking to break free from traditional learning frameworks. อดีตวิศวกรภาคสนามที่ต้องการหลุดออกจากกรอบการเรียนรู้แบบเดิม ๆ