ทีมของ MIT ของ Kaiming He ปล่อยโมเดลการแพร่กระจายความแตกต่างของภาษา ELF พร้อมโทเคนสำหรับการฝึก 45B

ตาม Beating ทีมของ Kaiming He จาก MIT เพิ่งเปิดตัว ELF (Embedded Language Flows) ซึ่งเป็นโมเดลการแพร่กระจายภาษา โดยแตกต่างจากแนวทางออโตรีเกรสซีฟ “คาดเดาโทเค็นถัดไป” ที่ใช้ในโมเดลลักษณะ GPT โดย ELF ทำการสร้างข้อความในพื้นที่ embedding แบบต่อเนื่อง และจะแปลงเป็นโทเค็นแบบไม่ต่อเนื่องเพียงในขั้นสุดท้ายเท่านั้น

ในการทดสอบเกณฑ์การสร้างแบบไม่เงื่อนไข (unconditional generation) บน OpenWebText โมเดล ELF-B ขนาด 105M พารามิเตอร์ ทำได้ประมาณ 24.1 ของ perplexity การสร้าง (Gen. PPL) ด้วยการสุ่ม 32 ขั้น แซงหน้าพื้นฐานของโมเดลภาษาการแพร่กระจายแบบไม่ต่อเนื่องและแบบต่อเนื่องหลายตัวอย่างอย่างมีนัยสำคัญ โดยเฉพาะ ELF-B ใช้โทเค็นสำหรับการฝึกเพียงประมาณ 45 พันล้านโทเค็น ซึ่งน้อยกว่าวิธีที่เทียบเคียงกันได้ราวหนึ่งลำดับขนาด (order of magnitude) ทั้งที่โดยทั่วไปมักเกิน 500 พันล้านโทเค็น

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น