ตาม Beating ทีมของ Kaiming He จาก MIT เพิ่งเปิดตัว ELF (Embedded Language Flows) ซึ่งเป็นโมเดลการแพร่กระจายภาษา โดยแตกต่างจากแนวทางออโตรีเกรสซีฟ “คาดเดาโทเค็นถัดไป” ที่ใช้ในโมเดลลักษณะ GPT โดย ELF ทำการสร้างข้อความในพื้นที่ embedding แบบต่อเนื่อง และจะแปลงเป็นโทเค็นแบบไม่ต่อเนื่องเพียงในขั้นสุดท้ายเท่านั้น
ในการทดสอบเกณฑ์การสร้างแบบไม่เงื่อนไข (unconditional generation) บน OpenWebText โมเดล ELF-B ขนาด 105M พารามิเตอร์ ทำได้ประมาณ 24.1 ของ perplexity การสร้าง (Gen. PPL) ด้วยการสุ่ม 32 ขั้น แซงหน้าพื้นฐานของโมเดลภาษาการแพร่กระจายแบบไม่ต่อเนื่องและแบบต่อเนื่องหลายตัวอย่างอย่างมีนัยสำคัญ โดยเฉพาะ ELF-B ใช้โทเค็นสำหรับการฝึกเพียงประมาณ 45 พันล้านโทเค็น ซึ่งน้อยกว่าวิธีที่เทียบเคียงกันได้ราวหนึ่งลำดับขนาด (order of magnitude) ทั้งที่โดยทั่วไปมักเกิน 500 พันล้านโทเค็น