ครบรอบหกปีของ Transformer: แม้แต่ NeurIPS Oral ก็ยังไม่ได้รับ และผู้เขียน 8 คนก็ได้ก่อตั้ง AI ยูนิคอร์นขึ้นมาหลายตัว

บางคนเข้าร่วม OpenAI บางคนก่อตั้งบริษัทสตาร์ทอัพ และบางคนติดอยู่กับ Google AI พวกเขาร่วมกันเริ่มต้นยุคแห่งการพัฒนา AI ในปัจจุบัน

ตั้งแต่ ChatGPT ไปจนถึงเทคโนโลยีการวาดภาพด้วย AI คลื่นลูกใหม่ของความก้าวหน้าล่าสุดในด้านปัญญาประดิษฐ์อาจต้องขอบคุณ Transformer

วันนี้เป็นวันครบรอบหกปีของการส่ง Transformer Paper อันโด่งดัง

ลิงค์กระดาษ:

เมื่อ 6 ปีที่แล้ว กระดาษที่มีชื่อเกินจริงถูกอัปโหลดไปยังแพลตฟอร์มกระดาษที่พิมพ์ไว้ล่วงหน้า arXiv นักพัฒนาซอฟต์แวร์ในสาขา AI ใช้คำว่า "xx is All You Need" ซ้ำแล้วซ้ำเล่าและกลายเป็นกระแสในชื่อของ กระดาษ และ Transformer ไม่ใช่ความหมายของ Transformers อีกต่อไป แต่ปัจจุบันเป็นตัวแทนของเทคโนโลยีขั้นสูงสุดในด้าน AI

หกปีต่อมา เมื่อมองย้อนกลับไปที่เอกสารนี้ในปีนั้น เราสามารถพบสถานที่ที่น่าสนใจหรือไม่ค่อยมีคนรู้จักตามที่สรุปโดย Jim Fan นักวิทยาศาสตร์ด้าน AI ของ Nvidia

## ** "Attention Mechanism" ไม่ได้เสนอโดยผู้เขียน Transformer**

โมเดล Transformer ละทิ้งหน่วย CNN และ RNN แบบดั้งเดิม และโครงสร้างเครือข่ายทั้งหมดประกอบด้วยกลไกความสนใจทั้งหมด

แม้ว่าชื่อของกระดาษ Transformer คือ "Attention is All You Need" เรายังคงส่งเสริมกลไกการให้ความสนใจต่อไปเพราะสิ่งนี้ แต่โปรดทราบข้อเท็จจริงที่น่าสนใจ: ไม่ใช่นักวิจัยของ Transformer ที่คิดค้นการให้ความสนใจ แต่พวกเขาใส่สิ่งนี้ กลไกถูกผลักดันจนสุดขีด

กลไกการเรียกร้องความสนใจได้รับการเสนอโดยทีมที่นำโดยผู้บุกเบิกการเรียนรู้เชิงลึก Yoshua Bengio ในปี 2014:

* "Neural Machine Translation by Jointly Learning to Align and Translate" ชื่อเรื่องค่อนข้างเรียบง่าย *

ในรายงาน ICLR 2015 นี้ Bengio และคณะเสนอการรวมกันของ RNN + "เวกเตอร์บริบท" (เช่น ความสนใจ) แม้ว่าจะเป็นหนึ่งในเหตุการณ์สำคัญที่ยิ่งใหญ่ที่สุดใน NLP แต่ก็เป็นที่รู้จักน้อยกว่า Transformer มาก โดยเอกสารของทีม Bengio ได้รับการอ้างถึง 29,000 ครั้งจนถึงปัจจุบัน และ Transformer 77,000 ครั้ง

กลไกการเรียกร้องความสนใจของ AI นั้นจำลองมาจากความสนใจทางสายตาของมนุษย์ สมองมนุษย์มีความสามารถโดยกำเนิด: เมื่อเราดูรูปภาพ เราจะสแกนรูปภาพอย่างรวดเร็วก่อน จากนั้นจึงล็อคพื้นที่เป้าหมายที่ต้องการโฟกัส

หากคุณไม่ปล่อยข้อมูลท้องถิ่นใด ๆ คุณจะทำงานไร้ประโยชน์มากมายอย่างหลีกเลี่ยงไม่ได้ ซึ่งไม่เอื้อต่อการอยู่รอด ในทำนองเดียวกัน การแนะนำกลไกที่คล้ายกันในเครือข่ายการเรียนรู้เชิงลึกสามารถทำให้แบบจำลองง่ายขึ้นและเพิ่มความเร็วในการคำนวณ โดยพื้นฐานแล้ว Attention คือการกรองข้อมูลสำคัญจำนวนเล็กน้อยออกจากข้อมูลจำนวนมาก และมุ่งเน้นที่ข้อมูลสำคัญเหล่านี้ โดยไม่สนใจข้อมูลที่ไม่สำคัญส่วนใหญ่

ในช่วงไม่กี่ปีที่ผ่านมา กลไกการให้ความสนใจถูกนำมาใช้กันอย่างแพร่หลายในสาขาต่างๆ ของการเรียนรู้เชิงลึก เช่น ในการมองเห็นของคอมพิวเตอร์เพื่อจับภาพฟิลด์ที่เปิดกว้างบนรูปภาพ หรือใน NLP สำหรับการค้นหาโทเค็นคีย์หรือคุณลักษณะต่างๆ การทดลองจำนวนมากได้พิสูจน์ว่าแบบจำลองที่มีกลไกการให้ความสนใจได้รับการปรับปรุงประสิทธิภาพที่สำคัญในงานต่างๆ เช่น การจำแนกภาพ การแบ่งส่วน การติดตาม การปรับปรุง และการจดจำภาษาธรรมชาติ การทำความเข้าใจ การตอบคำถาม และการแปล

แบบจำลอง Transformer ที่แนะนำกลไกความสนใจสามารถถือเป็นคอมพิวเตอร์ลำดับเอนกประสงค์ กลไกความสนใจ ช่วยให้แบบจำลองสามารถกำหนดน้ำหนักความสนใจที่แตกต่างกันตามความสัมพันธ์ของตำแหน่งต่างๆ ในลำดับ เมื่อประมวลผลลำดับอินพุต ทำให้ Transformer สามารถ จับการพึ่งพาทางไกลและข้อมูลบริบท ซึ่งจะช่วยปรับปรุงผลกระทบของการประมวลผลแบบลำดับ

แต่ในปีนั้นทั้ง Transformer และเอกสารแสดงความสนใจต้นฉบับไม่ได้พูดถึงคอมพิวเตอร์ซีเควนเชียลที่ใช้งานทั่วไป ผู้เขียนเห็นว่ามันเป็นกลไกในการแก้ปัญหาที่แคบและเฉพาะเจาะจง - การแปลด้วยคอมพิวเตอร์ ดังนั้น เมื่อเราติดตามที่มาของ AGI ในอนาคต เราอาจสามารถติดตามกลับไปยัง Google Translate ที่ "ไม่เด่น" ได้

แม้ว่าจะได้รับการยอมรับจาก NeurIPS 2017 แต่ก็ไม่ได้ Oral ด้วยซ้ำ

แม้ว่ากระดาษของ Transformer จะมีอิทธิพลมากในตอนนี้ แต่ก็ยังไม่ได้รับรางวัล Oral ในงานประชุม AI ชั้นนำของโลก NeurIPS 2017 นับประสาอะไร การประชุมได้รับการส่งบทความทั้งหมด 3,240 รายการในปีนั้น โดย 678 รายการได้รับเลือกเป็นเอกสารการประชุม เอกสาร Transformer เป็นหนึ่งในเอกสารที่ได้รับการยอมรับ ในบรรดาเอกสารเหล่านี้ 40 ฉบับเป็นเอกสารปากเปล่า 112 ฉบับเป็นเอกสารสปอตไลท์ และ 3 ฉบับเป็นเอกสารที่ดีที่สุด Papers, a Test of time Award, Transformer พลาดรางวัล

แม้ว่าจะพลาดรางวัล NeurIPS 2017 แต่อิทธิพลของ Transformer ก็ชัดเจนสำหรับทุกคน

Jim Fan ให้ความเห็นว่า: ไม่ใช่ความผิดของผู้พิพากษาที่เป็นเรื่องยากที่ผู้คนจะตระหนักถึงความสำคัญของการศึกษาที่มีอิทธิพลก่อนที่จะกลายเป็นสิ่งที่มีอิทธิพล อย่างไรก็ตาม ยังมีเอกสารที่โชคดีพอที่จะถูกค้นพบตั้งแต่แรก ตัวอย่างเช่น ResNet ที่เสนอโดย He Kaiming และคนอื่นๆ ได้รับรางวัลเอกสารที่ดีที่สุดของ CVPR 2016 ในปีนั้น งานวิจัยนี้สมควรได้รับและได้รับการยอมรับอย่างถูกต้องจาก การประชุมสุดยอด AI แต่ในขณะนี้ในปี 2017 นักวิจัยที่ฉลาดมากอาจไม่สามารถทำนายการเปลี่ยนแปลงที่เกิดจาก LLM ได้ในขณะนี้ เช่นเดียวกับในปี 1980 มีคนเพียงไม่กี่คนที่สามารถคาดการณ์สึนามิที่เกิดจากการเรียนรู้เชิงลึกตั้งแต่ปี 2012

## นักเขียนแปดคน ชีวิตช่างแสนวิเศษ

ในเวลานั้นมีผู้เขียนบทความนี้ 8 คน พวกเขามาจาก Google และมหาวิทยาลัยโตรอนโต 5 ปีต่อมา ผู้เขียนบทความนี้ส่วนใหญ่ออกจากสถาบันดั้งเดิมไปแล้ว

เมื่อวันที่ 26 เมษายน 2022 บริษัทชื่อ "Adept" ได้ก่อตั้งขึ้นอย่างเป็นทางการ โดยมีผู้ร่วมก่อตั้ง 9 คน รวมถึง Ashish Vaswani และ Niki Parmar ผู้เขียนบทความ Transformer สองคน

Ashish Vaswani ได้รับปริญญาดุษฎีบัณฑิตจาก University of Southern California ภายใต้การดูแลของนักวิชาการชาวจีน David Chiang และ Liang Huang และส่วนใหญ่ค้นคว้าเกี่ยวกับการประยุกต์ใช้การเรียนรู้เชิงลึกที่ทันสมัยในรูปแบบภาษา ในปี 2559 เขาเข้าร่วมกับ Google Brain และเป็นผู้นำการวิจัย Transformer โดยออกจาก Google ในปี 2564

Niki Parmar สำเร็จการศึกษาระดับปริญญาโทจาก University of Southern California และเข้าร่วม Google ในปี 2559 ในระหว่างการทำงาน เธอได้พัฒนาโมเดลการตอบคำถามและรูปแบบความคล้ายคลึงกันของข้อความสำหรับการค้นหาและการโฆษณาของ Google ที่ประสบความสำเร็จ เธอเป็นหัวหน้างานระยะแรกในการขยายโมเดล Transformer ไปสู่การสร้างภาพ คอมพิวเตอร์วิทัศน์ และอื่นๆ ในปี 2021 เธอจะออกจาก Google เช่นกัน

หลังจากลาออก ทั้งสองได้ร่วมกันก่อตั้ง Adept และดำรงตำแหน่งหัวหน้านักวิทยาศาสตร์ (Ashish Vaswani) และ Chief Technology Officer (Niki Parmar) ตามลำดับ วิสัยทัศน์ของ Adept คือการสร้าง AI ที่เรียกว่า "เพื่อนร่วมทีมปัญญาประดิษฐ์" ที่ได้รับการฝึกฝนให้ใช้เครื่องมือซอฟต์แวร์และ API ที่หลากหลาย

ในเดือนมีนาคม พ.ศ. 2566 Adept ได้ประกาศเสร็จสิ้นการระดมทุน Series B มูลค่า 350 ล้านดอลลาร์สหรัฐ มูลค่าของบริษัทสูงเกิน 1 พันล้านดอลลาร์สหรัฐและได้รับการเลื่อนขั้นเป็นยูนิคอร์น อย่างไรก็ตาม เมื่อถึงเวลาที่ Adept ระดมทุนจากสาธารณะ Niki Parmar และ Ashish Vaswani ได้ออกจาก Adept เพื่อเริ่มต้นสตาร์ทอัพด้าน AI ใหม่ของตนเอง อย่างไรก็ตาม ขณะนี้บริษัทใหม่อยู่ระหว่างการสรุปและเราไม่สามารถเข้าถึงรายละเอียดของบริษัทได้

Noam Shazeer ผู้เขียนบทความอีกรายเป็นหนึ่งในพนักงานรุ่นแรกๆ ที่สำคัญที่สุดของ Google เขาเข้าร่วมงานกับ Google เมื่อปลายปี 2000 จนกระทั่งลาออกในปี 2021 และกลายเป็น CEO ของบริษัทสตาร์ทอัพชื่อ "Character.AI"

นอกจาก Noam Shazeer แล้ว ผู้ก่อตั้ง Character.AI คือ Daniel De Freitas ซึ่งทั้งสองคนมาจากทีม LaMDA ของ Google ก่อนหน้านี้ พวกเขาสร้าง LaMDA ซึ่งเป็นโมเดลภาษาที่รองรับโปรแกรมการสนทนาที่ Google

ในเดือนมีนาคมปีนี้ Character.AI ประกาศเสร็จสิ้นการจัดหาเงินทุน 150 ล้านดอลลาร์สหรัฐ มูลค่า 1 พันล้านดอลลาร์สหรัฐ เป็นหนึ่งในบริษัทสตาร์ทอัพไม่กี่แห่งที่มีศักยภาพในการแข่งขันกับ OpenAI ซึ่งเป็นหน่วยงาน ของ ChatGPT และยังเป็นเรื่องยากที่จะเติบโตในเวลาเพียง 16 เดือน สำหรับบริษัทระดับยูนิคอร์น แอพ Character.AI เป็นแชทบอทโมเดลภาษาประสาทที่สามารถสร้างข้อความตอบกลับที่เหมือนมนุษย์และมีส่วนร่วมในการสนทนาตามบริบท

Character.AI เปิดตัวบน Apple App Store และ Google Play Store เมื่อวันที่ 23 พฤษภาคม 2566 โดยมีการดาวน์โหลดมากกว่า 1.7 ล้านครั้งในสัปดาห์แรก ในเดือนพฤษภาคม 2023 บริการดังกล่าวได้เพิ่มการสมัครสมาชิกแบบชำระเงิน $9.99 ต่อเดือนที่เรียกว่า c.ai+ ซึ่งช่วยให้ผู้ใช้เข้าถึงแชทที่มีลำดับความสำคัญ เวลาในการตอบสนองที่เร็วขึ้น และการเข้าถึงคุณสมบัติใหม่ก่อนใคร รวมถึงสิทธิพิเศษอื่นๆ

Aidan N. Gomez ออกจาก Google ตั้งแต่ปี 2019 จากนั้นทำงานเป็นนักวิจัยที่ FOR.ai และปัจจุบันเป็นผู้ร่วมก่อตั้งและซีอีโอของ Cohere

Cohere เป็นสตาร์ทอัพด้าน AI เชิงกำเนิดที่ก่อตั้งขึ้นในปี 2019 ธุรกิจหลักของบริษัทประกอบด้วยการจัดหาโมเดล NLP และช่วยเหลือบริษัทต่างๆ ในการปรับปรุงปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ ผู้ก่อตั้งทั้งสามคนคือ Ivan Zhang, Nick Frost และ Aidan Gomez โดยที่ Gomez และ Frost เป็นอดีตสมาชิกของทีม Google Brain ในเดือนพฤศจิกายน 2021 Google Cloud ประกาศว่าพวกเขาจะร่วมมือกับ Cohere โดย Google Cloud จะใช้โครงสร้างพื้นฐานอันทรงพลังเพื่อขับเคลื่อนแพลตฟอร์ม Cohere และ Cohere จะใช้ TPU ของ Cloud เพื่อพัฒนาและปรับใช้ผลิตภัณฑ์ของตน

โดยเฉพาะอย่างยิ่ง Cohere เพิ่งระดมทุน Series C ได้ 270 ล้านดอลลาร์ ทำให้เป็นยูนิคอร์น 2.2 พันล้านดอลลาร์

Łukasz Kaiser ออกจาก Google ในปี 2021 ทำงานที่ Google เป็นเวลา 7 ปี 9 เดือน และตอนนี้เป็นนักวิจัยที่ OpenAI ในช่วงเวลาที่เขาเป็นนักวิทยาศาสตร์การวิจัยที่ Google เขาได้มีส่วนร่วมในการออกแบบโมเดลประสาท SOTA สำหรับการแปลด้วยคอมพิวเตอร์ การแยกวิเคราะห์ และงานเกี่ยวกับอัลกอริทึมและการสร้างสรรค์อื่นๆ และเป็นผู้เขียนร่วมของระบบ TensorFlow ไลบรารี Tensor2Tensor

Jakob Uszkoreit ออกจาก Google ในปี 2021 และทำงานที่ Google เป็นเวลา 13 ปีก่อนเข้าร่วม Inceptive ในฐานะผู้ร่วมก่อตั้ง Inceptive เป็นบริษัทยา AI ที่ทุ่มเทให้กับการใช้การเรียนรู้เชิงลึกในการออกแบบยา RNA

ขณะอยู่ที่ Google Jakob Uszkoreit ช่วยสร้างทีมเข้าใจภาษาสำหรับ Google Assistant และทำงานเกี่ยวกับ Google Translate ตั้งแต่เนิ่นๆ

Illia Polosukhin ออกจาก Google ในปี 2560 และปัจจุบันเป็นผู้ร่วมก่อตั้งและ CTO ของ NEAR.AI (บริษัทเทคโนโลยีพื้นฐานด้านบล็อกเชน)

คนเดียวที่ยังคงอยู่ที่ Google คือ Llion Jones ปีนี้เป็นปีที่ 9 ที่เขาทำงานที่ Google

ตอนนี้ 6 ปีผ่านไปแล้วนับตั้งแต่การตีพิมพ์เอกสาร "Attention Is All You Need" ผู้เขียนดั้งเดิมบางคนเลือกที่จะลาออกและบางคนเลือกที่จะอยู่ที่ Google ต่อไป ไม่ว่าในกรณีใด อิทธิพลของ Transformer ยังคงมีอยู่

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • แสดงความคิดเห็น
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด