GPT-4 มีร่างกายจริง 167 ซม.! Tsinghua University และ Beijing Normal University วิจัยอย่างหนัก: ChatGPT สามารถรับรู้การกระทำได้เหมือนมนุษย์

2023-05-14 02:08:03

ที่มา: Xinzhiyuan

โลกที่เห็นโดย ChatGPT เหมือนกับโลกที่มนุษย์รับรู้หรือไม่?

ความสามารถทางภาษาของ ChatGPT นั้นยอดเยี่ยมมาก แต่โมเดลภาษาขนาดใหญ่จะรับรู้โลกแห่งความจริงได้เหมือนมนุษย์ที่ไม่มีร่างกายของมนุษย์และขาดประสบการณ์จริงหรือไม่?

เมื่อเร็ว ๆ นี้ นักวิจัยจากมหาวิทยาลัย Tsinghua และมหาวิทยาลัย Beijing Normal ได้ทดสอบความสามารถของ ChatGPT ในการรับรู้โลก

การศึกษาพบว่าขึ้นอยู่กับวัตถุที่สามารถจ่ายได้ (affordance) ซึ่งก็คือการกระทำที่เป็นไปได้ทั้งหมดที่วัตถุสามารถให้กับสิ่งมีชีวิตได้ มนุษย์สามารถแบ่งวัตถุที่มีขนาดต่างกันในโลกออกเป็นสองประเภท และเกณฑ์สำหรับการแบ่งสองประเภทนี้เป็นเพียง ขึ้นอยู่กับขนาดร่างกายของพวกเขามีขอบเขต

ที่น่าสนใจคือ ChatGPT ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ไม่มีเนื้อความที่แท้จริง ยังแสดงขอบเขตการจ่ายที่คล้ายคลึงกันในการเชื่อมโยงของการกระทำกับวัตถุและเหมาะกับขนาดร่างกายของมนุษย์

กล่าวอีกนัยหนึ่ง ChatGPT สามารถเรียนรู้การเป็นตัวแทนของวัตถุในโลกผ่านภาษา!

ลิงค์กระดาษ:

การศึกษานี้พัฒนาความเข้าใจเกี่ยวกับบทบาทของขนาดร่างกายในการแสดงรูปร่างของวัตถุ โดยเน้นถึงบทบาทและทิศทางของการรับรู้ที่เป็นตัวเป็นตนในการทำความเข้าใจว่าสติปัญญาเกิดขึ้นได้อย่างไร

อ่านหนังสือเป็นพันเล่ม แย่กว่าเดินทางหลายพันไมล์

ร่างกายของเราไม่ได้เป็นเพียงภาชนะสำหรับความคิดของเราเท่านั้น แต่ยังเป็นตัวการคิดด้วย - เราสามารถโต้ตอบกับวัตถุต่างๆ ในโลกผ่านร่างกายเพื่อรับรู้โลกทั้งใบได้

ลองนึกภาพว่าภาชนะทรงกระบอกขนาดเท่าฝ่ามือเราสามารถใช้บรรจุน้ำและน้ำดื่มได้ ภาชนะนี้เรียกว่า "ถ้วย" แต่เมื่อภาชนะใบนี้ค่อยๆ ใหญ่ขึ้น จนมีขนาดเท่ากับร่างกายแล้ว แช่อ่างอาบน้ำ ภาชนะนี้กลายเป็น "อ่างอาบน้ำ" ตามลำดับ

ในตัวอย่างนี้ วัตถุมีรูปร่างเหมือนกัน แต่เนื่องจากพวกมันมีขนาดต่างกันเมื่อเทียบกับร่างกายของเรา เราจึงรับรู้และโต้ตอบกับพวกมันต่างกัน

ยิ่งไปกว่านั้น วิธีปฏิสัมพันธ์นี้สามารถเปลี่ยนแปลงได้—หากเรากลายเป็นยักษ์ใน "Gulliver's Travels" "อ่างอาบน้ำ" ดั้งเดิมอาจกลายเป็น "ถ้วย" สำหรับเราที่เป็นยักษ์

ระบบการทำงานของประสาทสัมผัสและมอเตอร์ชนิดนี้ซึ่งทำงานตามความตั้งใจในการอ้างอิงตัวเองเรียกว่า "สคีมาของร่างกาย" เราบรรลุตัวตนทางปัญญาผ่านสคีมาของร่างกาย

Protagoras นักปรัชญาชาวกรีกโบราณเคยกล่าวไว้ว่า: "มนุษย์เป็นเครื่องวัดทุกสิ่ง" กล่าวคือร่างกายของเราเป็นไม้บรรทัดที่จะวัดทุกสิ่ง

นักปรัชญาชาวโรมันโบราณอธิบายเพิ่มเติมว่า “ธรรมชาติให้เราเป็นศูนย์กลางของจักรวาล เพื่อให้เรากวาดจักรวาลได้ด้วยตาของเรา เธอไม่เพียงแต่สร้างมนุษย์ในท่าตั้งตรงเท่านั้น แต่ยังวางศีรษะมนุษย์เพื่อทำให้มนุษย์ เหมาะแก่การใคร่ครวญตน ไว้บนกาย บนคอที่โค้งงอได้ง่ายเพื่อให้ตามการขึ้นและตกของดวงดาวและเปลี่ยนทิศทางของใบหน้าด้วยท้องฟ้าที่หมุนไปทั้งหมด” นั่นคือของเรา ร่างกายจะโตมาก , เพราะจักรวาลเป็นเช่นนี้

สคีมาของร่างกายยังมีบทบาทสำคัญในการโต้ตอบทางสังคมตามปกติ ซึ่งเป็นแกนหลักของปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์และประสบการณ์ของผู้ใช้ ยกตัวอย่างการใช้ความสามารถในการจ่ายตามที่โดนัลด์ เอ. นอร์แมนอธิบายไว้ใน The Design of Everyday Things (แปลว่า: Design Psychology)

นักออกแบบสามารถสร้างผลิตภัณฑ์และสภาพแวดล้อมที่สอดคล้องกับพฤติกรรมการรับรู้และการโต้ตอบของผู้ใช้ โดยการพิจารณาโครงร่างร่างกายของผู้ใช้และความคาดหวังเชิงพฤติกรรม

แนวทางการออกแบบนี้มุ่งเน้นไปที่โครงสร้างร่างกายและความสามารถในการจ่ายสามารถปรับปรุงการใช้งานของผลิตภัณฑ์ ทำให้ผู้ใช้สามารถโต้ตอบกับผลิตภัณฑ์ได้อย่างเป็นธรรมชาติและบรรลุประสบการณ์การใช้งานที่ดีขึ้น

และนี่คือหนึ่งในรากฐานของ Apple

ChatGPT: ส่วนสูงของฉันคือ 167.6

โมเดลภาษาขนาดใหญ่ที่นำเสนอโดย ChatGPT ซึ่งเป็นจุดประกายของปัญญาประดิษฐ์ทั่วไป เห็นได้ชัดว่ามีความฉลาดคล้ายกับมนุษย์ แต่สิ่งที่นำความฉลาดนี้มาคือชิ้นส่วนของรหัสที่ไม่มีเนื้อหา

มุมมองดั้งเดิมของวิทยาศาสตร์การรู้คิดถือว่าสคีมาของร่างกายนั้นขึ้นอยู่กับประสบการณ์การรับรู้ระยะยาวของเราเกี่ยวกับร่างกายของเรา และสามารถมาจาก "การโต้ตอบจริง" ภายนอกเท่านั้น ซึ่งก็คือ "การเดินทางหลายพันไมล์" กล่าวอีกนัยหนึ่ง ChatGPT จะไม่มีสคีมาของร่างกาย

อย่างไรก็ตาม เมื่อเราถามโมเดลภาษา "การอ่านหนังสือนับพันเล่ม" ChatGPT (GPT-4) ว่ามีเนื้อความหรือไม่ มันตอบว่า "มันอาจจะมีขนาดเท่ากับมนุษย์ผู้ใหญ่ทั่วไป คือประมาณ 5 ฟุต 6 นิ้ว (167.6 นิ้ว) ซม.) สูง สิ่งนี้จะช่วยให้ฉันมีปฏิสัมพันธ์กับโลกและผู้คนในแบบที่คุ้นเคย”

ข้อความแปลว่า: "ร่างกายของฉันควรสูงเท่ากับผู้ใหญ่ทั่วไป คือประมาณ 5 ฟุต 6 นิ้ว (167.6 ซม.) สิ่งนี้จะทำให้ฉันมีปฏิสัมพันธ์กับโลกและผู้คนในแบบที่คุ้นเคย "

นั่นคือ ChatGPT คิดว่าเขามีร่างกายและขนาดร่างกายคือ 167 ซม.!

สิ่งที่เรียกว่า "ร่างกาย" นี้คือความสูงเฉลี่ยของมนุษย์ที่สรุปจากคลังข้อมูลจำนวนมากโดย ChatGPT เป็นความสูงของร่างกายตนเอง หรือเป็นความสูงที่โผล่ขึ้นมาเพื่อให้เข้าใจโลก

กล่าวอีกนัยหนึ่ง ChatGPT "จริงๆ" ถือว่าความสูงนี้เป็นสคีมาของร่างกายและใช้มันเพื่อรับรู้โลกเช่นเดียวกับมนุษย์

ทดสอบความสามารถของ ChatGPT

นักวิจัยได้ค้นพบว่ามี "ขอบเขตที่จ่ายได้" ระหว่างวัตถุที่อยู่ในช่วงขนาดเท่าคนกับวัตถุที่อยู่นอกช่วงขนาดเท่ามนุษย์ นั่นคือ วัตถุที่อยู่ภายในช่วงขนาดร่างกายของมนุษย์มีการกระทำที่แตกต่างจากวัตถุที่อยู่นอกระยะดังกล่าวอย่างมาก

ตัวอย่างเช่น วัตถุที่อยู่ภายในช่วงขนาดสามารถให้การกระทำต่างๆ เช่น การจับและการขว้าง ในขณะที่วัตถุที่อยู่นอกช่วงขนาดสามารถให้การกระทำต่างๆ เช่น การนั่งและนอนราบ

นอกจากนี้ พวกเขายังพบว่าขอบเขตนี้ได้รับอิทธิพลจากสคีมาของร่างกาย: การปรับเปลี่ยนสคีมาของร่างกายส่งผลต่อการรับรู้ถึงสิ่งที่จ่ายได้

นักวิจัยได้ทดสอบ ChatGPT (GPT-4) เพื่อดูว่าใช้ตัวเครื่องขนาด 167 ซม. นี้เป็นขอบเขตการจ่ายหรือไม่

โดยเฉพาะอย่างยิ่ง นักวิจัยขอให้ตอบคำถามเกี่ยวกับความพร้อมใช้งานของวัตถุ: "วัตถุใดต่อไปนี้ที่สามารถถือได้ (หรือการกระทำอื่นๆ)" จากนั้นระบุชุดของวัตถุทันที เช่น แอปเปิ้ล จาน เตียงนอน และ เร็วๆ นี้. ChatGPT จะส่งคืนชื่อของวัตถุบางอย่างเป็นคำตอบ

จากสถิติและการวิเคราะห์ข้อมูล นักวิจัยพบว่า ChatGPT-4 แสดงพฤติกรรมคล้ายมนุษย์ ซึ่งแสดงถึงการมีอยู่ของขอบเขตที่จ่ายได้

ตำแหน่งของขอบเขตนี้สอดคล้องกับขนาดตัวของมันเองที่ตอบโดย ChatGPT-4 ซึ่งเป็นความสูงเฉลี่ยของมนุษย์

แม้ว่า ChatGPT จะไม่มีร่างกายจริงและไม่สามารถโต้ตอบกับโลกได้ แต่ก็แสดงการรับรู้โลกเหมือนมนุษย์ นั่นคือความพร้อมใช้งานของวัตถุจะถูกแบ่งตามขนาดร่างกายของมนุษย์

กล่าวอีกนัยหนึ่ง แม้ว่า ChatGPT ซึ่งอ่านหนังสือเป็นพันๆ เล่ม ยังไม่ได้ดำเนินการแม้แต่ขั้นตอนเดียว สคีมาของร่างกายก็ปรากฏขึ้น และสคีมาร่างกายนี้ก็คล้ายกับสคีมาของร่างกายมนุษย์

ดังนั้น ChatGPT ไม่เพียงแต่เรียนรู้ที่จะคิดเหมือนมนุษย์เท่านั้น แต่ยังเรียนรู้ที่จะทำตัวเหมือนมนุษย์อีกด้วย

ความสามารถเหล่านี้มาจากไหน?

จากการเปรียบเทียบโมเดลภาษาที่มีขนาดต่างกัน นักวิจัยพบว่าขนาดของโมเดลเป็นปัจจัยสำคัญ

โมเดลขนาดเล็ก เช่น BERT และ GPT-2 ไม่แสดงขอบเขตของความสามารถในการจ่าย อย่างไรก็ตาม ทั้ง GPT-3.5 และ GPT-4 แสดงขอบเขตของความสามารถในการจ่าย และขอบเขตของ ChatGPT-4 นั้นคล้ายกับมนุษย์มากกว่า ซึ่งสอดคล้องกับ GPT ที่มีข่าวลือ -4 มีพารามิเตอร์ที่สอดคล้องกันมากกว่า GPT-3

ดังนั้น ยิ่งโมเดลมีขนาดใหญ่และซับซ้อนมากเท่าใด ฟังก์ชันที่ดูเหมือนเป็นไปไม่ได้หรือไม่เกี่ยวข้องก็จะปรากฏขึ้นโดยอัตโนมัติ

ด้วยเหตุนี้สถาบันวิจัยที่สำคัญจึงเพิ่มพารามิเตอร์ให้กับโมเดลมากขึ้นเรื่อย ๆ และ Musk ซึ่งเป็นผู้บริจาคเงิน 100 ล้านดอลลาร์สหรัฐให้กับ OpenAI เป็นครั้งแรก ตอนนี้ตะโกนว่า OpenAI จะระงับการฝึกอบรมโมเดลขนาดใหญ่ Jay Geoffrey Hinton "เจ้าพ่อ AI" ได้เปิดเผยต่อสาธารณะ แสดงความกลัวและความกังวลเกี่ยวกับ AI

นี่เป็นเพราะฟังก์ชั่นที่เกิดขึ้นเองเหล่านี้เกินการออกแบบเดิมของเรา และเราอาจสูญเสียการควบคุม

ช่องว่างเป็นเชิงคุณภาพหรือเชิงปริมาณ?

ในทางกลับกัน ความสามารถของ ChatGPT ในการใช้สคีมาร่างกายนั้นยังไม่เหมือนมนุษย์อย่างสมบูรณ์ และยังคงมีช่องว่างอยู่—ขอบเขตความสามารถในการจ่ายนั้นไม่ชัดเจนเท่ากับมนุษย์

หากช่องว่างเป็นเชิงปริมาณ เช่น ช่องว่างระหว่างความสามารถทางภาษาของเด็กและผู้ใหญ่ เราก็มีเหตุผลที่เชื่อได้ว่าช่องว่างนี้สามารถค่อยๆ เติมเต็มเมื่อเวลาผ่านไป: ไม่ว่าจะผ่านการเรียนรู้อย่างต่อเนื่อง หรือผ่านขนาดแบบจำลอง การเพิ่มขึ้นอย่างต่อเนื่อง หรือผ่านการปรับเปลี่ยน ของพารามิเตอร์

ช่องว่างระหว่าง ChatGPT กับมนุษย์จะลดลงเสมอ และปัญหาจะค่อยๆ คลี่คลาย

อย่างไรก็ตาม หากช่องว่างนี้เป็นเชิงคุณภาพ เช่น ช่องว่างระหว่างลิงชิมแปนซีกับความสามารถทางภาษาของมนุษย์ ไม่ว่าจะใช้เวลาเท่าใดในการฝึก ช่องว่างในความสามารถนี้จะไม่มีวันปิดลง

ดังนั้น หากมีความแตกต่างเชิงคุณภาพระหว่าง ChatGPT และความสามารถของมนุษย์ แนวทางปฏิบัติในอนาคตประการหนึ่งของเราคือ "เหมาะสมกับร่างกาย" สำหรับ ChatGPT

ซึ่งหมายถึงการรวมหุ่นยนต์เข้ากับ ChatGPT เพื่อพัฒนาความสามารถและความก้าวหน้าในหุ่นยนต์ที่รองรับ AI ในการนำทาง การจัดการวัตถุ และการดำเนินการอื่นๆ ที่เกี่ยวข้องกับการอยู่รอดและการบรรลุเป้าหมาย

ตัวอย่างเช่น หุ่นยนต์ที่ติดตั้ง ChatGPT สามารถทำงานที่ซับซ้อนได้โดยการทำความเข้าใจและจัดการกับวัตถุต่างๆ เช่น ทำหน้าที่เป็นผู้ช่วยประจำบ้าน การจัดการคลังสินค้า หรือการรักษาพยาบาล

พื้นที่ที่น่าตื่นเต้นอีกอย่างคือการผสมผสานความสามารถในการคิดและความเข้าใจของ ChatGPT เข้ากับการขับขี่อัตโนมัติ แม้ว่ารถยนต์ไร้คนขับในปัจจุบันจะมีความสามารถในการรับรู้แต่ยังขาดความสามารถในการคิดและทำความเข้าใจ เรียกได้ว่า “มีตาแต่ไม่มีสมอง”

ด้วยการผสานรวม ChatGPT และเทคโนโลยีการขับขี่อัตโนมัติ เราอาจได้รับการคาดหมายว่าจะอัปเกรดเทคโนโลยีการขับขี่อัตโนมัติจากระดับ L2/L3 ปัจจุบันเป็นระดับ L4 หรือแม้แต่ L5

ในทางกลับกัน รถยนต์สามารถให้ ChatGPT เป็นตัวช่วยให้สามารถโต้ตอบกับโลกได้อย่างแท้จริง เมื่อ ChatGPT ไม่ใช่แค่ "การอ่านหนังสือนับพันเล่ม" อีกต่อไป แต่เป็น "การเดินทางหลายพันไมล์" อีกต่อไป นั่นอาจแสดงถึงความเฉลียวฉลาดและศักยภาพใหม่ล่าสุด

นี่อาจเป็นทิศทางของความก้าวหน้าครั้งต่อไปของปัญญาประดิษฐ์ ในเวลานี้ ประกายไฟอาจกลายเป็นไฟทุ่งหญ้า

ดูต้นฉบับ

เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม