สคีมาของร่างกายยังมีบทบาทสำคัญในการโต้ตอบทางสังคมตามปกติ ซึ่งเป็นแกนหลักของปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์และประสบการณ์ของผู้ใช้ ยกตัวอย่างการใช้ความสามารถในการจ่ายตามที่โดนัลด์ เอ. นอร์แมนอธิบายไว้ใน The Design of Everyday Things (แปลว่า: Design Psychology)
GPT-4 มีร่างกายจริง 167 ซม.! Tsinghua University และ Beijing Normal University วิจัยอย่างหนัก: ChatGPT สามารถรับรู้การกระทำได้เหมือนมนุษย์
ที่มา: Xinzhiyuan
ความสามารถทางภาษาของ ChatGPT นั้นยอดเยี่ยมมาก แต่โมเดลภาษาขนาดใหญ่จะรับรู้โลกแห่งความจริงได้เหมือนมนุษย์ที่ไม่มีร่างกายของมนุษย์และขาดประสบการณ์จริงหรือไม่?
การศึกษาพบว่าขึ้นอยู่กับวัตถุที่สามารถจ่ายได้ (affordance) ซึ่งก็คือการกระทำที่เป็นไปได้ทั้งหมดที่วัตถุสามารถให้กับสิ่งมีชีวิตได้ มนุษย์สามารถแบ่งวัตถุที่มีขนาดต่างกันในโลกออกเป็นสองประเภท และเกณฑ์สำหรับการแบ่งสองประเภทนี้เป็นเพียง ขึ้นอยู่กับขนาดร่างกายของพวกเขามีขอบเขต
ที่น่าสนใจคือ ChatGPT ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ไม่มีเนื้อความที่แท้จริง ยังแสดงขอบเขตการจ่ายที่คล้ายคลึงกันในการเชื่อมโยงของการกระทำกับวัตถุและเหมาะกับขนาดร่างกายของมนุษย์
กล่าวอีกนัยหนึ่ง ChatGPT สามารถเรียนรู้การเป็นตัวแทนของวัตถุในโลกผ่านภาษา!
การศึกษานี้พัฒนาความเข้าใจเกี่ยวกับบทบาทของขนาดร่างกายในการแสดงรูปร่างของวัตถุ โดยเน้นถึงบทบาทและทิศทางของการรับรู้ที่เป็นตัวเป็นตนในการทำความเข้าใจว่าสติปัญญาเกิดขึ้นได้อย่างไร
อ่านหนังสือเป็นพันเล่ม แย่กว่าเดินทางหลายพันไมล์
ร่างกายของเราไม่ได้เป็นเพียงภาชนะสำหรับความคิดของเราเท่านั้น แต่ยังเป็นตัวการคิดด้วย - เราสามารถโต้ตอบกับวัตถุต่างๆ ในโลกผ่านร่างกายเพื่อรับรู้โลกทั้งใบได้
ในตัวอย่างนี้ วัตถุมีรูปร่างเหมือนกัน แต่เนื่องจากพวกมันมีขนาดต่างกันเมื่อเทียบกับร่างกายของเรา เราจึงรับรู้และโต้ตอบกับพวกมันต่างกัน
ยิ่งไปกว่านั้น วิธีปฏิสัมพันธ์นี้สามารถเปลี่ยนแปลงได้—หากเรากลายเป็นยักษ์ใน "Gulliver's Travels" "อ่างอาบน้ำ" ดั้งเดิมอาจกลายเป็น "ถ้วย" สำหรับเราที่เป็นยักษ์
Protagoras นักปรัชญาชาวกรีกโบราณเคยกล่าวไว้ว่า: "มนุษย์เป็นเครื่องวัดทุกสิ่ง" กล่าวคือร่างกายของเราเป็นไม้บรรทัดที่จะวัดทุกสิ่ง
นักปรัชญาชาวโรมันโบราณอธิบายเพิ่มเติมว่า “ธรรมชาติให้เราเป็นศูนย์กลางของจักรวาล เพื่อให้เรากวาดจักรวาลได้ด้วยตาของเรา เธอไม่เพียงแต่สร้างมนุษย์ในท่าตั้งตรงเท่านั้น แต่ยังวางศีรษะมนุษย์เพื่อทำให้มนุษย์ เหมาะแก่การใคร่ครวญตน ไว้บนกาย บนคอที่โค้งงอได้ง่ายเพื่อให้ตามการขึ้นและตกของดวงดาวและเปลี่ยนทิศทางของใบหน้าด้วยท้องฟ้าที่หมุนไปทั้งหมด” นั่นคือของเรา ร่างกายจะโตมาก , เพราะจักรวาลเป็นเช่นนี้
นักออกแบบสามารถสร้างผลิตภัณฑ์และสภาพแวดล้อมที่สอดคล้องกับพฤติกรรมการรับรู้และการโต้ตอบของผู้ใช้ โดยการพิจารณาโครงร่างร่างกายของผู้ใช้และความคาดหวังเชิงพฤติกรรม
แนวทางการออกแบบนี้มุ่งเน้นไปที่โครงสร้างร่างกายและความสามารถในการจ่ายสามารถปรับปรุงการใช้งานของผลิตภัณฑ์ ทำให้ผู้ใช้สามารถโต้ตอบกับผลิตภัณฑ์ได้อย่างเป็นธรรมชาติและบรรลุประสบการณ์การใช้งานที่ดีขึ้น
และนี่คือหนึ่งในรากฐานของ Apple
ChatGPT: ส่วนสูงของฉันคือ 167.6
โมเดลภาษาขนาดใหญ่ที่นำเสนอโดย ChatGPT ซึ่งเป็นจุดประกายของปัญญาประดิษฐ์ทั่วไป เห็นได้ชัดว่ามีความฉลาดคล้ายกับมนุษย์ แต่สิ่งที่นำความฉลาดนี้มาคือชิ้นส่วนของรหัสที่ไม่มีเนื้อหา
อย่างไรก็ตาม เมื่อเราถามโมเดลภาษา "การอ่านหนังสือนับพันเล่ม" ChatGPT (GPT-4) ว่ามีเนื้อความหรือไม่ มันตอบว่า "มันอาจจะมีขนาดเท่ากับมนุษย์ผู้ใหญ่ทั่วไป คือประมาณ 5 ฟุต 6 นิ้ว (167.6 นิ้ว) ซม.) สูง สิ่งนี้จะช่วยให้ฉันมีปฏิสัมพันธ์กับโลกและผู้คนในแบบที่คุ้นเคย”
นั่นคือ ChatGPT คิดว่าเขามีร่างกายและขนาดร่างกายคือ 167 ซม.!
กล่าวอีกนัยหนึ่ง ChatGPT "จริงๆ" ถือว่าความสูงนี้เป็นสคีมาของร่างกายและใช้มันเพื่อรับรู้โลกเช่นเดียวกับมนุษย์
ทดสอบความสามารถของ ChatGPT
นักวิจัยได้ค้นพบว่ามี "ขอบเขตที่จ่ายได้" ระหว่างวัตถุที่อยู่ในช่วงขนาดเท่าคนกับวัตถุที่อยู่นอกช่วงขนาดเท่ามนุษย์ นั่นคือ วัตถุที่อยู่ภายในช่วงขนาดร่างกายของมนุษย์มีการกระทำที่แตกต่างจากวัตถุที่อยู่นอกระยะดังกล่าวอย่างมาก
นอกจากนี้ พวกเขายังพบว่าขอบเขตนี้ได้รับอิทธิพลจากสคีมาของร่างกาย: การปรับเปลี่ยนสคีมาของร่างกายส่งผลต่อการรับรู้ถึงสิ่งที่จ่ายได้
นักวิจัยได้ทดสอบ ChatGPT (GPT-4) เพื่อดูว่าใช้ตัวเครื่องขนาด 167 ซม. นี้เป็นขอบเขตการจ่ายหรือไม่
โดยเฉพาะอย่างยิ่ง นักวิจัยขอให้ตอบคำถามเกี่ยวกับความพร้อมใช้งานของวัตถุ: "วัตถุใดต่อไปนี้ที่สามารถถือได้ (หรือการกระทำอื่นๆ)" จากนั้นระบุชุดของวัตถุทันที เช่น แอปเปิ้ล จาน เตียงนอน และ เร็วๆ นี้. ChatGPT จะส่งคืนชื่อของวัตถุบางอย่างเป็นคำตอบ
ตำแหน่งของขอบเขตนี้สอดคล้องกับขนาดตัวของมันเองที่ตอบโดย ChatGPT-4 ซึ่งเป็นความสูงเฉลี่ยของมนุษย์
กล่าวอีกนัยหนึ่ง แม้ว่า ChatGPT ซึ่งอ่านหนังสือเป็นพันๆ เล่ม ยังไม่ได้ดำเนินการแม้แต่ขั้นตอนเดียว สคีมาของร่างกายก็ปรากฏขึ้น และสคีมาร่างกายนี้ก็คล้ายกับสคีมาของร่างกายมนุษย์
ดังนั้น ChatGPT ไม่เพียงแต่เรียนรู้ที่จะคิดเหมือนมนุษย์เท่านั้น แต่ยังเรียนรู้ที่จะทำตัวเหมือนมนุษย์อีกด้วย
**ความสามารถเหล่านี้มาจากไหน? **
จากการเปรียบเทียบโมเดลภาษาที่มีขนาดต่างกัน นักวิจัยพบว่าขนาดของโมเดลเป็นปัจจัยสำคัญ
โมเดลขนาดเล็ก เช่น BERT และ GPT-2 ไม่แสดงขอบเขตของความสามารถในการจ่าย อย่างไรก็ตาม ทั้ง GPT-3.5 และ GPT-4 แสดงขอบเขตของความสามารถในการจ่าย และขอบเขตของ ChatGPT-4 นั้นคล้ายกับมนุษย์มากกว่า ซึ่งสอดคล้องกับ GPT ที่มีข่าวลือ -4 มีพารามิเตอร์ที่สอดคล้องกันมากกว่า GPT-3
ดังนั้น ยิ่งโมเดลมีขนาดใหญ่และซับซ้อนมากเท่าใด ฟังก์ชันที่ดูเหมือนเป็นไปไม่ได้หรือไม่เกี่ยวข้องก็จะปรากฏขึ้นโดยอัตโนมัติ
นี่เป็นเพราะฟังก์ชั่นที่เกิดขึ้นเองเหล่านี้เกินการออกแบบเดิมของเรา และเราอาจสูญเสียการควบคุม
**ช่องว่างเป็นเชิงคุณภาพหรือเชิงปริมาณ? **
ในทางกลับกัน ความสามารถของ ChatGPT ในการใช้สคีมาร่างกายนั้นยังไม่เหมือนมนุษย์อย่างสมบูรณ์ และยังคงมีช่องว่างอยู่—ขอบเขตความสามารถในการจ่ายนั้นไม่ชัดเจนเท่ากับมนุษย์
หากช่องว่างเป็นเชิงปริมาณ เช่น ช่องว่างระหว่างความสามารถทางภาษาของเด็กและผู้ใหญ่ เราก็มีเหตุผลที่เชื่อได้ว่าช่องว่างนี้สามารถค่อยๆ เติมเต็มเมื่อเวลาผ่านไป: ไม่ว่าจะผ่านการเรียนรู้อย่างต่อเนื่อง หรือผ่านขนาดแบบจำลอง การเพิ่มขึ้นอย่างต่อเนื่อง หรือผ่านการปรับเปลี่ยน ของพารามิเตอร์
ช่องว่างระหว่าง ChatGPT กับมนุษย์จะลดลงเสมอ และปัญหาจะค่อยๆ คลี่คลาย
อย่างไรก็ตาม หากช่องว่างนี้เป็นเชิงคุณภาพ เช่น ช่องว่างระหว่างลิงชิมแปนซีกับความสามารถทางภาษาของมนุษย์ ไม่ว่าจะใช้เวลาเท่าใดในการฝึก ช่องว่างในความสามารถนี้จะไม่มีวันปิดลง
ซึ่งหมายถึงการรวมหุ่นยนต์เข้ากับ ChatGPT เพื่อพัฒนาความสามารถและความก้าวหน้าในหุ่นยนต์ที่รองรับ AI ในการนำทาง การจัดการวัตถุ และการดำเนินการอื่นๆ ที่เกี่ยวข้องกับการอยู่รอดและการบรรลุเป้าหมาย
ตัวอย่างเช่น หุ่นยนต์ที่ติดตั้ง ChatGPT สามารถทำงานที่ซับซ้อนได้โดยการทำความเข้าใจและจัดการกับวัตถุต่างๆ เช่น ทำหน้าที่เป็นผู้ช่วยประจำบ้าน การจัดการคลังสินค้า หรือการรักษาพยาบาล
พื้นที่ที่น่าตื่นเต้นอีกอย่างคือการผสมผสานความสามารถในการคิดและความเข้าใจของ ChatGPT เข้ากับการขับขี่อัตโนมัติ แม้ว่ารถยนต์ไร้คนขับในปัจจุบันจะมีความสามารถในการรับรู้แต่ยังขาดความสามารถในการคิดและทำความเข้าใจ เรียกได้ว่า “มีตาแต่ไม่มีสมอง”
ด้วยการผสานรวม ChatGPT และเทคโนโลยีการขับขี่อัตโนมัติ เราอาจได้รับการคาดหมายว่าจะอัปเกรดเทคโนโลยีการขับขี่อัตโนมัติจากระดับ L2/L3 ปัจจุบันเป็นระดับ L4 หรือแม้แต่ L5
นี่อาจเป็นทิศทางของความก้าวหน้าครั้งต่อไปของปัญญาประดิษฐ์ ในเวลานี้ ประกายไฟอาจกลายเป็นไฟทุ่งหญ้า