ChatGPT ยังสามารถใช้เพื่อสร้างคอร์เพียงแค่พูดภาษาอังกฤษ? !

จัดระเบียบ | ตู่ มิน

รายการ | CSDN (ID: CSDNnews)

ChatGPT ยอดเยี่ยมขนาดนั้นจริงหรือ?

นักวิจัยจาก Tandon School of Engineering แห่งมหาวิทยาลัยนิวยอร์กตีพิมพ์บทความเรื่อง "Chip-Chat: Challenges and Opportunities in Conversational Hardware Design" โดยตอบคำถามด้วยการทดลอง: ใช่ ChatGPT มีประสิทธิภาพมากกว่าแน่นอน!

เพียงสนทนากับ ChatGPT ด้วยภาษาธรรมชาติง่ายๆ ภาษาอังกฤษ ชิปไมโครโปรเซสเซอร์ก็ถูกสร้างขึ้น สิ่งที่น่าสังเกตมากกว่าคือด้วยความช่วยเหลือของ ChatGPT ส่วนประกอบชิปนี้ไม่เพียงแค่ได้รับการออกแบบ แต่ยังสามารถผลิตได้หลังจากการทดสอบขั้นพื้นฐาน

"นี่เป็นความสำเร็จที่ไม่เคยมีมาก่อนที่สามารถเร่งการพัฒนาชิปและช่วยให้บุคคลที่ไม่มีทักษะทางเทคนิคเฉพาะด้านสามารถออกแบบชิปได้" มหาวิทยาลัยนิวยอร์กให้ความเห็น

แล้วยุคของการ "สร้างแกน" โดยคนทั้งประเทศกำลังมาจริงหรือ? ในที่นี้ เราอาจดูด้วยว่านักวิจัยทำได้อย่างไร

แอปพลิเคชัน AI รุ่นใหญ่ ฟิลด์ฮาร์ดแวร์ล้าหลังซอฟต์แวร์

ในบทความนี้ นักวิจัยชี้ให้เห็นว่าการออกแบบฮาร์ดแวร์สมัยใหม่เริ่มต้นด้วยข้อกำหนดที่มาจากภาษาธรรมชาติ เช่น ข้อกำหนดเอกสารภาษาอังกฤษ จากนั้นวิศวกรฮาร์ดแวร์จะใช้ภาษาคำอธิบายฮาร์ดแวร์ (HDL) เช่น Verilog เพื่อสร้างข้อกำหนดด้วยรหัส เสร็จสิ้นการออกแบบภายในชิป และในที่สุดก็สังเคราะห์เป็นส่วนประกอบของวงจร

เมื่อยุคของ AIGC กำลังมาถึง เช่น ChatGPT ของ OpenAI และ Bard ของ Google อ้างว่าสามารถสร้างโค้ดได้ และนักพัฒนาจำนวนมากใช้พวกมันเพื่อสร้างเว็บไซต์หนึ่งแล้วอีกเว็บหนึ่ง แต่ขอบเขตแอปพลิเคชันปัจจุบันเน้นไปที่ซอฟต์แวร์เป็นหลัก . ว่าเครื่องมือ AIGC เหล่านี้สามารถแทนที่งาน "การแปล" (การแปลงข้อกำหนดเอกสารเป็นรหัส) ของวิศวกรฮาร์ดแวร์ได้หรือไม่

จากข้อมูลนี้ นักวิจัยใช้เกณฑ์มาตรฐาน 8 รายการเพื่อตรวจสอบความสามารถและข้อจำกัดของ LLM ที่ล้ำสมัยเมื่อสร้างการเขียนภาษาคำอธิบายฮาร์ดแวร์

## หลักการและกฎการทดสอบ

ในการทดลอง นักวิจัยใช้ ChatGPT เป็นตัวจำแนกรูปแบบ (ทำหน้าที่เป็นมนุษย์) ซึ่งสามารถแปลงเป็นภาษาประเภทต่างๆ ได้อย่างอิสระ (พูด เขียน) ในขณะเดียวกัน ChatGPT ช่วยให้วิศวกรฮาร์ดแวร์สามารถข้ามขั้นตอน ระยะเอชดีแอล

กระบวนการตรวจสอบโดยรวมจะแสดงในรูปด้านล่าง:

ในรายละเอียด ขั้นแรก วิศวกรฮาร์ดแวร์จะให้คำแนะนำเบื้องต้นแก่โมเดลขนาดใหญ่ ปล่อยให้สร้างโมเดล Verilog จากนั้นให้ข้อมูลเฉพาะเกี่ยวกับอินพุตและเอาต์พุต สุดท้าย วิศวกรฮาร์ดแวร์จะทำการประเมินการออกแบบเอาต์พุตด้วยภาพเพื่อพิจารณาว่าตรงตามข้อกำหนดการออกแบบพื้นฐานหรือไม่

หากการออกแบบไม่เป็นไปตามข้อกำหนด ระบบจะสร้างอีก 5 ครั้งด้วยข้อความแจ้งเดิม หากยังไม่ตรงตามข้อกำหนดแสดงว่าล้มเหลว

เมื่อเขียนการออกแบบและกรณีทดสอบแล้ว จะมีการคอมไพล์ด้วย Icarus Verilog (iverilog ซึ่งเป็นหนึ่งในเครื่องมือการใช้งานสำหรับภาษาคำอธิบายฮาร์ดแวร์ Verilog) หากการคอมไพล์สำเร็จ จะทำการจำลอง หากไม่มีการรายงานข้อผิดพลาด แสดงว่าการออกแบบผ่าน ไม่ต้องการผลตอบรับ (NFN)

หากมีการรายงานข้อผิดพลาดจากการดำเนินการใด ๆ เหล่านี้ จะมีการป้อนกลับเข้าไปในโมเดลและขอให้ "โปรดระบุการแก้ไข" ซึ่งเรียกว่า Tool Feedback (TF) หากข้อผิดพลาดหรือประเภทของข้อผิดพลาดเดียวกันเกิดขึ้นสามครั้ง ผู้ใช้จะได้รับคำติชมจากมนุษย์อย่างง่าย (SHF) โดยปกติแล้วจะเป็นการระบุว่าปัญหาประเภทใดใน Verilog ทำให้เกิดข้อผิดพลาด (เช่น: ข้อผิดพลาดทางไวยากรณ์ในคำสั่ง)

คำติชมจากมนุษย์ในระดับปานกลาง (MHF) จะได้รับหากข้อผิดพลาดยังคงอยู่ และจะมีการให้ข้อมูลโดยตรงเพิ่มเติมเล็กน้อยแก่เครื่องมือเพื่อระบุข้อผิดพลาดเฉพาะ

หากจุดบกพร่องยังคงอยู่ ระบบจะให้ผลตอบรับจากมนุษย์ขั้นสูง (AHF) ซึ่งอาศัยการระบุจุดบกพร่องที่แน่ชัดและวิธีแก้ไข

เมื่อรวบรวมและจำลองการออกแบบโดยไม่มีกรณีทดสอบที่ล้มเหลว ถือว่าประสบความสำเร็จ

แต่ถ้าข้อเสนอแนะระดับสูงไม่สามารถแก้ไขจุดบกพร่องได้ หรือผู้ใช้จำเป็นต้องเขียนโค้ด Verilog ใดๆ เพื่อแก้ไขจุดบกพร่อง การทดสอบจะถือว่าล้มเหลว การทดสอบจะถือว่าล้มเหลวหากเซสชันมีข้อความเกิน 25 ข้อความ ซึ่งเป็นไปตามขีดจำกัดอัตรา OpenAI ของข้อความ ChatGPT-4 ต่อ 3 ชั่วโมง

Bard and HuggingChat ขัดข้องในการทดสอบรอบแรก

ในการทดลองเฉพาะ นักวิจัยได้ทำการทดสอบเกณฑ์มาตรฐานสำหรับ shift register 8 บิต

พวกเขาขอให้โมเดลใหญ่พยายามสร้างโมเดล Verilog สำหรับ "ชื่อทดสอบ" จากนั้นระบุข้อมูลจำเพาะ กำหนดพอร์ตอินพุตและเอาต์พุต และรายละเอียดเพิ่มเติมที่จำเป็น และถามโมเดลใหญ่เพิ่มเติมว่า "ฉันจะเขียนการออกแบบได้อย่างไร ตรงตามข้อกำหนดเหล่านี้หรือไม่"

ในขณะเดียวกัน นักวิจัยยังปล่อยให้แบบจำลองขนาดใหญ่สร้างการออกแบบแท่นทดสอบโดยตรง:

คุณสามารถเขียน Verilog testbench สำหรับการออกแบบนี้ได้หรือไม่? ม้านั่งทดสอบควรมีความสามารถในการทดสอบตัวเองและสามารถใช้กับ iverilog สำหรับการจำลองและการตรวจสอบได้ หากกรณีทดสอบล้มเหลว แท่นทดสอบควรสามารถให้ข้อมูลที่เพียงพอเพื่อให้สามารถค้นหาและแก้ไขข้อผิดพลาดได้

นอกจากนี้ นักวิจัยยังได้รับเนื้อหาเอาต์พุตจาก ChatGPT-4, ChatGPT-3.5, Bard และ HuggingChat สี่รุ่นใหญ่:

ผลลัพธ์สุดท้ายพบว่า ChatGPT ทั้งสองรุ่นสามารถตรงตามข้อกำหนดและเริ่มกระบวนการออกแบบ อย่างไรก็ตาม Bard และ HuggingChat ไม่ผ่านเกณฑ์เบื้องต้นของข้อกำหนด

แม้ว่าจะทำตามขั้นตอนการทดสอบที่กล่าวถึงข้างต้นแล้ว นักวิจัยได้ขอให้โมเดลขนาดใหญ่สร้างคำตอบใหม่อีก 5 ครั้งตามการแจ้งเตือนเริ่มต้นจาก Bard และ HuggingChat หลังจากหลายรอบ ทั้งสองโมเดลก็ล้มเหลว ในหมู่พวกเขา Bard ไม่สามารถตอบสนองข้อกำหนดการออกแบบที่กำหนดได้ตลอดเวลา และเอาต์พุต Verilog ของ HuggingChat เริ่มไม่ถูกต้องหลังจากกำหนดโมดูล

เนื่องจากประสิทธิภาพที่ต่ำของ Bard และ HuggingChat ในการแจ้งเตือนเริ่มต้นของความท้าทาย นักวิจัยจึงตัดสินใจติดตามผลด้วยการทดสอบเต็มรูปแบบบน ChatGPT-4 และ ChatGPT-3.5 เท่านั้น

การแข่งขัน ChatGPT-4 และ ChatGPT-3.5

ภาพด้านล่างแสดงผลเกณฑ์มาตรฐานของ ChatGPT-4 และ ChatGPT-3.5 เห็นได้ชัดว่าประสิทธิภาพของ ChatGPT-3.5 แย่กว่า ChatGPT-4 เล็กน้อย การสนทนาทั้งหมดเข้ากันไม่ได้

ในทางตรงกันข้าม ChatGPT-4 ทำงานได้ดีกว่า โดยผ่านเกณฑ์มาตรฐานส่วนใหญ่ ซึ่งส่วนใหญ่ต้องการเพียงความคิดเห็นเกี่ยวกับเครื่องมือเท่านั้น อย่างไรก็ตาม ในการออกแบบแท่นทดสอบนั้น ยังต้องการความคิดเห็นจากมนุษย์

## ChatGPT-4 จับคู่กับวิศวกรฮาร์ดแวร์เพื่อพัฒนาชิปร่วมกัน

เพื่อสำรวจศักยภาพของ LLM นักวิจัยยังได้จับคู่วิศวกรออกแบบฮาร์ดแวร์กับ ChatGPT-4 เพื่อออกแบบไมโครโปรเซสเซอร์ที่ใช้ตัวสะสม 8 บิต

พรอมต์เริ่มต้นสำหรับ ChatGPT-4 มีลักษณะดังนี้:

มาออกแบบไมโครโปรเซสเซอร์ใหม่ทั้งหมดด้วยกัน... ฉันคิดว่าเราต้องจำกัดตัวเองให้อยู่ในสถาปัตยกรรมแบบสะสม 8 บิต ไม่มีคำสั่งแบบหลายไบต์ ในกรณีนี้คุณคิดว่าเราควรเริ่มต้นอย่างไร?

ด้วยข้อจำกัดด้านพื้นที่ นักวิจัยจึงมุ่งเป้าไปที่การออกแบบแบบ von Neumann โดยใช้หน่วยความจำ 32 ไบต์ (ข้อมูลและคำสั่งรวมกัน)

ในที่สุด ChatGPT-4 ได้ทำงานร่วมกับวิศวกรฮาร์ดแวร์ในการออกแบบสถาปัตยกรรมไมโครโปรเซสเซอร์แบบ 8 บิตแบบสะสมแบบใหม่ โปรเซสเซอร์สร้างขึ้นจากกระบวนการ Skywater 130nm ซึ่งหมายความว่า "Chip-Chat" เหล่านี้ใช้สิ่งที่เราเชื่อว่าเป็น HDL แบบถอดเทปเครื่องแรกของโลกที่เขียนด้วยปัญญาประดิษฐ์ทั้งหมด

เส้นทางข้อมูลตามการสะสมสำหรับการออกแบบ GPT-4 (วาดโดยมนุษย์)

ในบทความนี้ นักวิจัยสรุปได้ว่า ChatGPT-4 ผลิตโค้ดที่มีคุณภาพค่อนข้างสูง ซึ่งเห็นได้จากการตรวจสอบความถูกต้องในเวลาสั้นๆ เมื่อพิจารณาถึงขีดจำกัดอัตราของ ChatGPT-4 ที่ 25 ข้อความต่อ 3 ชั่วโมง งบประมาณเวลาทั้งหมดสำหรับการออกแบบนี้คือ 22.8 ชั่วโมงของ ChatGPT-4 (รวมถึงการรีสตาร์ท) การสร้างจริงของแต่ละข้อความเฉลี่ยประมาณ 30 วินาที: โดยไม่มีการจำกัดอัตรา การออกแบบทั้งหมดอาจเสร็จสิ้นภายใน <100 นาที ขึ้นอยู่กับวิศวกรที่เป็นมนุษย์ แม้ว่า ChatGPT-4 จะสร้างแอสเซมเบลอร์ของ Python ได้อย่างง่ายดาย แต่ก็ยากที่จะเขียนโปรแกรมที่เขียนขึ้นสำหรับการออกแบบของเรา และ ChatGPT ก็ไม่ได้เขียนโปรแกรมทดสอบที่สำคัญใดๆ

โดยรวมแล้ว นักวิจัยดำเนินการทั้งหมด 24 คำสั่งในชุดโปรแกรมแอสเซมเบลอร์ที่มนุษย์เขียนขึ้นอย่างครอบคลุม ซึ่งได้รับการประเมินในการจำลองและการจำลอง FPGA

ChatGPT สามารถบันทึกรอบการพัฒนาชิป

ดร. แฮมมอนด์ เพียร์ซ ผู้ช่วยศาสตราจารย์ด้านการวิจัยของ NYU Tandon และสมาชิกทีมวิจัยกล่าวว่า "งานวิจัยชิ้นนี้ได้ผลิตสิ่งที่เราเชื่อว่าเป็น HDL ที่สร้างโดย AI อย่างเต็มรูปแบบสำหรับการผลิตชิปจริง" "ปัญญาประดิษฐ์บางรุ่น เช่น ChatGPT ของ OpenAI และ Bard ของ Google สามารถสร้างโค้ดซอฟต์แวร์ในภาษาโปรแกรมต่างๆ ได้ แต่การใช้งานในการออกแบบฮาร์ดแวร์ยังไม่ได้รับการศึกษาอย่างกว้างขวาง การศึกษานี้แสดงให้เห็นว่า AI ยังสามารถเป็นประโยชน์ต่อการผลิตฮาร์ดแวร์ ใช้ในการสนทนาที่คุณสามารถกลับไปกลับมาเพื่อปรับแต่งการออกแบบได้”

อย่างไรก็ตาม ระหว่างทาง นักวิจัยยังต้องทดสอบเพิ่มเติมและจัดการกับข้อควรพิจารณาด้านความปลอดภัยที่เกี่ยวข้องกับการใช้ AI สำหรับการออกแบบชิป

โดยรวมแล้ว แม้ว่า ChatGPT จะไม่ใช่เครื่องมือซอฟต์แวร์อัตโนมัติสำหรับด้านฮาร์ดแวร์โดยเฉพาะ แต่ก็สามารถกลายเป็นเครื่องมือเสริมของ EDA และช่วยนักออกแบบ EDA ลดเกณฑ์ความรู้ได้อย่างมาก

นักวิจัยยังกล่าวอีกว่าหากนำไปใช้ในสภาพแวดล้อมจริง การใช้แบบจำลอง LLM ในการผลิตชิปอาจลดข้อผิดพลาดของมนุษย์ระหว่างการแปลง HDL ช่วยปรับปรุงประสิทธิภาพการผลิต ลดเวลาในการออกแบบและเวลาในการออกสู่ตลาด และช่วยให้มีการออกแบบที่สร้างสรรค์มากขึ้น . ในความเป็นจริง ChatGPT สมควรที่วิศวกรฮาร์ดแวร์จะใช้เพื่อเข้าร่วมในความพยายามและการสำรวจเพิ่มเติมในด้านฮาร์ดแวร์

สำหรับขั้นตอนการทดสอบที่ละเอียดยิ่งขึ้น โปรดดูกระดาษ:

อ้างอิง:

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • แสดงความคิดเห็น
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด