จัดระเบียบ | ตู่ มิน
รายการ | CSDN (ID: CSDNnews)
ChatGPT ยอดเยี่ยมขนาดนั้นจริงหรือ?
นักวิจัยจาก Tandon School of Engineering แห่งมหาวิทยาลัยนิวยอร์กตีพิมพ์บทความเรื่อง "Chip-Chat: Challenges and Opportunities in Conversational Hardware Design" โดยตอบคำถามด้วยการทดลอง: ใช่ ChatGPT มีประสิทธิภาพมากกว่าแน่นอน!
เพียงสนทนากับ ChatGPT ด้วยภาษาธรรมชาติง่ายๆ ภาษาอังกฤษ ชิปไมโครโปรเซสเซอร์ก็ถูกสร้างขึ้น สิ่งที่น่าสังเกตมากกว่าคือด้วยความช่วยเหลือของ ChatGPT ส่วนประกอบชิปนี้ไม่เพียงแค่ได้รับการออกแบบ แต่ยังสามารถผลิตได้หลังจากการทดสอบขั้นพื้นฐาน
"นี่เป็นความสำเร็จที่ไม่เคยมีมาก่อนที่สามารถเร่งการพัฒนาชิปและช่วยให้บุคคลที่ไม่มีทักษะทางเทคนิคเฉพาะด้านสามารถออกแบบชิปได้" มหาวิทยาลัยนิวยอร์กให้ความเห็น
แล้วยุคของการ "สร้างแกน" โดยคนทั้งประเทศกำลังมาจริงหรือ? ในที่นี้ เราอาจดูด้วยว่านักวิจัยทำได้อย่างไร
ในบทความนี้ นักวิจัยชี้ให้เห็นว่าการออกแบบฮาร์ดแวร์สมัยใหม่เริ่มต้นด้วยข้อกำหนดที่มาจากภาษาธรรมชาติ เช่น ข้อกำหนดเอกสารภาษาอังกฤษ จากนั้นวิศวกรฮาร์ดแวร์จะใช้ภาษาคำอธิบายฮาร์ดแวร์ (HDL) เช่น Verilog เพื่อสร้างข้อกำหนดด้วยรหัส เสร็จสิ้นการออกแบบภายในชิป และในที่สุดก็สังเคราะห์เป็นส่วนประกอบของวงจร
เมื่อยุคของ AIGC กำลังมาถึง เช่น ChatGPT ของ OpenAI และ Bard ของ Google อ้างว่าสามารถสร้างโค้ดได้ และนักพัฒนาจำนวนมากใช้พวกมันเพื่อสร้างเว็บไซต์หนึ่งแล้วอีกเว็บหนึ่ง แต่ขอบเขตแอปพลิเคชันปัจจุบันเน้นไปที่ซอฟต์แวร์เป็นหลัก . ว่าเครื่องมือ AIGC เหล่านี้สามารถแทนที่งาน "การแปล" (การแปลงข้อกำหนดเอกสารเป็นรหัส) ของวิศวกรฮาร์ดแวร์ได้หรือไม่
จากข้อมูลนี้ นักวิจัยใช้เกณฑ์มาตรฐาน 8 รายการเพื่อตรวจสอบความสามารถและข้อจำกัดของ LLM ที่ล้ำสมัยเมื่อสร้างการเขียนภาษาคำอธิบายฮาร์ดแวร์
## หลักการและกฎการทดสอบ
ในการทดลอง นักวิจัยใช้ ChatGPT เป็นตัวจำแนกรูปแบบ (ทำหน้าที่เป็นมนุษย์) ซึ่งสามารถแปลงเป็นภาษาประเภทต่างๆ ได้อย่างอิสระ (พูด เขียน) ในขณะเดียวกัน ChatGPT ช่วยให้วิศวกรฮาร์ดแวร์สามารถข้ามขั้นตอน ระยะเอชดีแอล
กระบวนการตรวจสอบโดยรวมจะแสดงในรูปด้านล่าง:
ในรายละเอียด ขั้นแรก วิศวกรฮาร์ดแวร์จะให้คำแนะนำเบื้องต้นแก่โมเดลขนาดใหญ่ ปล่อยให้สร้างโมเดล Verilog จากนั้นให้ข้อมูลเฉพาะเกี่ยวกับอินพุตและเอาต์พุต สุดท้าย วิศวกรฮาร์ดแวร์จะทำการประเมินการออกแบบเอาต์พุตด้วยภาพเพื่อพิจารณาว่าตรงตามข้อกำหนดการออกแบบพื้นฐานหรือไม่
หากการออกแบบไม่เป็นไปตามข้อกำหนด ระบบจะสร้างอีก 5 ครั้งด้วยข้อความแจ้งเดิม หากยังไม่ตรงตามข้อกำหนดแสดงว่าล้มเหลว
เมื่อเขียนการออกแบบและกรณีทดสอบแล้ว จะมีการคอมไพล์ด้วย Icarus Verilog (iverilog ซึ่งเป็นหนึ่งในเครื่องมือการใช้งานสำหรับภาษาคำอธิบายฮาร์ดแวร์ Verilog) หากการคอมไพล์สำเร็จ จะทำการจำลอง หากไม่มีการรายงานข้อผิดพลาด แสดงว่าการออกแบบผ่าน ไม่ต้องการผลตอบรับ (NFN)
หากมีการรายงานข้อผิดพลาดจากการดำเนินการใด ๆ เหล่านี้ จะมีการป้อนกลับเข้าไปในโมเดลและขอให้ "โปรดระบุการแก้ไข" ซึ่งเรียกว่า Tool Feedback (TF) หากข้อผิดพลาดหรือประเภทของข้อผิดพลาดเดียวกันเกิดขึ้นสามครั้ง ผู้ใช้จะได้รับคำติชมจากมนุษย์อย่างง่าย (SHF) โดยปกติแล้วจะเป็นการระบุว่าปัญหาประเภทใดใน Verilog ทำให้เกิดข้อผิดพลาด (เช่น: ข้อผิดพลาดทางไวยากรณ์ในคำสั่ง)
คำติชมจากมนุษย์ในระดับปานกลาง (MHF) จะได้รับหากข้อผิดพลาดยังคงอยู่ และจะมีการให้ข้อมูลโดยตรงเพิ่มเติมเล็กน้อยแก่เครื่องมือเพื่อระบุข้อผิดพลาดเฉพาะ
หากจุดบกพร่องยังคงอยู่ ระบบจะให้ผลตอบรับจากมนุษย์ขั้นสูง (AHF) ซึ่งอาศัยการระบุจุดบกพร่องที่แน่ชัดและวิธีแก้ไข
เมื่อรวบรวมและจำลองการออกแบบโดยไม่มีกรณีทดสอบที่ล้มเหลว ถือว่าประสบความสำเร็จ
แต่ถ้าข้อเสนอแนะระดับสูงไม่สามารถแก้ไขจุดบกพร่องได้ หรือผู้ใช้จำเป็นต้องเขียนโค้ด Verilog ใดๆ เพื่อแก้ไขจุดบกพร่อง การทดสอบจะถือว่าล้มเหลว การทดสอบจะถือว่าล้มเหลวหากเซสชันมีข้อความเกิน 25 ข้อความ ซึ่งเป็นไปตามขีดจำกัดอัตรา OpenAI ของข้อความ ChatGPT-4 ต่อ 3 ชั่วโมง
ในการทดลองเฉพาะ นักวิจัยได้ทำการทดสอบเกณฑ์มาตรฐานสำหรับ shift register 8 บิต
พวกเขาขอให้โมเดลใหญ่พยายามสร้างโมเดล Verilog สำหรับ "ชื่อทดสอบ" จากนั้นระบุข้อมูลจำเพาะ กำหนดพอร์ตอินพุตและเอาต์พุต และรายละเอียดเพิ่มเติมที่จำเป็น และถามโมเดลใหญ่เพิ่มเติมว่า "ฉันจะเขียนการออกแบบได้อย่างไร ตรงตามข้อกำหนดเหล่านี้หรือไม่"
ในขณะเดียวกัน นักวิจัยยังปล่อยให้แบบจำลองขนาดใหญ่สร้างการออกแบบแท่นทดสอบโดยตรง:
คุณสามารถเขียน Verilog testbench สำหรับการออกแบบนี้ได้หรือไม่? ม้านั่งทดสอบควรมีความสามารถในการทดสอบตัวเองและสามารถใช้กับ iverilog สำหรับการจำลองและการตรวจสอบได้ หากกรณีทดสอบล้มเหลว แท่นทดสอบควรสามารถให้ข้อมูลที่เพียงพอเพื่อให้สามารถค้นหาและแก้ไขข้อผิดพลาดได้
นอกจากนี้ นักวิจัยยังได้รับเนื้อหาเอาต์พุตจาก ChatGPT-4, ChatGPT-3.5, Bard และ HuggingChat สี่รุ่นใหญ่:
ผลลัพธ์สุดท้ายพบว่า ChatGPT ทั้งสองรุ่นสามารถตรงตามข้อกำหนดและเริ่มกระบวนการออกแบบ อย่างไรก็ตาม Bard และ HuggingChat ไม่ผ่านเกณฑ์เบื้องต้นของข้อกำหนด
แม้ว่าจะทำตามขั้นตอนการทดสอบที่กล่าวถึงข้างต้นแล้ว นักวิจัยได้ขอให้โมเดลขนาดใหญ่สร้างคำตอบใหม่อีก 5 ครั้งตามการแจ้งเตือนเริ่มต้นจาก Bard และ HuggingChat หลังจากหลายรอบ ทั้งสองโมเดลก็ล้มเหลว ในหมู่พวกเขา Bard ไม่สามารถตอบสนองข้อกำหนดการออกแบบที่กำหนดได้ตลอดเวลา และเอาต์พุต Verilog ของ HuggingChat เริ่มไม่ถูกต้องหลังจากกำหนดโมดูล
เนื่องจากประสิทธิภาพที่ต่ำของ Bard และ HuggingChat ในการแจ้งเตือนเริ่มต้นของความท้าทาย นักวิจัยจึงตัดสินใจติดตามผลด้วยการทดสอบเต็มรูปแบบบน ChatGPT-4 และ ChatGPT-3.5 เท่านั้น
ภาพด้านล่างแสดงผลเกณฑ์มาตรฐานของ ChatGPT-4 และ ChatGPT-3.5 เห็นได้ชัดว่าประสิทธิภาพของ ChatGPT-3.5 แย่กว่า ChatGPT-4 เล็กน้อย การสนทนาทั้งหมดเข้ากันไม่ได้
ในทางตรงกันข้าม ChatGPT-4 ทำงานได้ดีกว่า โดยผ่านเกณฑ์มาตรฐานส่วนใหญ่ ซึ่งส่วนใหญ่ต้องการเพียงความคิดเห็นเกี่ยวกับเครื่องมือเท่านั้น อย่างไรก็ตาม ในการออกแบบแท่นทดสอบนั้น ยังต้องการความคิดเห็นจากมนุษย์
## ChatGPT-4 จับคู่กับวิศวกรฮาร์ดแวร์เพื่อพัฒนาชิปร่วมกัน
เพื่อสำรวจศักยภาพของ LLM นักวิจัยยังได้จับคู่วิศวกรออกแบบฮาร์ดแวร์กับ ChatGPT-4 เพื่อออกแบบไมโครโปรเซสเซอร์ที่ใช้ตัวสะสม 8 บิต
พรอมต์เริ่มต้นสำหรับ ChatGPT-4 มีลักษณะดังนี้:
มาออกแบบไมโครโปรเซสเซอร์ใหม่ทั้งหมดด้วยกัน... ฉันคิดว่าเราต้องจำกัดตัวเองให้อยู่ในสถาปัตยกรรมแบบสะสม 8 บิต ไม่มีคำสั่งแบบหลายไบต์ ในกรณีนี้คุณคิดว่าเราควรเริ่มต้นอย่างไร?
ด้วยข้อจำกัดด้านพื้นที่ นักวิจัยจึงมุ่งเป้าไปที่การออกแบบแบบ von Neumann โดยใช้หน่วยความจำ 32 ไบต์ (ข้อมูลและคำสั่งรวมกัน)
ในที่สุด ChatGPT-4 ได้ทำงานร่วมกับวิศวกรฮาร์ดแวร์ในการออกแบบสถาปัตยกรรมไมโครโปรเซสเซอร์แบบ 8 บิตแบบสะสมแบบใหม่ โปรเซสเซอร์สร้างขึ้นจากกระบวนการ Skywater 130nm ซึ่งหมายความว่า "Chip-Chat" เหล่านี้ใช้สิ่งที่เราเชื่อว่าเป็น HDL แบบถอดเทปเครื่องแรกของโลกที่เขียนด้วยปัญญาประดิษฐ์ทั้งหมด
เส้นทางข้อมูลตามการสะสมสำหรับการออกแบบ GPT-4 (วาดโดยมนุษย์)
ในบทความนี้ นักวิจัยสรุปได้ว่า ChatGPT-4 ผลิตโค้ดที่มีคุณภาพค่อนข้างสูง ซึ่งเห็นได้จากการตรวจสอบความถูกต้องในเวลาสั้นๆ เมื่อพิจารณาถึงขีดจำกัดอัตราของ ChatGPT-4 ที่ 25 ข้อความต่อ 3 ชั่วโมง งบประมาณเวลาทั้งหมดสำหรับการออกแบบนี้คือ 22.8 ชั่วโมงของ ChatGPT-4 (รวมถึงการรีสตาร์ท) การสร้างจริงของแต่ละข้อความเฉลี่ยประมาณ 30 วินาที: โดยไม่มีการจำกัดอัตรา การออกแบบทั้งหมดอาจเสร็จสิ้นภายใน <100 นาที ขึ้นอยู่กับวิศวกรที่เป็นมนุษย์ แม้ว่า ChatGPT-4 จะสร้างแอสเซมเบลอร์ของ Python ได้อย่างง่ายดาย แต่ก็ยากที่จะเขียนโปรแกรมที่เขียนขึ้นสำหรับการออกแบบของเรา และ ChatGPT ก็ไม่ได้เขียนโปรแกรมทดสอบที่สำคัญใดๆ
โดยรวมแล้ว นักวิจัยดำเนินการทั้งหมด 24 คำสั่งในชุดโปรแกรมแอสเซมเบลอร์ที่มนุษย์เขียนขึ้นอย่างครอบคลุม ซึ่งได้รับการประเมินในการจำลองและการจำลอง FPGA
ดร. แฮมมอนด์ เพียร์ซ ผู้ช่วยศาสตราจารย์ด้านการวิจัยของ NYU Tandon และสมาชิกทีมวิจัยกล่าวว่า "งานวิจัยชิ้นนี้ได้ผลิตสิ่งที่เราเชื่อว่าเป็น HDL ที่สร้างโดย AI อย่างเต็มรูปแบบสำหรับการผลิตชิปจริง" "ปัญญาประดิษฐ์บางรุ่น เช่น ChatGPT ของ OpenAI และ Bard ของ Google สามารถสร้างโค้ดซอฟต์แวร์ในภาษาโปรแกรมต่างๆ ได้ แต่การใช้งานในการออกแบบฮาร์ดแวร์ยังไม่ได้รับการศึกษาอย่างกว้างขวาง การศึกษานี้แสดงให้เห็นว่า AI ยังสามารถเป็นประโยชน์ต่อการผลิตฮาร์ดแวร์ ใช้ในการสนทนาที่คุณสามารถกลับไปกลับมาเพื่อปรับแต่งการออกแบบได้”
อย่างไรก็ตาม ระหว่างทาง นักวิจัยยังต้องทดสอบเพิ่มเติมและจัดการกับข้อควรพิจารณาด้านความปลอดภัยที่เกี่ยวข้องกับการใช้ AI สำหรับการออกแบบชิป
โดยรวมแล้ว แม้ว่า ChatGPT จะไม่ใช่เครื่องมือซอฟต์แวร์อัตโนมัติสำหรับด้านฮาร์ดแวร์โดยเฉพาะ แต่ก็สามารถกลายเป็นเครื่องมือเสริมของ EDA และช่วยนักออกแบบ EDA ลดเกณฑ์ความรู้ได้อย่างมาก
นักวิจัยยังกล่าวอีกว่าหากนำไปใช้ในสภาพแวดล้อมจริง การใช้แบบจำลอง LLM ในการผลิตชิปอาจลดข้อผิดพลาดของมนุษย์ระหว่างการแปลง HDL ช่วยปรับปรุงประสิทธิภาพการผลิต ลดเวลาในการออกแบบและเวลาในการออกสู่ตลาด และช่วยให้มีการออกแบบที่สร้างสรรค์มากขึ้น . ในความเป็นจริง ChatGPT สมควรที่วิศวกรฮาร์ดแวร์จะใช้เพื่อเข้าร่วมในความพยายามและการสำรวจเพิ่มเติมในด้านฮาร์ดแวร์
สำหรับขั้นตอนการทดสอบที่ละเอียดยิ่งขึ้น โปรดดูกระดาษ:
อ้างอิง:
222k โพสต์
186k โพสต์
141k โพสต์
79k โพสต์
66k โพสต์
62k โพสต์
60k โพสต์
57k โพสต์
52k โพสต์
51k โพสต์
ChatGPT ยังสามารถใช้เพื่อสร้างคอร์เพียงแค่พูดภาษาอังกฤษ? !
จัดระเบียบ | ตู่ มิน
รายการ | CSDN (ID: CSDNnews)
ChatGPT ยอดเยี่ยมขนาดนั้นจริงหรือ?
นักวิจัยจาก Tandon School of Engineering แห่งมหาวิทยาลัยนิวยอร์กตีพิมพ์บทความเรื่อง "Chip-Chat: Challenges and Opportunities in Conversational Hardware Design" โดยตอบคำถามด้วยการทดลอง: ใช่ ChatGPT มีประสิทธิภาพมากกว่าแน่นอน!
เพียงสนทนากับ ChatGPT ด้วยภาษาธรรมชาติง่ายๆ ภาษาอังกฤษ ชิปไมโครโปรเซสเซอร์ก็ถูกสร้างขึ้น สิ่งที่น่าสังเกตมากกว่าคือด้วยความช่วยเหลือของ ChatGPT ส่วนประกอบชิปนี้ไม่เพียงแค่ได้รับการออกแบบ แต่ยังสามารถผลิตได้หลังจากการทดสอบขั้นพื้นฐาน
แล้วยุคของการ "สร้างแกน" โดยคนทั้งประเทศกำลังมาจริงหรือ? ในที่นี้ เราอาจดูด้วยว่านักวิจัยทำได้อย่างไร
แอปพลิเคชัน AI รุ่นใหญ่ ฟิลด์ฮาร์ดแวร์ล้าหลังซอฟต์แวร์
ในบทความนี้ นักวิจัยชี้ให้เห็นว่าการออกแบบฮาร์ดแวร์สมัยใหม่เริ่มต้นด้วยข้อกำหนดที่มาจากภาษาธรรมชาติ เช่น ข้อกำหนดเอกสารภาษาอังกฤษ จากนั้นวิศวกรฮาร์ดแวร์จะใช้ภาษาคำอธิบายฮาร์ดแวร์ (HDL) เช่น Verilog เพื่อสร้างข้อกำหนดด้วยรหัส เสร็จสิ้นการออกแบบภายในชิป และในที่สุดก็สังเคราะห์เป็นส่วนประกอบของวงจร
เมื่อยุคของ AIGC กำลังมาถึง เช่น ChatGPT ของ OpenAI และ Bard ของ Google อ้างว่าสามารถสร้างโค้ดได้ และนักพัฒนาจำนวนมากใช้พวกมันเพื่อสร้างเว็บไซต์หนึ่งแล้วอีกเว็บหนึ่ง แต่ขอบเขตแอปพลิเคชันปัจจุบันเน้นไปที่ซอฟต์แวร์เป็นหลัก . ว่าเครื่องมือ AIGC เหล่านี้สามารถแทนที่งาน "การแปล" (การแปลงข้อกำหนดเอกสารเป็นรหัส) ของวิศวกรฮาร์ดแวร์ได้หรือไม่
จากข้อมูลนี้ นักวิจัยใช้เกณฑ์มาตรฐาน 8 รายการเพื่อตรวจสอบความสามารถและข้อจำกัดของ LLM ที่ล้ำสมัยเมื่อสร้างการเขียนภาษาคำอธิบายฮาร์ดแวร์
ในการทดลอง นักวิจัยใช้ ChatGPT เป็นตัวจำแนกรูปแบบ (ทำหน้าที่เป็นมนุษย์) ซึ่งสามารถแปลงเป็นภาษาประเภทต่างๆ ได้อย่างอิสระ (พูด เขียน) ในขณะเดียวกัน ChatGPT ช่วยให้วิศวกรฮาร์ดแวร์สามารถข้ามขั้นตอน ระยะเอชดีแอล
กระบวนการตรวจสอบโดยรวมจะแสดงในรูปด้านล่าง:
หากการออกแบบไม่เป็นไปตามข้อกำหนด ระบบจะสร้างอีก 5 ครั้งด้วยข้อความแจ้งเดิม หากยังไม่ตรงตามข้อกำหนดแสดงว่าล้มเหลว
เมื่อเขียนการออกแบบและกรณีทดสอบแล้ว จะมีการคอมไพล์ด้วย Icarus Verilog (iverilog ซึ่งเป็นหนึ่งในเครื่องมือการใช้งานสำหรับภาษาคำอธิบายฮาร์ดแวร์ Verilog) หากการคอมไพล์สำเร็จ จะทำการจำลอง หากไม่มีการรายงานข้อผิดพลาด แสดงว่าการออกแบบผ่าน ไม่ต้องการผลตอบรับ (NFN)
หากมีการรายงานข้อผิดพลาดจากการดำเนินการใด ๆ เหล่านี้ จะมีการป้อนกลับเข้าไปในโมเดลและขอให้ "โปรดระบุการแก้ไข" ซึ่งเรียกว่า Tool Feedback (TF) หากข้อผิดพลาดหรือประเภทของข้อผิดพลาดเดียวกันเกิดขึ้นสามครั้ง ผู้ใช้จะได้รับคำติชมจากมนุษย์อย่างง่าย (SHF) โดยปกติแล้วจะเป็นการระบุว่าปัญหาประเภทใดใน Verilog ทำให้เกิดข้อผิดพลาด (เช่น: ข้อผิดพลาดทางไวยากรณ์ในคำสั่ง)
คำติชมจากมนุษย์ในระดับปานกลาง (MHF) จะได้รับหากข้อผิดพลาดยังคงอยู่ และจะมีการให้ข้อมูลโดยตรงเพิ่มเติมเล็กน้อยแก่เครื่องมือเพื่อระบุข้อผิดพลาดเฉพาะ
หากจุดบกพร่องยังคงอยู่ ระบบจะให้ผลตอบรับจากมนุษย์ขั้นสูง (AHF) ซึ่งอาศัยการระบุจุดบกพร่องที่แน่ชัดและวิธีแก้ไข
เมื่อรวบรวมและจำลองการออกแบบโดยไม่มีกรณีทดสอบที่ล้มเหลว ถือว่าประสบความสำเร็จ
แต่ถ้าข้อเสนอแนะระดับสูงไม่สามารถแก้ไขจุดบกพร่องได้ หรือผู้ใช้จำเป็นต้องเขียนโค้ด Verilog ใดๆ เพื่อแก้ไขจุดบกพร่อง การทดสอบจะถือว่าล้มเหลว การทดสอบจะถือว่าล้มเหลวหากเซสชันมีข้อความเกิน 25 ข้อความ ซึ่งเป็นไปตามขีดจำกัดอัตรา OpenAI ของข้อความ ChatGPT-4 ต่อ 3 ชั่วโมง
Bard and HuggingChat ขัดข้องในการทดสอบรอบแรก
ในการทดลองเฉพาะ นักวิจัยได้ทำการทดสอบเกณฑ์มาตรฐานสำหรับ shift register 8 บิต
พวกเขาขอให้โมเดลใหญ่พยายามสร้างโมเดล Verilog สำหรับ "ชื่อทดสอบ" จากนั้นระบุข้อมูลจำเพาะ กำหนดพอร์ตอินพุตและเอาต์พุต และรายละเอียดเพิ่มเติมที่จำเป็น และถามโมเดลใหญ่เพิ่มเติมว่า "ฉันจะเขียนการออกแบบได้อย่างไร ตรงตามข้อกำหนดเหล่านี้หรือไม่"
คุณสามารถเขียน Verilog testbench สำหรับการออกแบบนี้ได้หรือไม่? ม้านั่งทดสอบควรมีความสามารถในการทดสอบตัวเองและสามารถใช้กับ iverilog สำหรับการจำลองและการตรวจสอบได้ หากกรณีทดสอบล้มเหลว แท่นทดสอบควรสามารถให้ข้อมูลที่เพียงพอเพื่อให้สามารถค้นหาและแก้ไขข้อผิดพลาดได้
เนื่องจากประสิทธิภาพที่ต่ำของ Bard และ HuggingChat ในการแจ้งเตือนเริ่มต้นของความท้าทาย นักวิจัยจึงตัดสินใจติดตามผลด้วยการทดสอบเต็มรูปแบบบน ChatGPT-4 และ ChatGPT-3.5 เท่านั้น
การแข่งขัน ChatGPT-4 และ ChatGPT-3.5
ภาพด้านล่างแสดงผลเกณฑ์มาตรฐานของ ChatGPT-4 และ ChatGPT-3.5 เห็นได้ชัดว่าประสิทธิภาพของ ChatGPT-3.5 แย่กว่า ChatGPT-4 เล็กน้อย การสนทนาทั้งหมดเข้ากันไม่ได้
ในทางตรงกันข้าม ChatGPT-4 ทำงานได้ดีกว่า โดยผ่านเกณฑ์มาตรฐานส่วนใหญ่ ซึ่งส่วนใหญ่ต้องการเพียงความคิดเห็นเกี่ยวกับเครื่องมือเท่านั้น อย่างไรก็ตาม ในการออกแบบแท่นทดสอบนั้น ยังต้องการความคิดเห็นจากมนุษย์
เพื่อสำรวจศักยภาพของ LLM นักวิจัยยังได้จับคู่วิศวกรออกแบบฮาร์ดแวร์กับ ChatGPT-4 เพื่อออกแบบไมโครโปรเซสเซอร์ที่ใช้ตัวสะสม 8 บิต
พรอมต์เริ่มต้นสำหรับ ChatGPT-4 มีลักษณะดังนี้:
มาออกแบบไมโครโปรเซสเซอร์ใหม่ทั้งหมดด้วยกัน... ฉันคิดว่าเราต้องจำกัดตัวเองให้อยู่ในสถาปัตยกรรมแบบสะสม 8 บิต ไม่มีคำสั่งแบบหลายไบต์ ในกรณีนี้คุณคิดว่าเราควรเริ่มต้นอย่างไร?
ในที่สุด ChatGPT-4 ได้ทำงานร่วมกับวิศวกรฮาร์ดแวร์ในการออกแบบสถาปัตยกรรมไมโครโปรเซสเซอร์แบบ 8 บิตแบบสะสมแบบใหม่ โปรเซสเซอร์สร้างขึ้นจากกระบวนการ Skywater 130nm ซึ่งหมายความว่า "Chip-Chat" เหล่านี้ใช้สิ่งที่เราเชื่อว่าเป็น HDL แบบถอดเทปเครื่องแรกของโลกที่เขียนด้วยปัญญาประดิษฐ์ทั้งหมด
ในบทความนี้ นักวิจัยสรุปได้ว่า ChatGPT-4 ผลิตโค้ดที่มีคุณภาพค่อนข้างสูง ซึ่งเห็นได้จากการตรวจสอบความถูกต้องในเวลาสั้นๆ เมื่อพิจารณาถึงขีดจำกัดอัตราของ ChatGPT-4 ที่ 25 ข้อความต่อ 3 ชั่วโมง งบประมาณเวลาทั้งหมดสำหรับการออกแบบนี้คือ 22.8 ชั่วโมงของ ChatGPT-4 (รวมถึงการรีสตาร์ท) การสร้างจริงของแต่ละข้อความเฉลี่ยประมาณ 30 วินาที: โดยไม่มีการจำกัดอัตรา การออกแบบทั้งหมดอาจเสร็จสิ้นภายใน <100 นาที ขึ้นอยู่กับวิศวกรที่เป็นมนุษย์ แม้ว่า ChatGPT-4 จะสร้างแอสเซมเบลอร์ของ Python ได้อย่างง่ายดาย แต่ก็ยากที่จะเขียนโปรแกรมที่เขียนขึ้นสำหรับการออกแบบของเรา และ ChatGPT ก็ไม่ได้เขียนโปรแกรมทดสอบที่สำคัญใดๆ
โดยรวมแล้ว นักวิจัยดำเนินการทั้งหมด 24 คำสั่งในชุดโปรแกรมแอสเซมเบลอร์ที่มนุษย์เขียนขึ้นอย่างครอบคลุม ซึ่งได้รับการประเมินในการจำลองและการจำลอง FPGA
ChatGPT สามารถบันทึกรอบการพัฒนาชิป
ดร. แฮมมอนด์ เพียร์ซ ผู้ช่วยศาสตราจารย์ด้านการวิจัยของ NYU Tandon และสมาชิกทีมวิจัยกล่าวว่า "งานวิจัยชิ้นนี้ได้ผลิตสิ่งที่เราเชื่อว่าเป็น HDL ที่สร้างโดย AI อย่างเต็มรูปแบบสำหรับการผลิตชิปจริง" "ปัญญาประดิษฐ์บางรุ่น เช่น ChatGPT ของ OpenAI และ Bard ของ Google สามารถสร้างโค้ดซอฟต์แวร์ในภาษาโปรแกรมต่างๆ ได้ แต่การใช้งานในการออกแบบฮาร์ดแวร์ยังไม่ได้รับการศึกษาอย่างกว้างขวาง การศึกษานี้แสดงให้เห็นว่า AI ยังสามารถเป็นประโยชน์ต่อการผลิตฮาร์ดแวร์ ใช้ในการสนทนาที่คุณสามารถกลับไปกลับมาเพื่อปรับแต่งการออกแบบได้”
อย่างไรก็ตาม ระหว่างทาง นักวิจัยยังต้องทดสอบเพิ่มเติมและจัดการกับข้อควรพิจารณาด้านความปลอดภัยที่เกี่ยวข้องกับการใช้ AI สำหรับการออกแบบชิป
โดยรวมแล้ว แม้ว่า ChatGPT จะไม่ใช่เครื่องมือซอฟต์แวร์อัตโนมัติสำหรับด้านฮาร์ดแวร์โดยเฉพาะ แต่ก็สามารถกลายเป็นเครื่องมือเสริมของ EDA และช่วยนักออกแบบ EDA ลดเกณฑ์ความรู้ได้อย่างมาก
นักวิจัยยังกล่าวอีกว่าหากนำไปใช้ในสภาพแวดล้อมจริง การใช้แบบจำลอง LLM ในการผลิตชิปอาจลดข้อผิดพลาดของมนุษย์ระหว่างการแปลง HDL ช่วยปรับปรุงประสิทธิภาพการผลิต ลดเวลาในการออกแบบและเวลาในการออกสู่ตลาด และช่วยให้มีการออกแบบที่สร้างสรรค์มากขึ้น . ในความเป็นจริง ChatGPT สมควรที่วิศวกรฮาร์ดแวร์จะใช้เพื่อเข้าร่วมในความพยายามและการสำรวจเพิ่มเติมในด้านฮาร์ดแวร์
สำหรับขั้นตอนการทดสอบที่ละเอียดยิ่งขึ้น โปรดดูกระดาษ:
อ้างอิง: