整理 | Tu Min
出品 | CSDN(ID:CSDNnews)
ChatGPT は本当にすごいですか?
ニューヨーク大学タンドン工学部の研究者は、「チップチャット: 会話型ハードウェア設計における課題と機会」という論文を発表し、実験で答えています。はい、ChatGPT は確かにさらに強力です。
ChatGPTで簡単な自然言語英語でチャットするだけで、マイクロプロセッサチップが製造されました。さらに注目すべき点は、ChatGPT の助けを借りて、このチップ コンポーネントが設計されるだけでなく、基本的なテスト後に製造できることです。
ニューヨーク大学は「これはチップ開発を加速し、専門的な技術スキルを持たない人でもチップを設計できるようになる前例のない成果だ」とコメントした。
では、本当に国民全体での「芯づくり」の時代が来るのでしょうか?ここで、研究者たちがどのようにそれを行ったのかを見てみるのもいいかもしれません。
研究者らは論文の中で、現代のハードウェア設計は英語の文書要件などの自然言語で提供される仕様から始まり、その後ハードウェアエンジニアがVerilogなどのハードウェア記述言語(HDL)を使用してコードで要件を構築すると指摘した。チップの内部設計を完成させ、最終的に回路部品に合成します。
さて、AIGCの時代が到来すると、OpenAIのChatGPTやGoogleのBardなどがコードを生成できると主張し、多くの開発者がそれらを使って次々とWebサイトを作成してきましたが、現在の適用範囲は主にソフトウェア分野に集中しています。 . これらの AIGC ツールがハードウェア エンジニアの「翻訳」(ドキュメント要件をコードに変換する)作業を置き換えることができるかどうか。
これに基づいて、研究者らは 8 つの代表的なベンチマークを使用して、ハードウェア記述言語自体の記述を生成する際の最先端の LLM の機能と制限を調査しました。
## テストの原則とルール
実験では、研究者らはChatGPTをパターン認識ツール(人間として機能する)として使用し、さまざまな種類の言語(口頭、書き言葉)に自由に変換できると同時に、ChatGPTを使用することでハードウェアエンジニアが言語をスキップすることもできます。 HDLステージ。
全体的な検証プロセスを次の図に示します。
詳細には、まずハードウェア エンジニアが大規模モデルに初期ヒントを提供し、Verilog モデルを作成させてから、入出力に関する特定の情報を提供します。最後に、ハードウェア エンジニアは出力設計を視覚的に評価し、基本設計仕様を満たしているかどうかを判断します。
デザインが仕様を満たしていない場合は、同じプロンプトが表示されてさらに 5 回生成されます。それでも仕様を満たさない場合は失敗します。
設計とテスト ケースが作成されると、Icarus Verilog (iverilog、Verilog ハードウェア記述言語の実装ツールの 1 つ) を使用してコンパイルされます。コンパイルが成功すると、シミュレーションが実行されます。エラーが報告されない場合、デザインは合格となり、フィードバックは必要ありません (NFN)。
これらの操作のいずれかによってエラーが報告された場合、それらはモデルにフィードバックされ、「修正を提供してください」と求められます。これはツール フィードバック (TF) として知られています。同じエラーまたはタイプのエラーが 3 回発生した場合、ユーザーは通常、エラーの原因となった Verilog のどのタイプの問題 (例: ステートメントの構文エラー) を示すシンプル ヒューマン フィードバック (SHF) を提供します。
エラーが解決しない場合は、適度なヒューマン フィードバック (MHF) が提供され、特定のエラーを特定するために、もう少し直接的な情報がツールに提供されます。
バグが解決しない場合は、バグの場所とその修正方法を正確に特定することに基づいて、高度なヒューマン フィードバック (AHF) が提供されます。
設計がコンパイルされてシミュレーションされ、失敗するテスト ケースがなければ、成功したとみなされます。
ただし、高レベルのフィードバックによってバグが修正されない場合、またはユーザーがバグを解決するために Verilog コードを作成する必要がある場合、テストは失敗したとみなされます。セッションが 25 メッセージを超え、3 時間あたりの ChatGPT-4 メッセージの OpenAI レート制限を満たしている場合も、テストは失敗したとみなされます。
具体的な実験では、研究者らは 8 ビット シフト レジスタのベンチマーク テストを実施しました。
彼らは、大きなモデルに「テスト名」の Verilog モデルを作成するよう依頼し、入力ポートと出力ポート、および必要な詳細を定義する仕様を提供し、さらに大きなモデルに「どのようにデザインを書くべきか」と尋ねます。この仕様を満たしていますか?」
同時に、研究者らは大規模モデルにテストベンチの設計を直接生成させました。
この設計用の Verilog テストベンチを作成できますか?テストベンチには自己テスト機能があり、シミュレーションと検証のために iverilog を使用できる必要があります。テスト ケースが失敗した場合、テスト ベンチはエラーを見つけて解決できるように十分な情報を提供できる必要があります。
さらに、研究者らは、ChatGPT-4、ChatGPT-3.5、Bard、HuggingChat の 4 つの大きなモデルに基づいて出力コンテンツを取得しました。
最終結果は、両方の ChatGPT モデルが仕様を満たすことができることを示し、設計プロセスが開始されました。ただし、Bard と HuggingChat は仕様の初期基準を満たしていませんでした。
前述のテストプロセスに従っているものの、研究者らは大規模モデルに対し、Bard と HuggingChat からの最初のプロンプトに基づいてさらに 5 回回答を再生成するよう依頼しましたが、多くのラウンドの後、両方のモデルが失敗しました。その中で、Bard は与えられた設計仕様を常に満たすことができず、HuggingChat の Verilog 出力がモジュール定義後に不正確になり始めます。
最初のチャレンジのベースライン プロンプトに対する Bard と HuggingChat のパフォーマンスが低かったことを考慮して、研究者らは、ChatGPT-4 と ChatGPT-3.5 についてのみ完全なテストを行うことを決定しました。
以下の図は、ChatGPT-4 と ChatGPT-3.5 のベンチマーク結果を示しています。明らかに、ChatGPT-3.5 のパフォーマンスは ChatGPT-4 よりもわずかに劣っており、会話はすべて互換性がありません。
対照的に、ChatGPT-4 はさらに優れたパフォーマンスを示し、ほとんどのベンチマークをパスしましたが、そのほとんどはツールのフィードバックのみが必要でした。ただし、テストベンチの設計では、依然として人間のフィードバックが必要です。
## ChatGPT-4 はハードウェア エンジニアと連携してチップを共同開発します
LLM の可能性を探るため、研究者らはハードウェア設計エンジニアと ChatGPT-4 を組み合わせて 8 ビット アキュムレータ ベースのマイクロプロセッサを設計しました。
ChatGPT-4 の最初のプロンプトは次のようになります。
まったく新しいマイクロプロセッサの設計を一緒にやってみませんか...マルチバイト命令を使用せず、アキュムレータ 8 ビット アーキテクチャに限定する必要があると思います。そうなると、どうやって始めればいいと思いますか?
スペースの制約を考慮して、研究者らは 32 バイトのメモリ (データと命令を合わせたもの) を使用するフォン・ノイマン型の設計を目指しました。
最終的に、ChatGPT-4 はハードウェア エンジニアと協力して、新しい 8 ビット アキュムレータ ベースのマイクロプロセッサ アーキテクチャを設計しました。このプロセッサは Skywater 130nm プロセスで構築されており、これはこれらの「チップチャット」が完全に人工知能によって書かれた世界初のテープアウト HDL であると思われるものを実装していることを意味します。
GPT-4 設計用のアキュムレータベースのデータ パス (人間が描画)
論文の中で研究者らは、検証時間が短いことからもわかるように、ChatGPT-4 は比較的高品質のコードを生成したと結論付けています。 ChatGPT-4 の 3 時間あたり 25 メッセージのレート制限を考慮すると、この設計の合計時間予算は ChatGPT-4 の 22.8 時間 (再起動を含む) です。各メッセージの実際の生成時間は平均約 30 秒でした。レート制限がなければ、人間のエンジニアにもよりますが、設計全体は 100 分未満で完了した可能性があります。 ChatGPT-4 は Python アセンブラーを比較的簡単に生成しましたが、設計用に作成されたプログラムを作成するのは難しく、ChatGPT は重要なテスト プログラムを作成しませんでした。
全体として、研究者らは、シミュレーションと FPGA シミュレーションで評価された、人間が作成した包括的な一連のアセンブラー プログラムの 24 命令すべてを実行しました。
「この研究は、物理チップ製造用に完全に AI で生成された初の HDL であると我々が信じているものを生み出しました」とニューヨーク大学タンドン大学助教で研究チームのメンバーであるハモンド・ピアース博士は述べました。 「OpenAI の ChatGPT や Google の Bard などの一部の人工知能モデルは、さまざまなプログラミング言語でソフトウェア コードを生成できますが、ハードウェア設計におけるそれらの使用については広く研究されていません。この研究は、AI がハードウェア製造にも利益をもたらすことを示しています。会話の中で使用され、やり取りを繰り返してデザインを洗練させることができます。」
ただし、その過程で、研究者はチップ設計に AI を使用する際の安全性に関する考慮事項をさらにテストし、対処する必要もあります。
全体として、ChatGPT はハードウェア分野専用の自動ソフトウェア ツールではありませんが、EDA 補助ツールとなり、EDA 設計者の知識の限界値を大幅に下げるのに役立ちます。
研究者らはまた、現実世界の環境に実装された場合、チップ製造で LLM モデルを使用すると、HDL 変換中の人的エラーが削減され、生産性が向上し、設計時間と市場投入までの時間が短縮され、より創造的な設計が可能になる可能性があるとも述べています。 。実際、これだけでも、ChatGPT はハードウェア エンジニアがハードウェア分野でのさらなる試みや探索に参加するために使用する価値があります。
より詳細なテスト プロセスについては、次の論文を参照してください。
参考:
221449 投稿
185656 投稿
140157 投稿
78407 投稿
65357 投稿
61360 投稿
59859 投稿
56161 投稿
51748 投稿
50347 投稿
ChatGPT はコアの作成にも使用できます。英語を話すだけですか? !
整理 | Tu Min
出品 | CSDN(ID:CSDNnews)
ChatGPT は本当にすごいですか?
ニューヨーク大学タンドン工学部の研究者は、「チップチャット: 会話型ハードウェア設計における課題と機会」という論文を発表し、実験で答えています。はい、ChatGPT は確かにさらに強力です。
ChatGPTで簡単な自然言語英語でチャットするだけで、マイクロプロセッサチップが製造されました。さらに注目すべき点は、ChatGPT の助けを借りて、このチップ コンポーネントが設計されるだけでなく、基本的なテスト後に製造できることです。
では、本当に国民全体での「芯づくり」の時代が来るのでしょうか?ここで、研究者たちがどのようにそれを行ったのかを見てみるのもいいかもしれません。
AI 大型モデルの適用、ハードウェア分野はソフトウェアに後れを取っている
研究者らは論文の中で、現代のハードウェア設計は英語の文書要件などの自然言語で提供される仕様から始まり、その後ハードウェアエンジニアがVerilogなどのハードウェア記述言語(HDL)を使用してコードで要件を構築すると指摘した。チップの内部設計を完成させ、最終的に回路部品に合成します。
さて、AIGCの時代が到来すると、OpenAIのChatGPTやGoogleのBardなどがコードを生成できると主張し、多くの開発者がそれらを使って次々とWebサイトを作成してきましたが、現在の適用範囲は主にソフトウェア分野に集中しています。 . これらの AIGC ツールがハードウェア エンジニアの「翻訳」(ドキュメント要件をコードに変換する)作業を置き換えることができるかどうか。
これに基づいて、研究者らは 8 つの代表的なベンチマークを使用して、ハードウェア記述言語自体の記述を生成する際の最先端の LLM の機能と制限を調査しました。
実験では、研究者らはChatGPTをパターン認識ツール(人間として機能する)として使用し、さまざまな種類の言語(口頭、書き言葉)に自由に変換できると同時に、ChatGPTを使用することでハードウェアエンジニアが言語をスキップすることもできます。 HDLステージ。
全体的な検証プロセスを次の図に示します。
デザインが仕様を満たしていない場合は、同じプロンプトが表示されてさらに 5 回生成されます。それでも仕様を満たさない場合は失敗します。
設計とテスト ケースが作成されると、Icarus Verilog (iverilog、Verilog ハードウェア記述言語の実装ツールの 1 つ) を使用してコンパイルされます。コンパイルが成功すると、シミュレーションが実行されます。エラーが報告されない場合、デザインは合格となり、フィードバックは必要ありません (NFN)。
これらの操作のいずれかによってエラーが報告された場合、それらはモデルにフィードバックされ、「修正を提供してください」と求められます。これはツール フィードバック (TF) として知られています。同じエラーまたはタイプのエラーが 3 回発生した場合、ユーザーは通常、エラーの原因となった Verilog のどのタイプの問題 (例: ステートメントの構文エラー) を示すシンプル ヒューマン フィードバック (SHF) を提供します。
エラーが解決しない場合は、適度なヒューマン フィードバック (MHF) が提供され、特定のエラーを特定するために、もう少し直接的な情報がツールに提供されます。
バグが解決しない場合は、バグの場所とその修正方法を正確に特定することに基づいて、高度なヒューマン フィードバック (AHF) が提供されます。
設計がコンパイルされてシミュレーションされ、失敗するテスト ケースがなければ、成功したとみなされます。
ただし、高レベルのフィードバックによってバグが修正されない場合、またはユーザーがバグを解決するために Verilog コードを作成する必要がある場合、テストは失敗したとみなされます。セッションが 25 メッセージを超え、3 時間あたりの ChatGPT-4 メッセージの OpenAI レート制限を満たしている場合も、テストは失敗したとみなされます。
Bard と HuggingChat はテストの最初のラウンドでクラッシュしました
具体的な実験では、研究者らは 8 ビット シフト レジスタのベンチマーク テストを実施しました。
彼らは、大きなモデルに「テスト名」の Verilog モデルを作成するよう依頼し、入力ポートと出力ポート、および必要な詳細を定義する仕様を提供し、さらに大きなモデルに「どのようにデザインを書くべきか」と尋ねます。この仕様を満たしていますか?」
この設計用の Verilog テストベンチを作成できますか?テストベンチには自己テスト機能があり、シミュレーションと検証のために iverilog を使用できる必要があります。テスト ケースが失敗した場合、テスト ベンチはエラーを見つけて解決できるように十分な情報を提供できる必要があります。
最初のチャレンジのベースライン プロンプトに対する Bard と HuggingChat のパフォーマンスが低かったことを考慮して、研究者らは、ChatGPT-4 と ChatGPT-3.5 についてのみ完全なテストを行うことを決定しました。
ChatGPT-4 と ChatGPT-3.5 の競合
以下の図は、ChatGPT-4 と ChatGPT-3.5 のベンチマーク結果を示しています。明らかに、ChatGPT-3.5 のパフォーマンスは ChatGPT-4 よりもわずかに劣っており、会話はすべて互換性がありません。
対照的に、ChatGPT-4 はさらに優れたパフォーマンスを示し、ほとんどのベンチマークをパスしましたが、そのほとんどはツールのフィードバックのみが必要でした。ただし、テストベンチの設計では、依然として人間のフィードバックが必要です。
LLM の可能性を探るため、研究者らはハードウェア設計エンジニアと ChatGPT-4 を組み合わせて 8 ビット アキュムレータ ベースのマイクロプロセッサを設計しました。
ChatGPT-4 の最初のプロンプトは次のようになります。
まったく新しいマイクロプロセッサの設計を一緒にやってみませんか...マルチバイト命令を使用せず、アキュムレータ 8 ビット アーキテクチャに限定する必要があると思います。そうなると、どうやって始めればいいと思いますか?
最終的に、ChatGPT-4 はハードウェア エンジニアと協力して、新しい 8 ビット アキュムレータ ベースのマイクロプロセッサ アーキテクチャを設計しました。このプロセッサは Skywater 130nm プロセスで構築されており、これはこれらの「チップチャット」が完全に人工知能によって書かれた世界初のテープアウト HDL であると思われるものを実装していることを意味します。
論文の中で研究者らは、検証時間が短いことからもわかるように、ChatGPT-4 は比較的高品質のコードを生成したと結論付けています。 ChatGPT-4 の 3 時間あたり 25 メッセージのレート制限を考慮すると、この設計の合計時間予算は ChatGPT-4 の 22.8 時間 (再起動を含む) です。各メッセージの実際の生成時間は平均約 30 秒でした。レート制限がなければ、人間のエンジニアにもよりますが、設計全体は 100 分未満で完了した可能性があります。 ChatGPT-4 は Python アセンブラーを比較的簡単に生成しましたが、設計用に作成されたプログラムを作成するのは難しく、ChatGPT は重要なテスト プログラムを作成しませんでした。
全体として、研究者らは、シミュレーションと FPGA シミュレーションで評価された、人間が作成した包括的な一連のアセンブラー プログラムの 24 命令すべてを実行しました。
ChatGPT はチップ開発サイクルを節約できます
「この研究は、物理チップ製造用に完全に AI で生成された初の HDL であると我々が信じているものを生み出しました」とニューヨーク大学タンドン大学助教で研究チームのメンバーであるハモンド・ピアース博士は述べました。 「OpenAI の ChatGPT や Google の Bard などの一部の人工知能モデルは、さまざまなプログラミング言語でソフトウェア コードを生成できますが、ハードウェア設計におけるそれらの使用については広く研究されていません。この研究は、AI がハードウェア製造にも利益をもたらすことを示しています。会話の中で使用され、やり取りを繰り返してデザインを洗練させることができます。」
ただし、その過程で、研究者はチップ設計に AI を使用する際の安全性に関する考慮事項をさらにテストし、対処する必要もあります。
全体として、ChatGPT はハードウェア分野専用の自動ソフトウェア ツールではありませんが、EDA 補助ツールとなり、EDA 設計者の知識の限界値を大幅に下げるのに役立ちます。
研究者らはまた、現実世界の環境に実装された場合、チップ製造で LLM モデルを使用すると、HDL 変換中の人的エラーが削減され、生産性が向上し、設計時間と市場投入までの時間が短縮され、より創造的な設計が可能になる可能性があるとも述べています。 。実際、これだけでも、ChatGPT はハードウェア エンジニアがハードウェア分野でのさらなる試みや探索に参加するために使用する価値があります。
より詳細なテスト プロセスについては、次の論文を参照してください。
参考: