Pesquisadores da Tandon School of Engineering da New York University publicaram um artigo "Chip-Chat: Challenges and Opportunities in Conversational Hardware Design", respondendo com experimentos: Sim, o ChatGPT é realmente mais poderoso!
Apenas conversando com o ChatGPT em inglês simples e natural, um chip microprocessador foi produzido. O que é mais digno de nota é que, com a ajuda do ChatGPT, este componente do chip não é apenas projetado, mas também pode ser fabricado após testes básicos.
"Esta é uma conquista sem precedentes que pode acelerar o desenvolvimento de chips e permitir que indivíduos sem habilidades técnicas especializadas projetem chips", comentou a Universidade de Nova York.
Então, a era da "criação do núcleo" por todo o povo realmente está chegando? Aqui, podemos também dar uma olhada em como os pesquisadores fizeram isso.
A aplicação de modelos grandes de IA, o campo de hardware fica atrás do software
No artigo, os pesquisadores apontaram que o design de hardware moderno começa com as especificações fornecidas pela linguagem natural, como requisitos de documentos em inglês, e depois os engenheiros de hardware usam linguagens de descrição de hardware (HDL), como Verilog, para construir os requisitos com código para complete o design interno do chip e, finalmente, sintetizado em componentes do circuito.
Bem, quando a era do AIGC está chegando, como o ChatGPT da OpenAI e o Bard do Google afirmam ser capazes de gerar código, e muitos desenvolvedores os usaram para criar um site após o outro, mas o escopo atual do aplicativo é focado principalmente no campo do software . , se essas ferramentas AIGC podem substituir o trabalho de "tradução" (conversão de requisitos de documentos em código) dos engenheiros de hardware.
Com base nisso, os pesquisadores usaram oito benchmarks representativos para investigar as capacidades e limitações dos LLMs de última geração ao gerar a escrita da própria linguagem de descrição de hardware.
## Princípios e regras de teste
No experimento, os pesquisadores usaram o ChatGPT como um reconhecedor de padrões (agindo como um ser humano), que pode ser convertido livremente em vários tipos de idiomas (oral, escrito). Ao mesmo tempo, o ChatGPT permite que os engenheiros de hardware pulem o Estágio HDL.
O processo de verificação geral é mostrado na figura abaixo:
Em detalhes, primeiro, o engenheiro de hardware fornece dicas iniciais para o modelo grande, permite criar um modelo Verilog e, em seguida, fornece informações específicas sobre entrada e saída. Por fim, o engenheiro de hardware realiza uma avaliação visual do projeto de saída para determinar se ele atende às especificações básicas do projeto.
Se um design não atender às especificações, ele será gerado mais cinco vezes com o mesmo prompt. Se ainda não atender à especificação, falhará.
Uma vez escritos os projetos e os casos de teste, eles são compilados com o Icarus Verilog (iverilog, uma das ferramentas de implementação da linguagem de descrição de hardware Verilog). Se a compilação for bem-sucedida, a simulação é executada. Se nenhum erro for reportado, o projeto passa, No Feedback Required (NFN).
Se qualquer uma dessas operações relatar erros, elas são realimentadas no modelo e solicitadas a "fornecer uma correção", o que é chamado de feedback da ferramenta (TF). Se o mesmo erro ou tipo de erro ocorrer três vezes, Simple Human Feedback (SHF) é dado pelo usuário, geralmente informando que tipo de problema no Verilog causou o erro (ex: erro de sintaxe em uma declaração).
O Feedback Humano Moderado (MHF) é fornecido se o erro persistir e informações um pouco mais diretas são fornecidas à ferramenta para identificar o erro específico.
Se o bug persistir, é fornecido um Feedback Humano Avançado (AHF), que se baseia em identificar exatamente onde está o bug e como corrigi-lo.
Depois que o projeto é compilado e simulado, sem casos de teste falhos, ele é considerado bem-sucedido.
Mas se o feedback de alto nível não corrigir o bug, ou se o usuário precisar escrever qualquer código Verilog para resolver o bug, o teste será considerado falhado. O teste também é considerado reprovado se a sessão exceder 25 mensagens, atendendo ao limite de taxa OpenAI de mensagens ChatGPT-4 por 3 horas.
Bard e HuggingChat travaram na primeira rodada de testes
No experimento específico, os pesquisadores realizaram um teste de benchmark para um registrador de deslocamento de 8 bits.
Eles pedem ao grande modelo para tentar criar um modelo Verilog para um "nome de teste", então fornecem a especificação, definindo as portas de entrada e saída e quaisquer outros detalhes necessários, e ainda perguntam ao grande modelo "Como eu escreveria um projeto para atender a essas especificações? "
Ao mesmo tempo, os pesquisadores também deixaram diretamente o modelo grande gerar o design da bancada de teste:
Você pode escrever um testbench Verilog para este projeto? O testbench deve ter recursos de autoteste e ser capaz de ser usado com o irilog para simulação e verificação. Se um caso de teste falhar, o banco de testes deve ser capaz de fornecer informações suficientes para que o erro seja encontrado e resolvido.
Além disso, os pesquisadores obtiveram o conteúdo de saída com base nos quatro grandes modelos de ChatGPT-4, ChatGPT-3.5, Bard e HuggingChat:
Os resultados finais mostraram que ambos os modelos do ChatGPT conseguiram atender às especificações e o processo de design foi iniciado. No entanto, Bard e HuggingChat falharam em atender aos critérios iniciais da especificação.
Embora seguindo o processo de teste mencionado acima, os pesquisadores pediram ao modelo grande para regenerar as respostas mais cinco vezes com base nas solicitações iniciais de Bard e HuggingChat, depois de muitas rodadas, ambos os modelos falharam. Entre eles, Bard não consegue atender a especificação de design fornecida o tempo todo, e a saída Verilog de HuggingChat começa a ficar incorreta após a definição do módulo.
Dado o baixo desempenho de Bard e HuggingChat nos prompts iniciais do desafio, os pesquisadores decidiram prosseguir com testes completos apenas no ChatGPT-4 e ChatGPT-3.5.
Competição ChatGPT-4 e ChatGPT-3.5
A figura abaixo mostra os resultados do benchmark do ChatGPT-4 e do ChatGPT-3.5. É óbvio que o desempenho do ChatGPT-3.5 é um pouco pior do que o do ChatGPT-4. As conversas são todas incompatíveis.
Em contraste, o ChatGPT-4 teve um desempenho ainda melhor, passando na maioria dos benchmarks, a maioria dos quais exigia apenas feedback da ferramenta. No projeto de bancada de teste, no entanto, o feedback humano ainda é necessário.
## ChatGPT-4 é emparelhado com engenheiros de hardware para desenvolver chips juntos
Para explorar o potencial do LLM, os pesquisadores também combinaram engenheiros de design de hardware com o ChatGPT-4 para projetar um microprocessador baseado em acumulador de 8 bits.
O prompt inicial para ChatGPT-4 é assim:
Vamos fazer todo um novo projeto de microprocessador juntos... Acho que precisamos nos limitar a uma arquitetura de 8 bits de acumulador, sem instruções de vários bytes. Sendo esse o caso, como você acha que devemos começar?
Dadas as restrições de espaço, os pesquisadores buscaram um projeto do tipo von Neumann usando 32 bytes de memória (dados e instruções combinados).
Por fim, o ChatGPT-4 trabalhou com engenheiros de hardware para projetar uma nova arquitetura de microprocessador baseada em acumulador de 8 bits. O processador é construído em um processo Skywater 130nm, o que significa que esses "Chip-Chats" implementam o que acreditamos ser o primeiro HDL gravado inteiramente por inteligência artificial.
Caminho de dados baseado em acumulador para design GPT-4 (desenhado por humanos)
No artigo, os pesquisadores concluíram que o ChatGPT-4 produziu código de qualidade relativamente alta, conforme evidenciado pelo curto tempo de validação. Considerando o limite de taxa do ChatGPT-4 de 25 mensagens a cada 3 horas, o orçamento de tempo total para esse design é de 22,8 horas de ChatGPT-4 (incluindo a reinicialização). A geração real de cada mensagem durou em média cerca de 30 segundos: sem limitação de taxa, todo o projeto poderia ter sido concluído em menos de 100 minutos, dependendo do engenheiro humano. Embora o ChatGPT-4 tenha gerado o Python assembler com relativa facilidade, foi difícil escrever programas para nosso projeto, e o ChatGPT não escreveu nenhum programa de teste significativo.
No geral, os pesquisadores executaram todas as 24 instruções em uma série abrangente de programas montadores escritos por humanos avaliados em simulação e simulação de FPGA.
ChatGPT pode salvar o ciclo de desenvolvimento do chip
"Esta pesquisa produziu o que acreditamos ser o primeiro HDL totalmente gerado por IA para a fabricação de chips físicos", disse o Dr. Hammond Pearce, professor assistente de pesquisa na NYU Tandon e membro da equipe de pesquisa. "Alguns modelos de inteligência artificial, como o ChatGPT da OpenAI e o Bard do Google, podem gerar código de software em diferentes linguagens de programação, mas seu uso no design de hardware não foi amplamente estudado. Este estudo mostra que a IA também pode beneficiar a fabricação de hardware, especialmente quando é usado na conversa que você pode ir e voltar para refinar o design.”
Ao longo do caminho, no entanto, os pesquisadores também precisam testar e abordar as considerações de segurança envolvidas no uso de IA para o design de chips.
No geral, embora o ChatGPT não seja uma ferramenta de software automatizada especificamente para o campo de hardware, ele pode se tornar uma ferramenta auxiliar de EDA e ajudar os designers de EDA a reduzir bastante o limite de conhecimento.
Os pesquisadores também dizem que, se implementado em um ambiente do mundo real, o uso de modelos LLM na fabricação de chips pode reduzir o erro humano durante a conversão HDL, ajudar a melhorar a produtividade, reduzir o tempo de design e o tempo de lançamento no mercado e permitir designs mais criativos. . Na verdade, só por isso, o ChatGPT é digno de ser usado por engenheiros de hardware para participar de mais tentativas e explorações no campo do hardware.
Para um processo de teste mais detalhado, consulte o artigo:
referência:
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
O ChatGPT também pode ser usado para fazer núcleos, basta falar inglês? !
Organizar | Tu Min
Listagem | CSDN (ID: CSDNnews)
O ChatGPT é realmente incrível?
Pesquisadores da Tandon School of Engineering da New York University publicaram um artigo "Chip-Chat: Challenges and Opportunities in Conversational Hardware Design", respondendo com experimentos: Sim, o ChatGPT é realmente mais poderoso!
Apenas conversando com o ChatGPT em inglês simples e natural, um chip microprocessador foi produzido. O que é mais digno de nota é que, com a ajuda do ChatGPT, este componente do chip não é apenas projetado, mas também pode ser fabricado após testes básicos.
Então, a era da "criação do núcleo" por todo o povo realmente está chegando? Aqui, podemos também dar uma olhada em como os pesquisadores fizeram isso.
A aplicação de modelos grandes de IA, o campo de hardware fica atrás do software
No artigo, os pesquisadores apontaram que o design de hardware moderno começa com as especificações fornecidas pela linguagem natural, como requisitos de documentos em inglês, e depois os engenheiros de hardware usam linguagens de descrição de hardware (HDL), como Verilog, para construir os requisitos com código para complete o design interno do chip e, finalmente, sintetizado em componentes do circuito.
Bem, quando a era do AIGC está chegando, como o ChatGPT da OpenAI e o Bard do Google afirmam ser capazes de gerar código, e muitos desenvolvedores os usaram para criar um site após o outro, mas o escopo atual do aplicativo é focado principalmente no campo do software . , se essas ferramentas AIGC podem substituir o trabalho de "tradução" (conversão de requisitos de documentos em código) dos engenheiros de hardware.
Com base nisso, os pesquisadores usaram oito benchmarks representativos para investigar as capacidades e limitações dos LLMs de última geração ao gerar a escrita da própria linguagem de descrição de hardware.
No experimento, os pesquisadores usaram o ChatGPT como um reconhecedor de padrões (agindo como um ser humano), que pode ser convertido livremente em vários tipos de idiomas (oral, escrito). Ao mesmo tempo, o ChatGPT permite que os engenheiros de hardware pulem o Estágio HDL.
O processo de verificação geral é mostrado na figura abaixo:
Se um design não atender às especificações, ele será gerado mais cinco vezes com o mesmo prompt. Se ainda não atender à especificação, falhará.
Uma vez escritos os projetos e os casos de teste, eles são compilados com o Icarus Verilog (iverilog, uma das ferramentas de implementação da linguagem de descrição de hardware Verilog). Se a compilação for bem-sucedida, a simulação é executada. Se nenhum erro for reportado, o projeto passa, No Feedback Required (NFN).
Se qualquer uma dessas operações relatar erros, elas são realimentadas no modelo e solicitadas a "fornecer uma correção", o que é chamado de feedback da ferramenta (TF). Se o mesmo erro ou tipo de erro ocorrer três vezes, Simple Human Feedback (SHF) é dado pelo usuário, geralmente informando que tipo de problema no Verilog causou o erro (ex: erro de sintaxe em uma declaração).
O Feedback Humano Moderado (MHF) é fornecido se o erro persistir e informações um pouco mais diretas são fornecidas à ferramenta para identificar o erro específico.
Se o bug persistir, é fornecido um Feedback Humano Avançado (AHF), que se baseia em identificar exatamente onde está o bug e como corrigi-lo.
Depois que o projeto é compilado e simulado, sem casos de teste falhos, ele é considerado bem-sucedido.
Mas se o feedback de alto nível não corrigir o bug, ou se o usuário precisar escrever qualquer código Verilog para resolver o bug, o teste será considerado falhado. O teste também é considerado reprovado se a sessão exceder 25 mensagens, atendendo ao limite de taxa OpenAI de mensagens ChatGPT-4 por 3 horas.
Bard e HuggingChat travaram na primeira rodada de testes
No experimento específico, os pesquisadores realizaram um teste de benchmark para um registrador de deslocamento de 8 bits.
Eles pedem ao grande modelo para tentar criar um modelo Verilog para um "nome de teste", então fornecem a especificação, definindo as portas de entrada e saída e quaisquer outros detalhes necessários, e ainda perguntam ao grande modelo "Como eu escreveria um projeto para atender a essas especificações? "
Você pode escrever um testbench Verilog para este projeto? O testbench deve ter recursos de autoteste e ser capaz de ser usado com o irilog para simulação e verificação. Se um caso de teste falhar, o banco de testes deve ser capaz de fornecer informações suficientes para que o erro seja encontrado e resolvido.
Dado o baixo desempenho de Bard e HuggingChat nos prompts iniciais do desafio, os pesquisadores decidiram prosseguir com testes completos apenas no ChatGPT-4 e ChatGPT-3.5.
Competição ChatGPT-4 e ChatGPT-3.5
A figura abaixo mostra os resultados do benchmark do ChatGPT-4 e do ChatGPT-3.5. É óbvio que o desempenho do ChatGPT-3.5 é um pouco pior do que o do ChatGPT-4. As conversas são todas incompatíveis.
Em contraste, o ChatGPT-4 teve um desempenho ainda melhor, passando na maioria dos benchmarks, a maioria dos quais exigia apenas feedback da ferramenta. No projeto de bancada de teste, no entanto, o feedback humano ainda é necessário.
Para explorar o potencial do LLM, os pesquisadores também combinaram engenheiros de design de hardware com o ChatGPT-4 para projetar um microprocessador baseado em acumulador de 8 bits.
O prompt inicial para ChatGPT-4 é assim:
Vamos fazer todo um novo projeto de microprocessador juntos... Acho que precisamos nos limitar a uma arquitetura de 8 bits de acumulador, sem instruções de vários bytes. Sendo esse o caso, como você acha que devemos começar?
Por fim, o ChatGPT-4 trabalhou com engenheiros de hardware para projetar uma nova arquitetura de microprocessador baseada em acumulador de 8 bits. O processador é construído em um processo Skywater 130nm, o que significa que esses "Chip-Chats" implementam o que acreditamos ser o primeiro HDL gravado inteiramente por inteligência artificial.
No artigo, os pesquisadores concluíram que o ChatGPT-4 produziu código de qualidade relativamente alta, conforme evidenciado pelo curto tempo de validação. Considerando o limite de taxa do ChatGPT-4 de 25 mensagens a cada 3 horas, o orçamento de tempo total para esse design é de 22,8 horas de ChatGPT-4 (incluindo a reinicialização). A geração real de cada mensagem durou em média cerca de 30 segundos: sem limitação de taxa, todo o projeto poderia ter sido concluído em menos de 100 minutos, dependendo do engenheiro humano. Embora o ChatGPT-4 tenha gerado o Python assembler com relativa facilidade, foi difícil escrever programas para nosso projeto, e o ChatGPT não escreveu nenhum programa de teste significativo.
No geral, os pesquisadores executaram todas as 24 instruções em uma série abrangente de programas montadores escritos por humanos avaliados em simulação e simulação de FPGA.
ChatGPT pode salvar o ciclo de desenvolvimento do chip
"Esta pesquisa produziu o que acreditamos ser o primeiro HDL totalmente gerado por IA para a fabricação de chips físicos", disse o Dr. Hammond Pearce, professor assistente de pesquisa na NYU Tandon e membro da equipe de pesquisa. "Alguns modelos de inteligência artificial, como o ChatGPT da OpenAI e o Bard do Google, podem gerar código de software em diferentes linguagens de programação, mas seu uso no design de hardware não foi amplamente estudado. Este estudo mostra que a IA também pode beneficiar a fabricação de hardware, especialmente quando é usado na conversa que você pode ir e voltar para refinar o design.”
Ao longo do caminho, no entanto, os pesquisadores também precisam testar e abordar as considerações de segurança envolvidas no uso de IA para o design de chips.
No geral, embora o ChatGPT não seja uma ferramenta de software automatizada especificamente para o campo de hardware, ele pode se tornar uma ferramenta auxiliar de EDA e ajudar os designers de EDA a reduzir bastante o limite de conhecimento.
Os pesquisadores também dizem que, se implementado em um ambiente do mundo real, o uso de modelos LLM na fabricação de chips pode reduzir o erro humano durante a conversão HDL, ajudar a melhorar a produtividade, reduzir o tempo de design e o tempo de lançamento no mercado e permitir designs mais criativos. . Na verdade, só por isso, o ChatGPT é digno de ser usado por engenheiros de hardware para participar de mais tentativas e explorações no campo do hardware.
Para um processo de teste mais detalhado, consulte o artigo:
referência: