O sexto aniversário do Transformer: nem mesmo o NeurIPS Oral foi obtido, e 8 autores fundaram vários unicórnios de IA

Algumas pessoas aderiram à OpenAI, outras fundaram startups e outras aderiram à IA do Google. Foram eles que começaram juntos a era atual do desenvolvimento da IA.

Do ChatGPT à tecnologia de desenho AI, a recente onda de avanços no campo da inteligência artificial pode ser graças ao Transformer.

Hoje marca o sexto aniversário da apresentação do famoso papel do transformador.

Link do papel:

Seis anos atrás, um papel com um nome exagerado foi carregado na plataforma de papel pré-impresso arXiv. A frase "xx é tudo que você precisa" foi repetida por desenvolvedores na área de IA e até se tornou uma tendência no título do paper. , e Transformer não é mais o significado de Transformers, agora representa a tecnologia mais avançada no campo da IA.

Seis anos depois, olhando para este artigo daquele ano, podemos encontrar muitos lugares interessantes ou pouco conhecidos, conforme resumido por Jim Fan, um cientista de IA da Nvidia.

## ** "Mecanismo de Atenção" não é proposto pelo autor de Transformer**

O modelo Transformer abandona as tradicionais unidades CNN e RNN, e toda a estrutura da rede é composta inteiramente por mecanismos de atenção.

Embora o nome do artigo do Transformer seja "Atenção é tudo o que você precisa", continuamos a promover o mecanismo de atenção por causa disso, mas observe um fato interessante: não foram os pesquisadores do Transformer que inventaram a atenção, mas eles colocaram isso em prática. mecanismo é levado ao extremo.

O Mecanismo de Atenção foi proposto por uma equipe liderada pelo pioneiro da aprendizagem profunda Yoshua Bengio em 2014:

* "Neural Machine Translation by Joint Learning to Alinhar e Traduzir", o título é relativamente simples. *

Neste artigo do ICLR 2015, Bengio e outros propuseram uma combinação de RNN + "vetor de contexto" (ou seja, atenção). Embora seja um dos maiores marcos da PNL, é muito menos conhecido do que o Transformer, com o artigo da equipe de Bengio tendo sido citado 29.000 vezes até o momento, e o do Transformer 77.000.

O mecanismo de atenção da IA é naturalmente modelado na atenção visual humana. Existe uma habilidade inata no cérebro humano: quando olhamos para uma imagem, primeiro examinamos rapidamente a imagem e, em seguida, bloqueamos a área-alvo que precisa ser focada.

Se você não abrir mão de nenhuma informação local, inevitavelmente fará muito trabalho inútil, o que não favorece a sobrevivência. Da mesma forma, a introdução de mecanismos semelhantes em redes de aprendizado profundo pode simplificar modelos e acelerar a computação. Em essência, Atenção é filtrar uma pequena quantidade de informações importantes de uma grande quantidade de informações e focar nessas informações importantes, ignorando a maioria das informações sem importância.

Nos últimos anos, o mecanismo de atenção tem sido amplamente utilizado em vários campos do aprendizado profundo, como na visão computacional para capturar campos receptivos em imagens ou no NLP para localizar tokens ou recursos importantes. Um grande número de experimentos provou que o modelo com o mecanismo de atenção alcançou melhorias significativas de desempenho em tarefas como classificação, segmentação, rastreamento, aprimoramento e reconhecimento de linguagem natural, compreensão, resposta a perguntas e tradução de imagens.

O modelo Transformer que introduz o mecanismo de atenção pode ser considerado como um computador de sequência de uso geral. O mecanismo de atenção permite que o modelo atribua diferentes pesos de atenção de acordo com a correlação de diferentes posições na sequência ao processar a sequência de entrada. Ele permite que o Transformer capturar dependências de longa distância e informações de contexto, melhorando assim o efeito do processamento de sequência.

Mas naquele ano, nem o Transformer nem o artigo de atenção original falavam sobre um computador sequencial de uso geral. Em vez disso, os autores o veem como um mecanismo para resolver um problema estreito e específico - a tradução automática. Portanto, quando rastrearmos a origem do AGI no futuro, poderemos rastreá-lo até o "imperceptível" Google Tradutor.

Apesar de ter sido aceito pelo NeurIPS 2017, não ganhou nem Oral

Embora o artigo do Transformer seja muito influente agora, ele nem ganhou um Oral, muito menos um prêmio, na principal conferência de IA do mundo, NeurIPS 2017. A conferência recebeu um total de 3.240 trabalhos enviados naquele ano, dos quais 678 foram selecionados como artigos de conferência. O artigo Transformer foi um dos artigos aceitos. Entre esses artigos, 40 eram Oral papers, 112 eram Spotlight papers e 3 eram os melhores Papers, um prêmio de teste de tempo, Transformer perdeu o prêmio.

Embora tenha perdido o prêmio de papel NeurIPS 2017, a influência do Transformer é óbvia para todos.

Jim Fan comentou: Não é culpa dos juízes que seja difícil para as pessoas perceberem a importância de um estudo influente antes que ele se torne influente. No entanto, também existem trabalhos que tiveram a sorte de serem descobertos em primeiro lugar. Por exemplo, ResNet proposto por He Kaiming e outros ganhou o melhor artigo do CVPR 2016. Esta pesquisa é merecida e foi corretamente reconhecida por o Encontro de IA. Mas, no momento, em 2017, pesquisadores muito inteligentes podem não ser capazes de prever as mudanças trazidas pelo LLM agora. Assim como na década de 1980, poucas pessoas poderiam prever o tsunami causado pelo aprendizado profundo desde 2012.

## Oito autores, suas vidas são maravilhosas

Naquela época, havia 8 autores deste artigo, eles eram do Google e da Universidade de Toronto. Cinco anos depois, a maioria dos autores do artigo deixou a instituição original.

Em 26 de abril de 2022, uma empresa chamada "Adept" foi oficialmente estabelecida, com 9 cofundadores, incluindo os dois autores do artigo Transformer, Ashish Vaswani e Niki Parmar.

Ashish Vaswani recebeu um Ph.D. da University of Southern California, sob a tutela dos estudiosos chineses David Chiang e Liang Huang, e pesquisou principalmente a aplicação inicial do aprendizado profundo moderno na modelagem de linguagem. Em 2016, ingressou no Google Brain e liderou a pesquisa Transformer, deixando o Google em 2021.

Niki Parmar formou-se na University of Southern California com mestrado e ingressou no Google em 2016. Durante seu trabalho, ela desenvolveu alguns modelos bem-sucedidos de resposta a perguntas e similaridade de texto para pesquisa e publicidade do Google. Ela liderou o trabalho inicial de extensão do modelo Transformer para geração de imagens, visão computacional e muito mais. Em 2021, ela também deixará o Google.

Depois de sair, os dois co-fundaram a Adept e atuaram como Cientista Chefe (Ashish Vaswani) e Diretor de Tecnologia (Niki Parmar), respectivamente. A visão da Adept é criar uma IA chamada de "colega de equipe de inteligência artificial" treinada para usar uma variedade de ferramentas de software e APIs diferentes.

Em março de 2023, a Adept anunciou a conclusão de uma rodada de financiamento de US$ 350 milhões da Série B. A avaliação da empresa ultrapassou US$ 1 bilhão e foi promovida a unicórnio. No entanto, quando a Adept levantou seu financiamento público, Niki Parmar e Ashish Vaswani deixaram a Adept para iniciar sua própria startup de IA. No entanto, a nova empresa está atualmente em sigilo e não temos acesso aos detalhes da empresa.

Outro autor do artigo, Noam Shazeer, foi um dos primeiros funcionários mais importantes do Google. Ele ingressou no Google no final de 2000, até finalmente sair em 2021, e então se tornou o CEO de uma empresa iniciante chamada "Character.AI".

Além de Noam Shazeer, o fundador da Character.AI é Daniel De Freitas, ambos da equipe LaMDA do Google. Anteriormente, eles construíram o LaMDA, um modelo de linguagem que oferece suporte a programas de conversação, no Google.

Em março deste ano, a Character.AI anunciou a conclusão de um financiamento de 150 milhões de dólares americanos, com avaliação de 1 bilhão de dólares americanos, sendo uma das poucas start-ups com potencial para competir com a OpenAI, a agência do ChatGPT, e também é raro crescer em apenas 16 meses.Para empresas unicórnios. Seu aplicativo, Character.AI, é um chatbot de modelo de linguagem neural que pode gerar respostas de texto semelhantes às humanas e se envolver em conversas contextuais.

Character.AI foi lançado na Apple App Store e na Google Play Store em 23 de maio de 2023, com mais de 1,7 milhão de downloads na primeira semana. Em maio de 2023, o serviço adicionou uma assinatura paga de $ 9,99 por mês chamada c.ai +, que permite aos usuários acesso prioritário ao chat, tempos de resposta mais rápidos e acesso antecipado a novos recursos, entre outras vantagens.

Aidan N. Gomez deixou o Google em 2019, depois trabalhou como pesquisador na FOR.ai e agora é cofundador e CEO da Cohere.

A Cohere é uma startup de IA generativa fundada em 2019. Seu principal negócio inclui fornecer modelos de NLP e ajudar empresas a melhorar a interação humano-computador. Os três fundadores são Ivan Zhang, Nick Frosst e Aidan Gomez, onde Gomez e Frosst são ex-membros da equipe do Google Brain. Em novembro de 2021, o Google Cloud anunciou que cooperará com o Cohere, o Google Cloud usará sua poderosa infraestrutura para alimentar a plataforma Cohere e o Cohere usará o TPU da Cloud para desenvolver e implantar seus produtos.

Notavelmente, a Cohere acabou de levantar US$ 270 milhões em financiamento da Série C, tornando-se um unicórnio de US$ 2,2 bilhões.

Łukasz Kaiser deixou o Google em 2021, trabalhou no Google por 7 anos e 9 meses e agora é pesquisador da OpenAI. Durante seu tempo como cientista pesquisador no Google, ele participou do projeto de modelos neurais SOTA para tradução automática, análise e outras tarefas algorítmicas e generativas, e foi coautor do sistema TensorFlow, biblioteca Tensor2Tensor.

Jakob Uszkoreit deixou o Google em 2021 e trabalhou no Google por 13 anos antes de ingressar na Inceptive como cofundador. A Inceptive é uma empresa farmacêutica de IA dedicada ao uso de aprendizado profundo para projetar medicamentos de RNA.

Enquanto estava no Google, Jakob Uszkoreit ajudou a construir a equipe de compreensão de idiomas para o Google Assistant e trabalhou no Google Tradutor desde o início.

Illia Polosukhin deixou o Google em 2017 e agora é cofundadora e CTO da NEAR.AI (uma empresa de tecnologia subjacente de blockchain).

O único que ainda está no Google é Llion Jones, este ano é seu nono ano trabalhando no Google.

Agora, 6 anos se passaram desde a publicação do artigo "Atenção é tudo que você precisa". Alguns dos autores originais optaram por sair e alguns optaram por permanecer no Google. De qualquer forma, a influência do Transformer continua.

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate.io
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)