Fonte original: Yuanchuan Science and Technology Review
Fonte da imagem: Gerado por Unbounded AI
No mês passado, uma "guerra animal" eclodiu na indústria de IA.
De um lado está o Llama (llama) da Meta, que tem sido historicamente popular entre a comunidade de desenvolvedores devido à sua natureza de código aberto. Depois de estudar cuidadosamente o papel Llama e o código-fonte, a NEC rapidamente "desenvolveu de forma independente" a versão japonesa do ChatGPT, ajudando o Japão a resolver o problema do pescoço da IA.
**Do outro lado está um grande modelo chamado Falcon (Falcão). **Em maio deste ano, o Falcon-40B foi lançado, batendo a lhama para o "Open Source LLM (Large Language Model) Ranking".
A lista, produzida pela Hugging face, uma comunidade de modelos de código aberto, fornece um conjunto de critérios para medir as capacidades do LLM e as classifica. A tabela de classificação é basicamente Llama e Falcon se revezando rolando pelos gráficos.
Após o lançamento de Llama 2, a família lhama retomou uma cidade; Mas no início de setembro, a Falcon lançou a versão 180B, mais uma vez alcançando classificações mais altas.
Falcão esmagou Llama 2 com 68,74 pontos
Curiosamente, o desenvolvedor do "Falcon" não é uma empresa de tecnologia, mas o Instituto de Ciência e Inovação Tecnológica com sede em Abu Dhabi, capital dos Emirados Árabes Unidos. Fontes do governo disseram: "Estamos envolvidos neste jogo para subverter os principais atores".[4] 。
No dia seguinte ao lançamento da versão 180B, o ministro da Inteligência Artificial dos Emirados Árabes Unidos, Omar, foi selecionado como uma das "100 pessoas mais influentes no campo da IA" pela revista Time; Junto com este rosto do Oriente Médio estavam o "Padrinho da IA" Hinton, Altman da OpenAI e Robin Li.
Ministro da Inteligência Artificial dos Emirados Árabes Unidos
Hoje, o campo da IA já entrou na fase da "dança de grupo": todos os países e empresas com um pouco de recursos financeiros têm mais ou menos planos para criar uma "XX versão nacional do ChatGPT". Há mais de um player apenas nos círculos do Golfo – a Arábia Saudita acabou de comprar mais de 3.000 H100 para suas universidades em agosto para treinar LLM.
Zhu Xiaohu, um capital de risco da GSR River, queixou-se uma vez no círculo de amigos: "Naquela altura, olhei para baixo na inovação do modelo de negócio (da Internet) e senti que não havia barreiras: uma guerra de cem regimentos, uma guerra de cem carros, uma guerra de cem difusão; Eu não esperava que a tecnologia dura, o empreendedorismo de grandes modelos ainda é uma guerra de cem modelos..."
Como pode a tecnologia dura de alta dificuldade que se diz ser um país produzir 100.000 gatos por mu?
Transformer devora o mundo
Startups americanas, gigantes da tecnologia da China e barões do petróleo do Oriente Médio puderam sonhar com grandes modelos graças ao famoso artigo: "Attention Is All You Need".
Em 2017, 8 cientistas da computação do Google divulgaram o algoritmo Transformer para o mundo neste artigo. Este artigo é atualmente o terceiro mais citado na história da inteligência artificial, e o surgimento do Transformer puxou o gatilho desta rodada de boom da inteligência artificial.
Não importa a nacionalidade, os grandes modelos atuais, incluindo a série GPT que abala o mundo, estão nos ombros do Transformer.
Antes disso, "ensinar máquinas a ler" era um problema acadêmico reconhecido. Diferente do reconhecimento de imagem, quando os seres humanos leem texto, eles não só prestam atenção às palavras e frases que estão vendo atualmente, mas também as entendem no contexto.
Por exemplo, a palavra "Transformer" pode realmente ser traduzida como "Transformer", mas os leitores deste artigo certamente não a entenderão desta forma, porque todos sabem que este não é um artigo sobre filmes de Hollywood. **
No entanto, nos primeiros anos, a entrada de redes neurais eram independentes umas das outras, e elas não tinham a capacidade de entender um grande parágrafo de texto ou mesmo o artigo inteiro, então surgiu o problema de traduzir "sala de água fervente" em "sala de água aberta".
Foi só em 2014 que Ilya Sutskever, um cientista da computação que trabalhou no Google e mais tarde se mudou para a OpenAI, foi o primeiro a produzir resultados. Ele usou redes neurais recorrentes (RNNs) para processar linguagem natural, colocando rapidamente o desempenho do Google Tradutor à frente da concorrência.
O RNN propõe um "design de loop", para que cada neurônio aceite tanto a informação de entrada do momento atual quanto a informação de entrada do momento anterior, para que a rede neural tenha a capacidade de "combinar contexto".
Redes neurais recorrentes
O surgimento de RNNs despertou uma paixão pela pesquisa nos círculos acadêmicos, e Noam Shazeer, o autor do artigo Transformer, também foi viciado nisso. No entanto, os desenvolvedores rapidamente perceberam que os RNNs tinham uma falha grave:
**O algoritmo usa cálculos sequenciais, o que pode resolver o problema do contexto, mas não é eficiente e difícil de lidar com um grande número de parâmetros. **
O design complicado do RNN rapidamente suportou Shazel. Assim, desde 2015, Shazel e 7 amigos vêm desenvolvendo alternativas aos RNNs, e o resultado é o Transformer[8] 。
Noam Shazeer
Em comparação com RNNs, a transformação do Transformer tem dois pontos:
Primeiro, o design de loop de RNNs é substituído por codificação posicional, realizando assim a computação paralela - esta mudança melhora muito a eficiência de treinamento do Transformer, tornando-se assim capaz de processar big data, empurrando a IA para a era dos grandes modelos; Em segundo lugar, a capacidade de reforçar ainda mais o contexto foi reforçada.
Como o Transformer resolveu muitos defeitos de uma só vez, ele gradualmente se tornou a única solução para a PNL (processamento de linguagem natural), que tem um sentido de "Transformer não nasce na natureza, a PNL é como uma longa noite". Até mesmo Ilya abandonou o RNN, que estava segurando o altar com suas próprias mãos, e mudou para Transformer.
Em outras palavras, Transformer é o avô de todos os grandes modelos de hoje, porque ele transformou o grande modelo de um problema de pesquisa teórica em um problema puramente de engenharia. **
[9]O diagrama da árvore de desenvolvimento da tecnologia LLM, a raiz da árvore cinzenta é o Transformer
Em 2019, a OpenAI desenvolveu o GPT-2 baseado no Transformer, o que já surpreendeu o meio acadêmico. Em resposta, o Google rapidamente lançou uma IA mais poderosa chamada Meena.
Em comparação com o GPT-2, o Meena não tem inovação de algoritmo subjacente, mas 8,5 vezes mais parâmetros de treinamento e 14 vezes mais poder de computação do que o GPT-2. Shazel, o autor do artigo Transformer, ficou tão chocado com a "pilha violenta" que escreveu um memorando no local "Meena Devora o Mundo".
O advento do Transformer retardou muito a inovação dos algoritmos subjacentes na academia. Elementos de engenharia como engenharia de dados, escala de poder de computação e arquitetura de modelos têm se tornado cada vez mais vencedores e perdedores importantes na competição de IA, e desde que as empresas de tecnologia com algumas capacidades técnicas possam esfregar um grande modelo à mão.
Portanto, quando o cientista da computação Andrew Ng fez um discurso na Universidade de Stanford, ele mencionou um ponto: "A IA é uma coleção de ferramentas, incluindo aprendizagem supervisionada, aprendizagem não supervisionada, aprendizagem por reforço e, agora, inteligência artificial generativa". Todas estas são tecnologias de uso geral, semelhantes a outras tecnologias de uso geral, como a eletricidade e a Internet.[10] "
A OpenAI ainda é o ponto de referência da LLM, mas a empresa de análise de semicondutores Semi Analysis acredita que a competitividade do GPT-4 vem de soluções de engenharia — se for de código aberto, qualquer concorrente pode se replicar rapidamente.
O analista prevê que pode não demorar muito para que outras grandes empresas de tecnologia possam criar grandes modelos com o mesmo desempenho do GPT-4[11] 。
Fosso construído em vidro
Atualmente, a "guerra dos cem modelos" não é mais um artifício retórico, mas uma realidade objetiva.
Relatórios relevantes mostram que, em julho deste ano, o número de grandes modelos nacionais chegou a 130, acima dos 114 nos Estados Unidos, conseguindo ultrapassar as curvas, e vários mitos e lendas quase não são suficientes para as empresas de tecnologia nacionais tomarem nomes[12] 。
Além da China e dos Estados Unidos, vários países mais ricos também alcançaram inicialmente "um país, um modelo":* * Além do Japão e dos Emirados Árabes Unidos, há também o grande modelo liderado pelo governo indiano Bhashini, a empresa sul-coreana de Internet HyperClova X da Naver e assim por diante. **
A batalha que temos pela frente parece ter regressado à era do pioneirismo na Internet, em que as bolhas e as "capacidades de notas" eram bombardeadas.
Como mencionado anteriormente, o Transformer transforma grandes modelos em problemas puramente de engenharia, desde que alguém tenha dinheiro e placas gráficas, o resto é perdido para parâmetros. No entanto, embora o bilhete de admissão não seja difícil de obter, isso não significa que todos tenham a oportunidade de se tornar uma BAT na era da IA.
A "guerra animal" mencionada no início é um caso típico: embora o Falcon tenha vencido a lhama no ranking, é difícil dizer quanto impacto teve na Meta. **
Como todos sabemos, as empresas abrem os seus próprios resultados de investigação científica, não só para partilhar o bem-estar da ciência e da tecnologia com o público, mas também para mobilizar a sabedoria das pessoas. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas continuam a usar e melhorar o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.
**Para o modelo de código aberto, uma comunidade de desenvolvedores ativa é sua principal competência. **
Já em 2015, quando o AI Lab foi criado, a Meta tinha dado o tom principal do código aberto; Zuckerberg também fez fortuna no negócio das redes sociais, e é bem versado na questão de "fazer um bom trabalho em relações públicas".
Por exemplo, em outubro, a Meta lançou uma campanha "AI Creator Incentive": desenvolvedores que usam o Llama 2 para resolver problemas sociais, como educação e meio ambiente, terão a oportunidade de receber US$ 500.000 em financiamento.
Hoje, a série Llama da Meta é a palheta do LLM de código aberto.
No início de outubro, um total de 8 das 10 principais listas de LLM de código aberto da Hugging face são baseadas no Llama 2 e usam sua licença de código aberto. Só no Hugging face, existem mais de 1.500 LLMs usando o protocolo de código aberto Llama 2[13] 。
Desde o início de outubro, o LLM número um em Hugging face é baseado em Llama 2
Claro, não há problema em melhorar o desempenho como o Falcon, mas até hoje, a maioria dos LLMs no mercado ainda tem uma lacuna de desempenho visível com o GPT-4.
Por exemplo, no outro dia, o GPT-4 liderou o teste do AgentBench com uma pontuação de 4,41. O padrão AgentBench é lançado conjuntamente pela Tsinghua University, The Ohio State University e pela University of California, Berkeley, para avaliar a capacidade de raciocínio e a capacidade de tomada de decisão do LLM em um ambiente multidimensional de geração aberta, incluindo tarefas em 8 ambientes diferentes, como sistema operacional, banco de dados, gráfico de conhecimento e batalha de cartas.
Os resultados do teste mostraram que Claude, que terminou em segundo, teve apenas 2,77 pontos, e a diferença ainda era óbvia. Quanto a esses enormes LLMs de código aberto, suas pontuações de teste giram em torno de 1 ponto, menos de 1/4 do GPT-4[14] 。
Resultados do teste do AgentBench
Você sabe, o GPT-4 foi lançado em março deste ano, o que ainda é o resultado depois que os pares globais alcançaram por mais de meio ano. O que causa essa lacuna é a experiência acumulada pela equipe de cientistas da OpenAI com uma alta "densidade de QI" e LLM de pesquisa de longo prazo, então sempre pode estar muito à frente.
Em outras palavras, a capacidade central do grande modelo não é um parâmetro, mas a construção da ecologia (código aberto) ou da capacidade de raciocínio puro (código fechado). **
À medida que a comunidade de código aberto se torna mais ativa, o desempenho dos LLMs pode convergir porque todos eles estão usando arquiteturas de modelo semelhantes e conjuntos de dados semelhantes.
Outro enigma mais intuitivo: além de Midjourney, nenhum grande modelo parece ganhar dinheiro.
Âncora de Valor
Em agosto deste ano, um curioso artigo intitulado "OpenAI pode ir à falência até o final de 2024" atraiu muita atenção[16] 。 O fio condutor do artigo pode ser resumido quase em uma frase: a queima de dinheiro da OpenAI é muito rápida. **
O artigo mencionou que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI estão se expandindo rapidamente, perdendo cerca de US$ 540 milhões apenas em 2022, e só podem esperar que os investidores da Microsoft paguem.
Embora o título do artigo seja sensacional, ele também conta a situação atual de muitos grandes fornecedores de modelos: ** Há um sério desequilíbrio entre custo e receita. **
O custo é muito alto, resultando na atual dependência de inteligência artificial para ganhar muito dinheiro apenas NVIDIA, no máximo adicionar um Broadcom.
De acordo com a consultoria Omdia, a Nvidia vendeu mais de 300.000 unidades H100 no segundo trimestre deste ano. Este é um chip de IA, a eficiência do treinamento de IA é extremamente alta, e empresas de tecnologia e instituições de pesquisa científica em todo o mundo estão aderindo. Se os 300.000 H100 vendidos fossem empilhados uns sobre os outros, eles pesariam o equivalente a 4,5 aeronaves Boeing 747[18] 。
O desempenho da Nvidia também decolou, subindo 854% na receita anual, o que já chocou Wall Street. A propósito, o preço atual do H100 no mercado de segunda mão foi especulado para US $ 40.000-50.000, mas seu custo de material é de apenas cerca de US $ 3.000.
O alto custo do poder de computação tornou-se, em certa medida, uma resistência ao desenvolvimento da indústria. A Sequoia Capital fez um cálculo: ** as empresas globais de tecnologia devem gastar US$ 200 bilhões por ano na construção de infraestrutura de grandes modelos; Em contraste, modelos grandes só podem gerar até US $ 75 bilhões por ano, com uma lacuna de pelo menos US $ 125 bilhões[17] 。 **
Jensen Huang com H100
Além disso, com algumas exceções, como a Midjourney, a maioria das empresas de software ainda não descobriu como ganhar dinheiro depois de pagar custos enormes. Em particular, os dois principais big brothers da indústria, Microsoft e Adobe, tropeçaram um pouco.
A Microsoft e a OpenAI colaboraram para desenvolver uma ferramenta de geração de código de IA, o GitHub Copilot, que cobra US $ 10 por mês, mas devido ao custo das instalações, a Microsoft perde US $ 20, e usuários pesados podem até fazer com que a Microsoft pague US $ 80 por mês. Com base nesta especulação, o Microsoft 365 Copilot de US $ 30 não é uma perda.
Coincidentemente, a Adobe, que acaba de lançar a ferramenta Firefly AI, também lançou rapidamente um sistema de pontos de suporte para evitar que os usuários a usem pesadamente e façam com que a empresa perca dinheiro. Quando um usuário usa mais do que os créditos alocados a cada mês, a Adobe torna o serviço mais lento.
Você deve saber que a Microsoft e a Adobe já são gigantes de software com cenários de negócios claros e um grande número de usuários pagantes prontos. A maioria dos parâmetros estão empilhados no céu, e o maior cenário de aplicação é o chat.
É inegável que, sem o surgimento da OpenAI e do ChatGPT, essa revolução da IA pode não ter acontecido; Mas, atualmente, o valor da formação de grandes modelos pode ser um ponto de interrogação.
Além disso, à medida que a concorrência de homogeneização se intensifica e há cada vez mais modelos de código aberto no mercado, pode haver menos espaço para fornecedores simples de grandes modelos.
A popularidade do iPhone 4 não é por causa do processador A4 de 45nm, mas porque ele pode jogar Plants vs. Zombies e Angry Birds.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O modelo grande não é um pouco demais?
Fonte original: Yuanchuan Science and Technology Review
No mês passado, uma "guerra animal" eclodiu na indústria de IA.
De um lado está o Llama (llama) da Meta, que tem sido historicamente popular entre a comunidade de desenvolvedores devido à sua natureza de código aberto. Depois de estudar cuidadosamente o papel Llama e o código-fonte, a NEC rapidamente "desenvolveu de forma independente" a versão japonesa do ChatGPT, ajudando o Japão a resolver o problema do pescoço da IA.
**Do outro lado está um grande modelo chamado Falcon (Falcão). **Em maio deste ano, o Falcon-40B foi lançado, batendo a lhama para o "Open Source LLM (Large Language Model) Ranking".
A lista, produzida pela Hugging face, uma comunidade de modelos de código aberto, fornece um conjunto de critérios para medir as capacidades do LLM e as classifica. A tabela de classificação é basicamente Llama e Falcon se revezando rolando pelos gráficos.
Após o lançamento de Llama 2, a família lhama retomou uma cidade; Mas no início de setembro, a Falcon lançou a versão 180B, mais uma vez alcançando classificações mais altas.
Curiosamente, o desenvolvedor do "Falcon" não é uma empresa de tecnologia, mas o Instituto de Ciência e Inovação Tecnológica com sede em Abu Dhabi, capital dos Emirados Árabes Unidos. Fontes do governo disseram: "Estamos envolvidos neste jogo para subverter os principais atores".[4] 。
No dia seguinte ao lançamento da versão 180B, o ministro da Inteligência Artificial dos Emirados Árabes Unidos, Omar, foi selecionado como uma das "100 pessoas mais influentes no campo da IA" pela revista Time; Junto com este rosto do Oriente Médio estavam o "Padrinho da IA" Hinton, Altman da OpenAI e Robin Li.
Hoje, o campo da IA já entrou na fase da "dança de grupo": todos os países e empresas com um pouco de recursos financeiros têm mais ou menos planos para criar uma "XX versão nacional do ChatGPT". Há mais de um player apenas nos círculos do Golfo – a Arábia Saudita acabou de comprar mais de 3.000 H100 para suas universidades em agosto para treinar LLM.
Zhu Xiaohu, um capital de risco da GSR River, queixou-se uma vez no círculo de amigos: "Naquela altura, olhei para baixo na inovação do modelo de negócio (da Internet) e senti que não havia barreiras: uma guerra de cem regimentos, uma guerra de cem carros, uma guerra de cem difusão; Eu não esperava que a tecnologia dura, o empreendedorismo de grandes modelos ainda é uma guerra de cem modelos..."
Como pode a tecnologia dura de alta dificuldade que se diz ser um país produzir 100.000 gatos por mu?
Transformer devora o mundo
Startups americanas, gigantes da tecnologia da China e barões do petróleo do Oriente Médio puderam sonhar com grandes modelos graças ao famoso artigo: "Attention Is All You Need".
Em 2017, 8 cientistas da computação do Google divulgaram o algoritmo Transformer para o mundo neste artigo. Este artigo é atualmente o terceiro mais citado na história da inteligência artificial, e o surgimento do Transformer puxou o gatilho desta rodada de boom da inteligência artificial.
Não importa a nacionalidade, os grandes modelos atuais, incluindo a série GPT que abala o mundo, estão nos ombros do Transformer.
Antes disso, "ensinar máquinas a ler" era um problema acadêmico reconhecido. Diferente do reconhecimento de imagem, quando os seres humanos leem texto, eles não só prestam atenção às palavras e frases que estão vendo atualmente, mas também as entendem no contexto.
Por exemplo, a palavra "Transformer" pode realmente ser traduzida como "Transformer", mas os leitores deste artigo certamente não a entenderão desta forma, porque todos sabem que este não é um artigo sobre filmes de Hollywood. **
No entanto, nos primeiros anos, a entrada de redes neurais eram independentes umas das outras, e elas não tinham a capacidade de entender um grande parágrafo de texto ou mesmo o artigo inteiro, então surgiu o problema de traduzir "sala de água fervente" em "sala de água aberta".
Foi só em 2014 que Ilya Sutskever, um cientista da computação que trabalhou no Google e mais tarde se mudou para a OpenAI, foi o primeiro a produzir resultados. Ele usou redes neurais recorrentes (RNNs) para processar linguagem natural, colocando rapidamente o desempenho do Google Tradutor à frente da concorrência.
O RNN propõe um "design de loop", para que cada neurônio aceite tanto a informação de entrada do momento atual quanto a informação de entrada do momento anterior, para que a rede neural tenha a capacidade de "combinar contexto".
O surgimento de RNNs despertou uma paixão pela pesquisa nos círculos acadêmicos, e Noam Shazeer, o autor do artigo Transformer, também foi viciado nisso. No entanto, os desenvolvedores rapidamente perceberam que os RNNs tinham uma falha grave:
**O algoritmo usa cálculos sequenciais, o que pode resolver o problema do contexto, mas não é eficiente e difícil de lidar com um grande número de parâmetros. **
O design complicado do RNN rapidamente suportou Shazel. Assim, desde 2015, Shazel e 7 amigos vêm desenvolvendo alternativas aos RNNs, e o resultado é o Transformer[8] 。
Em comparação com RNNs, a transformação do Transformer tem dois pontos:
Primeiro, o design de loop de RNNs é substituído por codificação posicional, realizando assim a computação paralela - esta mudança melhora muito a eficiência de treinamento do Transformer, tornando-se assim capaz de processar big data, empurrando a IA para a era dos grandes modelos; Em segundo lugar, a capacidade de reforçar ainda mais o contexto foi reforçada.
Como o Transformer resolveu muitos defeitos de uma só vez, ele gradualmente se tornou a única solução para a PNL (processamento de linguagem natural), que tem um sentido de "Transformer não nasce na natureza, a PNL é como uma longa noite". Até mesmo Ilya abandonou o RNN, que estava segurando o altar com suas próprias mãos, e mudou para Transformer.
Em outras palavras, Transformer é o avô de todos os grandes modelos de hoje, porque ele transformou o grande modelo de um problema de pesquisa teórica em um problema puramente de engenharia. **
Em 2019, a OpenAI desenvolveu o GPT-2 baseado no Transformer, o que já surpreendeu o meio acadêmico. Em resposta, o Google rapidamente lançou uma IA mais poderosa chamada Meena.
Em comparação com o GPT-2, o Meena não tem inovação de algoritmo subjacente, mas 8,5 vezes mais parâmetros de treinamento e 14 vezes mais poder de computação do que o GPT-2. Shazel, o autor do artigo Transformer, ficou tão chocado com a "pilha violenta" que escreveu um memorando no local "Meena Devora o Mundo".
O advento do Transformer retardou muito a inovação dos algoritmos subjacentes na academia. Elementos de engenharia como engenharia de dados, escala de poder de computação e arquitetura de modelos têm se tornado cada vez mais vencedores e perdedores importantes na competição de IA, e desde que as empresas de tecnologia com algumas capacidades técnicas possam esfregar um grande modelo à mão.
Portanto, quando o cientista da computação Andrew Ng fez um discurso na Universidade de Stanford, ele mencionou um ponto: "A IA é uma coleção de ferramentas, incluindo aprendizagem supervisionada, aprendizagem não supervisionada, aprendizagem por reforço e, agora, inteligência artificial generativa". Todas estas são tecnologias de uso geral, semelhantes a outras tecnologias de uso geral, como a eletricidade e a Internet.[10] "
A OpenAI ainda é o ponto de referência da LLM, mas a empresa de análise de semicondutores Semi Analysis acredita que a competitividade do GPT-4 vem de soluções de engenharia — se for de código aberto, qualquer concorrente pode se replicar rapidamente.
O analista prevê que pode não demorar muito para que outras grandes empresas de tecnologia possam criar grandes modelos com o mesmo desempenho do GPT-4[11] 。
Fosso construído em vidro
Atualmente, a "guerra dos cem modelos" não é mais um artifício retórico, mas uma realidade objetiva.
Relatórios relevantes mostram que, em julho deste ano, o número de grandes modelos nacionais chegou a 130, acima dos 114 nos Estados Unidos, conseguindo ultrapassar as curvas, e vários mitos e lendas quase não são suficientes para as empresas de tecnologia nacionais tomarem nomes[12] 。
Além da China e dos Estados Unidos, vários países mais ricos também alcançaram inicialmente "um país, um modelo":* * Além do Japão e dos Emirados Árabes Unidos, há também o grande modelo liderado pelo governo indiano Bhashini, a empresa sul-coreana de Internet HyperClova X da Naver e assim por diante. **
A batalha que temos pela frente parece ter regressado à era do pioneirismo na Internet, em que as bolhas e as "capacidades de notas" eram bombardeadas.
Como mencionado anteriormente, o Transformer transforma grandes modelos em problemas puramente de engenharia, desde que alguém tenha dinheiro e placas gráficas, o resto é perdido para parâmetros. No entanto, embora o bilhete de admissão não seja difícil de obter, isso não significa que todos tenham a oportunidade de se tornar uma BAT na era da IA.
A "guerra animal" mencionada no início é um caso típico: embora o Falcon tenha vencido a lhama no ranking, é difícil dizer quanto impacto teve na Meta. **
Como todos sabemos, as empresas abrem os seus próprios resultados de investigação científica, não só para partilhar o bem-estar da ciência e da tecnologia com o público, mas também para mobilizar a sabedoria das pessoas. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas continuam a usar e melhorar o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.
**Para o modelo de código aberto, uma comunidade de desenvolvedores ativa é sua principal competência. **
Já em 2015, quando o AI Lab foi criado, a Meta tinha dado o tom principal do código aberto; Zuckerberg também fez fortuna no negócio das redes sociais, e é bem versado na questão de "fazer um bom trabalho em relações públicas".
Por exemplo, em outubro, a Meta lançou uma campanha "AI Creator Incentive": desenvolvedores que usam o Llama 2 para resolver problemas sociais, como educação e meio ambiente, terão a oportunidade de receber US$ 500.000 em financiamento.
Hoje, a série Llama da Meta é a palheta do LLM de código aberto.
No início de outubro, um total de 8 das 10 principais listas de LLM de código aberto da Hugging face são baseadas no Llama 2 e usam sua licença de código aberto. Só no Hugging face, existem mais de 1.500 LLMs usando o protocolo de código aberto Llama 2[13] 。
Claro, não há problema em melhorar o desempenho como o Falcon, mas até hoje, a maioria dos LLMs no mercado ainda tem uma lacuna de desempenho visível com o GPT-4.
Por exemplo, no outro dia, o GPT-4 liderou o teste do AgentBench com uma pontuação de 4,41. O padrão AgentBench é lançado conjuntamente pela Tsinghua University, The Ohio State University e pela University of California, Berkeley, para avaliar a capacidade de raciocínio e a capacidade de tomada de decisão do LLM em um ambiente multidimensional de geração aberta, incluindo tarefas em 8 ambientes diferentes, como sistema operacional, banco de dados, gráfico de conhecimento e batalha de cartas.
Os resultados do teste mostraram que Claude, que terminou em segundo, teve apenas 2,77 pontos, e a diferença ainda era óbvia. Quanto a esses enormes LLMs de código aberto, suas pontuações de teste giram em torno de 1 ponto, menos de 1/4 do GPT-4[14] 。
Você sabe, o GPT-4 foi lançado em março deste ano, o que ainda é o resultado depois que os pares globais alcançaram por mais de meio ano. O que causa essa lacuna é a experiência acumulada pela equipe de cientistas da OpenAI com uma alta "densidade de QI" e LLM de pesquisa de longo prazo, então sempre pode estar muito à frente.
Em outras palavras, a capacidade central do grande modelo não é um parâmetro, mas a construção da ecologia (código aberto) ou da capacidade de raciocínio puro (código fechado). **
À medida que a comunidade de código aberto se torna mais ativa, o desempenho dos LLMs pode convergir porque todos eles estão usando arquiteturas de modelo semelhantes e conjuntos de dados semelhantes.
Outro enigma mais intuitivo: além de Midjourney, nenhum grande modelo parece ganhar dinheiro.
Âncora de Valor
Em agosto deste ano, um curioso artigo intitulado "OpenAI pode ir à falência até o final de 2024" atraiu muita atenção[16] 。 O fio condutor do artigo pode ser resumido quase em uma frase: a queima de dinheiro da OpenAI é muito rápida. **
O artigo mencionou que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI estão se expandindo rapidamente, perdendo cerca de US$ 540 milhões apenas em 2022, e só podem esperar que os investidores da Microsoft paguem.
Embora o título do artigo seja sensacional, ele também conta a situação atual de muitos grandes fornecedores de modelos: ** Há um sério desequilíbrio entre custo e receita. **
O custo é muito alto, resultando na atual dependência de inteligência artificial para ganhar muito dinheiro apenas NVIDIA, no máximo adicionar um Broadcom.
De acordo com a consultoria Omdia, a Nvidia vendeu mais de 300.000 unidades H100 no segundo trimestre deste ano. Este é um chip de IA, a eficiência do treinamento de IA é extremamente alta, e empresas de tecnologia e instituições de pesquisa científica em todo o mundo estão aderindo. Se os 300.000 H100 vendidos fossem empilhados uns sobre os outros, eles pesariam o equivalente a 4,5 aeronaves Boeing 747[18] 。
O desempenho da Nvidia também decolou, subindo 854% na receita anual, o que já chocou Wall Street. A propósito, o preço atual do H100 no mercado de segunda mão foi especulado para US $ 40.000-50.000, mas seu custo de material é de apenas cerca de US $ 3.000.
O alto custo do poder de computação tornou-se, em certa medida, uma resistência ao desenvolvimento da indústria. A Sequoia Capital fez um cálculo: ** as empresas globais de tecnologia devem gastar US$ 200 bilhões por ano na construção de infraestrutura de grandes modelos; Em contraste, modelos grandes só podem gerar até US $ 75 bilhões por ano, com uma lacuna de pelo menos US $ 125 bilhões[17] 。 **
Além disso, com algumas exceções, como a Midjourney, a maioria das empresas de software ainda não descobriu como ganhar dinheiro depois de pagar custos enormes. Em particular, os dois principais big brothers da indústria, Microsoft e Adobe, tropeçaram um pouco.
A Microsoft e a OpenAI colaboraram para desenvolver uma ferramenta de geração de código de IA, o GitHub Copilot, que cobra US $ 10 por mês, mas devido ao custo das instalações, a Microsoft perde US $ 20, e usuários pesados podem até fazer com que a Microsoft pague US $ 80 por mês. Com base nesta especulação, o Microsoft 365 Copilot de US $ 30 não é uma perda.
Coincidentemente, a Adobe, que acaba de lançar a ferramenta Firefly AI, também lançou rapidamente um sistema de pontos de suporte para evitar que os usuários a usem pesadamente e façam com que a empresa perca dinheiro. Quando um usuário usa mais do que os créditos alocados a cada mês, a Adobe torna o serviço mais lento.
Você deve saber que a Microsoft e a Adobe já são gigantes de software com cenários de negócios claros e um grande número de usuários pagantes prontos. A maioria dos parâmetros estão empilhados no céu, e o maior cenário de aplicação é o chat.
É inegável que, sem o surgimento da OpenAI e do ChatGPT, essa revolução da IA pode não ter acontecido; Mas, atualmente, o valor da formação de grandes modelos pode ser um ponto de interrogação.
Além disso, à medida que a concorrência de homogeneização se intensifica e há cada vez mais modelos de código aberto no mercado, pode haver menos espaço para fornecedores simples de grandes modelos.
A popularidade do iPhone 4 não é por causa do processador A4 de 45nm, mas porque ele pode jogar Plants vs. Zombies e Angry Birds.