Quais otimizações e inovações serão trazidas quando o grande modelo entrar no 2.0

Texto original: The Paper, autor: Che Xingyun

Fonte da imagem: Gerada por Unbounded AI‌

Em junho deste ano, os principais fabricantes atualizaram seus produtos semelhantes ao ChatGPT. Em 9 de junho, Xunfei lançou uma versão atualizada do Xinghuo Cognitive Big Model; em 13 de junho, depois de lançar o produto semelhante ao ChatGPT, a 360 realizou novamente a 360 Smart Brain Big Model Application Conference.

Diferente dos grandes modelos lançados em fevereiro, os produtos atualizados lançados por várias empresas recentemente são mais voltados para a camada de aplicativos e o objetivo é facilitar para milhares de famílias.

A julgar pela versão atual, o 360 Intellectual Brain inicialmente possuía recursos de geração multimodal. Além de gerar texto, tabelas e imagens a partir de texto; gerar texto e imagens a partir de imagens e gerar texto a partir de vídeos e cortar vídeos a partir de textos e outras criações básicas Além disso, também redefine o "humano digital" para dar aos usuários uma "inteligência artificial" personalizável e exclusiva que "tem uma alma, um design humano e uma memória".

Atualmente, o cenário de aplicação com a distância mais próxima entre o 360 Smart Brain e os usuários é o balde da família existente do 360. Zhou Hongyi disse na coletiva de imprensa que "360 Smart Brain 4.0" será conectado ao 360 Security Guard, 360 Browser, 360 Search, etc. Colaboração homem-máquina.

Na coletiva de imprensa, Zhou Hongyi mudou seu ponto de vista anterior: "Uma vez eu disse que a diferença entre o modelo doméstico de grande escala e o ChatGPT é de dois anos, e agora quero retirar essa frase". com GPT3.5, e se ele se desenvolver nessa velocidade, alcançará ou até ultrapassará o GPT4 em um piscar de olhos.

Dentro de quatro meses desde o lançamento da versão inicial até o lançamento oficial do 360 Smart Brain, Zhou Hongyi viu uma mudança tão grande?

Gigante da ciência e tecnologia caçando modelo grande

O "Relatório de pesquisa sobre o mapa de modelos em grande escala de inteligência artificial da China", divulgado no Fórum Zhongguancun de 2023, mostra que, atualmente, os modelos de grande escala de inteligência artificial da China estão mostrando uma tendência de desenvolvimento vigoroso. De acordo com estatísticas incompletas, até agora, 79 modelos de grande escala com parâmetros de mais de 1 bilhão foram lançados em todo o país.

No entanto, os parâmetros dos modelos de grande escala das principais empresas de tecnologia são relativamente grandes: os parâmetros do modelo grande Alibaba Tongyi Qianwen estão acima de 10 trilhões, os parâmetros do modelo grande Tencent Hunyuan e o modelo grande Pangu da Huawei estão todos acima de um trilhão , e o grande modelo do Baidu Wenxin tem parâmetros de mais de um trilhão. O volume do parâmetro do modelo em grande escala é superior a 200 bilhões, e o volume do parâmetro do modelo grande JD Yanxi é de 100 bilhões; o volume do parâmetro de empresas de tecnologia em indústrias verticais é geralmente mais de 100 bilhões, e o volume do parâmetro do grande modelo de instituições de pesquisa científica no nível de cem bilhões e abaixo.

Do ponto de vista do sistema de layout do modelo grande, as principais empresas de tecnologia realizaram um layout abrangente quatro em um na camada de poder de computação, camada de plataforma, camada de modelo e camada de aplicativo. Baidu, Ali e Huawei têm um layout abrangente de pesquisa e desenvolvimento independente, de chips a aplicativos, como o "núcleo Kunlun + plataforma de remo voador + modelo grande Wenxin + aplicativo da indústria" do "Chip Hanguang 800 + base M6-OFA" do Baidu + Modelo grande Tongyi + aplicação industrial", "chip Shengteng + estrutura MindSpore + modelo grande Pangu + aplicação industrial" da Huawei.

Além disso, o Kingsoft Office também lançou o WPS AI em 31 de maio. No momento, o WPSAI foi conectado aos componentes de escritório do Kingsoft Office, como documentos leves, texto, tabelas, apresentações e PDFs. No futuro, ele será a âncora do AIGC, compreensão de leitura , perguntas e respostas e interação humano-computador, desenvolvimento em uma direção estratégica e acesso à linha completa de produtos Kingsoft Office.

O rápido afluxo de vários grandes fabricantes para esta faixa é principalmente devido ao rápido acompanhamento e introdução de medidas pelas autoridades reguladoras para regular o desenvolvimento da indústria. Com a escolta da estrutura de alto nível, cada grande fabricante pode naturalmente investir em pesquisa e desenvolvimento e lançar produtos com confiança.

Desde que o modelo em grande escala foi lançado em lotes em março deste ano, as políticas regulatórias de IA tornaram-se gradualmente claras, o que também apontou a direção para aplicações da indústria.

Olhando para o desenvolvimento de toda a indústria, em 11 de abril, o "Método Gerativo de Gerenciamento de Serviços de Inteligência Artificial" foi divulgado para comentários; em 30 de maio, o Instituto de Tecnologia da Informação e Comunicação está preparando em conjunto o modelo aberto de inteligência artificial "Kite" licença, e o próximo passo será a emissão da "Licença Zhikite Open Artificial Intelligence Model (Rascunho para Comentários).

Posteriormente, as cidades de primeiro nível lançaram em conjunto o "Plano de implementação para Pequim para acelerar a construção de uma fonte de inovação de inteligência artificial globalmente influente (2023-2025)"; Ano)".

Nesse contexto, Zhou Hongyi acredita que o grande modelo doméstico diminuirá rapidamente a diferença com o ChatGPT, que parece ser fácil de entender.

Qual é a diferença entre 360 Smart Brain

De acordo com o plano de Zhou Hongyi, o modelo grande 360 será baseado na atualização contínua do modelo grande, levando em consideração a cena, produtização, nivelamento e verticalização.

Sob esta estratégia de desenvolvimento, o 360 Smart Brain pode atingir o consumidor (assistente de IA pessoal do usuário), pequenas e médias empresas (aplicação vertical SaaS), empresas/governos/cidades (modelo de implantação privatizado), indústria (modelo vertical da indústria) e outros quatro principais cenários de aplicação.

Para atender melhor às necessidades dos diferentes cenários mencionados acima, o modelo geral de grande escala precisa concluir a transformação de entrada de texto em saída de texto, compreensão de imagens e vídeos e capacidade de produzir imagens e vídeos no existente base, o que equivale a fazer o modelo em grande escala Com "orelhas" e "olhos", estabelece as bases para a criação de um "humano digital".

Os humanos digitais tradicionais só precisam produzir de acordo com o script estabelecido, mas na era dos modelos grandes, os humanos digitais 360 podem ser personalizados, para que as pessoas sejam projetadas, tenham memórias e experiências. Atualmente, existem mais de 200 caracteres no 360 plataforma digital human square, dividida em duas categorias: celebridades digitais e funcionários digitais. A 360 espera que, no futuro, todos tenham seu próprio assistente de IA e tenham a oportunidade de se comunicar com pessoas antigas no espaço virtual, no tempo e no espaço.

Na reunião de demonstração, Zhou Hongyi perguntou a "Zhuge Liang" como ele acha que se tornou um material para fantasmas e animais hoje, e o homem digital respondeu no tom de Zhuge Liang: o destino do passado e do presente é inevitável. Na situação de hoje, o mundo está em turbulência. Apesar de velho, ainda almejo o mundo. Os jovens de hoje me usam como material para fantasmas e animais, e eu prontamente aceito essa mudança. E desejo que os jovens amigos sigam corajosamente na estrada à frente e criem um futuro melhor.

Ao mesmo tempo, Zhou Hongyi também enfatizou que a forma de humanos digitais no futuro também terá seus próprios objetivos, recursos de planejamento e decomposição, de modo que vários modelos verticais possam ser chamados para concluir tarefas.

No entanto, essas funções são, na verdade, otimizações baseadas em aplicativos de modelo de grande escala existentes e não abriram um novo campo. Mas, na verdade, quando o grande modelo faz uma inovação, o cenário de aplicação mais criativo é a direção autônoma.

** A direção sem motorista tem a chance de entrar na via rápida **

Olhando para trás no campo da direção não tripulada, desde 2016, os principais fabricantes estão implantando neste campo, mas até este ano, nenhum deles pode alcançar a verdadeira direção não tripulada.

Atualmente, um sistema de direção não tripulada de nível L2+ precisa de mais de 10 câmeras; 1-2 lidars; ou radares de ondas milimétricas de 3 a 5 para fornecer dados multidimensionais, que podem ser usados para treinamento de modelos após rotulagem manual. Após o surgimento de grandes modelos que podem reconhecer imagens, o custo de tempo e o gasto de material necessários para a rotulagem manual cairão drasticamente.

De acordo com a coletiva de imprensa Momo Zhixing DriveGPT em abril de 2023, para obter informações como linhas de pista, participantes do trânsito, semáforos etc., o custo da rotulagem manual na indústria é de cerca de 5 yuans por imagem e o custo do Momo DriveGPT é de 0,5 yuan. Acreditamos que após o amadurecimento do treinamento de modelos em larga escala das empresas de tecnologia, o custo marginal da rotulagem automática de uma única imagem se aproximará de 0, e espera-se que o custo médio diminua ainda mais.

De acordo com Zhang Peng, vice-presidente do Kaiwang Data Products Project, em fevereiro de 2023, atualmente, a rotulagem manual é o principal método de rotulagem de dados, complementada pela rotulagem de máquina, e 95% da rotulagem de dados ainda é principalmente manual. A intervenção de grandes modelos pode melhorar muito a eficiência desta indústria. Tomando a Tesla como exemplo, a equipe de rotulagem manual terá mais de 1.000 pessoas em 2021 e demitirá mais de 200 pessoas em 2022.

Além disso, na era dos modelos grandes, espera-se que os gigantes da tecnologia de terceiros ajudem os OEMs a criar seus próprios algoritmos de direção autônoma e sistemas de loop fechado de dados, fornecendo uma cadeia de ferramentas completa, contando com os recursos de geração de dados de modelos grandes para estreitar a lacuna no campo de dados, espera-se que a era do Android de direção autônoma chegue.

Atualmente, grandes modelos têm sido usados para permitir malha fechada de dados, simulação, algoritmos de percepção, algoritmos de regulação e controle e outros campos. E gigantes como Microsoft e Nvidia estão disputando layout em modelos grandes e direção autônoma, ou vão desencadear novas faíscas.

Além disso, o surgimento de grandes modelos também promove a divisão do trabalho na indústria, evita "reinventar a roda" e acelera a iteração de sensores e chips, e espera-se que o custo do sistema caia significativamente. Espera-se que os desenvolvedores de modelos em larga escala e os participantes da cadeia da indústria de direção autônoma se beneficiem de maneira geral.

Tomando o Baidu Apollo como exemplo, ele primeiro usa informações gráficas para pré-treinar um modelo original, usa algoritmos para identificar, localizar e segmentar dados de imagens de street view e os coloca no codificador para formar uma biblioteca base, ou seja, estabelece uma correspondência entre imagens e informações de texto com base no conjunto de dados do Street View.

Em segundo lugar, você pode pesquisar e explorar cenas específicas (como veículos expressos, cadeiras de rodas, crianças etc.) por meio de texto e imagens e realizar treinamento personalizado no modelo do lado do veículo, o que melhora muito a utilização dos dados de estoque.

O Baidu usa um método semi-supervisionado para fazer pleno uso dos dados 2D e 3D para treinar um grande modelo de percepção. Ao destilar o modelo pequeno em várias etapas, o desempenho do modelo pequeno é aprimorado e, ao mesmo tempo, o modelo pequeno é personalizado para treinamento por meio de rotulagem automática, usada para aprimorar a capacidade de percepção visual 3D de longa distância e melhorar o efeito de percepção do modelo de percepção multimodal.

Outro jogador líder, SenseTime, também declarou publicamente que o AIGC pode ser usado para gerar cenas de tráfego reais e amostras difíceis para treinar o sistema de direção automática, e dados multimodais podem ser usados como entrada do modelo grande para melhorar o limite superior de a percepção do sistema de cenas cornercase.

Ao mesmo tempo, o grande modelo multimodal de direção autônoma pode realizar a integração integrada de percepção e tomada de decisão, e o ambiente 3D pode ser reconstruído por meio do decodificador de ambiente na saída final para realizar a compreensão visual do ambiente; o decodificador de comportamento pode gerar um planejamento completo do caminho, o decodificador de motivação pode ser usado A linguagem natural descreve o processo de raciocínio, tornando o sistema de direção autônoma mais seguro e confiável.

Depois que o modelo grande realizar as funções acima, o limite para direção não tripulada se tornará cada vez menor no futuro. Enquanto os principais fabricantes aceleram o progresso de projetos de direção não tripulada, eles também podem permitir que mais novos jogadores ingressem neste campo e desenvolvam estradas que exigem estradas, além de navegação rodoviária. A trilha da função de planejamento, como otimizar ainda mais o planejamento de caminho do robô de varredura.

Olhando agora, após o período de lançamento centralizado de modelos em grande escala de fevereiro a março, e o período de desenvolvimento de produtos de abril a maio e a direção da política foram gradualmente esclarecidos, junho entrou no período de lançamento centralizado de IA em grande escala. produtos e aplicações de modelo em escala. Isso também leva diretamente à redução de preço da API OpenAI.

No futuro previsível, a tecnologia AI continuará a iterar e os aplicativos continuarão avançando. Ao mesmo tempo, mais e mais grandes empresas de tecnologia lançarão produtos para cortar esse caminho, o que continuará a impulsionar a prosperidade da indústria e trazer mais benefícios para os usuários. Produtos semelhantes ao GPT que atendem à demanda do mercado, como o Tencent, que possui uma enorme base de usuários, também lançou uma solução técnica na área de modelos grandes em 19 de junho.

Quando essas empresas se juntarem, o desenvolvimento da indústria entrará na via rápida e também significa que os usuários do final C logo poderão usar este produto. Quanto a quem pagará por isso, cada fabricante precisa contar com seu própria habilidade.

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)