Uma empresa iniciante chamada "um golpe dois golpes" denunciou publicamente o ex-líder de educação e treinamento "Xueersi", dizendo que "roubou" os dados que trabalhou tanto para salvar "pegando na biblioteca".
A origem da história é que em meados de abril deste ano, "Pen Shen Composition" (um produto da Strike Two Strike Company) descobriu que havia um grande número de acessos anormais regulares à interface do servidor, resultando em um rápido aumento na carga no servidor.
O número de visitas supera em muito a média diária. A Bishen Composition revelou ao Deep AI que as visitas diárias habituais são de algumas centenas ou alguns milhares, mas nesses poucos dias aumentou para mais de 500.000 por dia. Em uma semana, seus dados foram rastreados 2,58 milhões de vezes.
As chamadas de banco de dados publicadas por Penshen Composition
Ao consultar os logs do servidor, a Pen God Composition descobriu que um único IP rastreou seu banco de dados com alta densidade por meio da tecnologia "crawler". As palavras de busca para cada visita deste IP estão relacionadas à composição, e o sistema retornará 30 composições por página. Cada visita usa as palavras de pesquisa para voltar da primeira página página por página, coletando basicamente o mesmo tópico na biblioteca .Todas as composições foram capturadas.
De acordo com especialistas do setor, em circunstâncias normais, os usuários comuns não farão isso. **Esse tipo de acesso no estilo de pesquisa ao banco de dados também é conhecido como "raspar a biblioteca". **
A Penshen Composition acredita que o manipulador nos bastidores de "Paku" é seu parceiro Xueersi.
Não muito depois do incidente da "Biblioteca de estacionamento", a Penshen Composition descobriu que Xueersi estava desenvolvendo um grande modelo matemático MathGPT e disse que lançaria um "assistente de IA" em um futuro próximo, um dos quais é a composição.
Não há nenhuma conclusão definitiva sobre se há alguma conexão entre os dois incidentes de Penshen Composition sendo "pegado" e Hexueersi desenvolvendo o "Composition AI Assistant".
Mas a Bishen Composition acredita que seus direitos foram violados. Enviou uma carta do advogado à outra parte e tornou o assunto público, tentando obter uma explicação. Xueersi deu uma resposta pública, dizendo que o uso do conteúdo do material de Penshen obedecia aos requisitos do contrato e que seu modelo MathGPT autodesenvolvido e "assistente de IA de composição" não usavam nenhum dado da composição de Penshen.
Neste incidente, não é apenas o material de composição que vale a pena discutir. O que os dados significam para modelos grandes?
**Parceiro virou bárbaro no portão? **
Ambos os lados insistem em suas próprias opiniões
Vamos primeiro apresentar brevemente a composição do deus da caneta.
Esta empresa foi fundada em 2017. O produto "Pen God" é um software de escrita assistido por inteligência artificial, que pode ser considerado um produto de IA+educação. No início, "Pen God" era voltado para plataformas de criação de conteúdo e fabricantes de ferramentas relacionadas, e depois aprofundou-se no campo vertical, usando IA para ensinar os alunos a escrever redações, então havia "Pen God Composition".
Você pode simplesmente entender: está na indústria da educação, é voltado para o grupo de estudantes, usa tecnologia de inteligência artificial e resolve a cena de escrever redações.
A escrita AI tem muito em comum com o ChatGPT, que é popular hoje em dia. Todos eles envolvem tecnologias como processamento de linguagem natural, análise e previsão semântica e aprendizado de máquina. Song Jiawei, fundador da Penshen Composition, atuou como arquiteto de sistemas sênior da Sony e CTO da Singulato.
Cinco anos atrás, Song Jiawei disse que estava pensando em como aplicar tecnologias de modelo de linguagem pré-treinadas, como bert ou GPT-2 a aplicativos. Naquela época, o GPT não estava fora do círculo e não era tão conhecido quanto hoje.
Depois de começar a fazer composição de IA, Penshen Composition entrou oficialmente na trilha da educação, entrando no mesmo rio que Xueersi, o líder de educação e treinamento.
De acordo com a introdução de Penshen, em dezembro de 2020, Penshen Composition e Xueersi chegaram a uma cooperação. ** A composição de Penshen fornece a Xueersi uma "Interface de serviço de material de ensaio de modelo de composição de Benshen", que é usada em serviços relacionados a Xueersi, e a taxa é estabelecida de acordo com o número de chamadas. Por esta razão, a Penshen Composition abriu uma interface de serviço para Xueersi. **
Em outras palavras, Xueersi pode usar os materiais de composição no banco de dados Penshen Composition e pagar por eles.
Os materiais de composição são um ativo essencial nesta transação e a pedra angular do modelo de negócios da Penshen Composition. Na verdade, a composição de Pen God começou a partir do ponto de material, no mínimo. Ele apresentava a função de "pesquisa de material com um clique" na época. Os usuários podem pesquisar palavras-chave e o sistema pode combinar automaticamente os materiais. Os recursos variam de clássicos da poesia antiga, documentos oficiais a artigos modernos da web. Durante o processo de escrita, o sistema também pode enviar material em tempo real.
Esses materiais não são da Internet, mas do próprio banco de dados de Penshen. Por meio da identificação inteligente, tradução e correspondência da tecnologia de IA, a Penshen pode fornecer materiais adequados ao comportamento de pesquisa dos usuários.
Quando a quantidade desses materiais de composição for grande o suficiente, a qualidade for alta o suficiente e a correspondência for precisa o suficiente, ele terá um certo valor comercial e poderá até ser vendido externamente. Esta é a razão da cooperação com Xueersi.
O problema é que esses materiais correm o risco de serem "roubados", principalmente se algumas interfaces forem abertas.
De acordo com a introdução do Deep AI na composição do penshen, eles limitaram o escopo da cooperação com Xueersi: "Abrimos a interface para permitir que eles chamem nossos dados e os exibam em seu próprio aplicativo, mas o contrato não inclui dados de armazenamento. Ou permissões para algoritmos de IA. Os dados devem estar disponíveis apenas para seus usuários, não armazenados em suas máquinas."
É equivalente a, **Quando um usuário inicia uma pesquisa no lado do produto de Xueersi, o modelo de composição invocado vem de Penshen Composition e Xueersi não pode armazená-lo sozinho. **
A chamada anormal em meados de abril fez a Pen God Composition pensar que estava além do escopo da cooperação comercial normal. "Suas ações acionaram nossos mecanismos de defesa, o que nos levou a descobrir isso."
Bishen Zuowen afirmou que verificou os logs de acesso em segundo plano e descobriu que o acesso ilegal foi iniciado por um único IP por meio da tecnologia "crawler". "Já temos este endereço IP."
O endereço IP publicado pela Penshen Composition (Parte)
Liu Ran, CEO de uma empresa start-up doméstica de inteligência artificial, analisou o Deep AI. Esse método de enumerar palavras-chave exaustivamente deve ser para obter os dados na biblioteca. Esse é um comportamento muito óbvio.
A Penshen Composition revelou à Deep AI que, após o incidente, eles verificaram com a equipe de operações de Xueersi, e a outra parte admitiu diretamente que a equipe de algoritmos de Xueersi estava rastreando os dados e usando-os para seu próprio uso. No entanto, para esta declaração, o Deep AI ainda não foi confirmado por Xueersi.
O ex-sócio de repente se transformou em um bárbaro na porta, o que deixou Bishen Composition muito zangado e enviou cartas de advogados várias vezes.
Xueersi disse em sua resposta pública em 13 de junho que sua chamada para a interface de composição Penshen não excedia o escopo do contrato entre as duas partes, e o uso do conteúdo do material Penshen cumpria os requisitos do contrato e não era usado para nada. além do contrato, para qualquer finalidade. Xueersi enfatizou especificamente que seu grande modelo MathGPT autodesenvolvido e "assistente de AI de composição" não usavam nenhum dado de Penshen Composition.
Os dois lados insistem em suas próprias opiniões, e ainda não há conclusão. De acordo com o artigo de Pen God, este caso pode se tornar "o primeiro caso de roubo de dados de modelo de IA em larga escala".
Uma questão que vale a pena explorar é o que os dados significam para modelos grandes?
De onde vêm os dados é um grande problema
Poder de computação, algoritmos e dados são os três elementos principais da inteligência artificial para aprendizado de máquina.
A fim de melhorar o poder de computação, muitas empresas de tecnologia estão gastando muito dinheiro para arrebatar a GPU da Nvidia. Do lado do algoritmo, algumas grandes empresas nacionais e estrangeiras tornaram o algoritmo de código aberto, o que reduz bastante o limite para o desenvolvimento do modelo.
Do lado dos dados, sempre existiram barreiras. Onde encontrar dados de alta qualidade é uma questão fundamental.
Grandes modelos de IA generativa precisam usar uma grande quantidade de dados diversos para treinamento para melhorar as capacidades de generalização e geração do modelo. Diferentes modelos podem usar diferentes fontes de dados. Grandes modelos gerais, como o ChatGPT, usam muitos dados públicos, como vários sites de notícias, livros, artigos científicos, páginas da web, etc. Para modelos grandes em alguns campos verticais, é necessário encontrar corpora e conjuntos de dados direcionados.
O responsável pelo modelo em grande escala de uma empresa de tecnologia líder nacional disse à Deep AI que o ChatGPT realmente usa muitos dados não públicos, e muitos dos dados públicos na Internet são de qualidade muito ruim, e há um limite para dados de alta qualidade. A aquisição e limpeza de dados estão enfrentando grandes desafios. **
O CTO da TAL Tian Mi declarou publicamente em 4 de maio: "Muitos campos têm barreiras de dados e know-how do setor, e modelos grandes ainda precisam ser profundamente integrados ao conhecimento do domínio, além de dados de domínio suficientes para treinar especialistas no domínio. Modelo. "
Como Tian Mi disse, o grande modelo de domínio deve ser profundamente integrado ao conhecimento do domínio. No campo da composição de IA, os materiais de composição são dados importantes para máquinas de treinamento.
Já em 2019, a Penshen Company começou a coletar dados propositalmente e treinar seu próprio corpus de composição, cobrindo citações famosas, poemas, documentos oficiais, idiomas da Internet etc. Eles usam o método de máquinas de treinamento para simular rótulos manuais para rotular cada corpus.
No corpus vertical, somente quando os dados são marcados é que o push de conteúdo preciso pode ser realizado com base na correspondência de vetores, análise semântica e previsão da criação de conteúdo atual do usuário.
Liu Ran disse à Deep AI que a construção de um modelo requer muitos dados verificados e, se os dados forem classificados, pode economizar muito trabalho humano. As composições organizadas pela Penshen Composition podem ser usadas como dados marcados.
Este processo é contínuo e demorado. A Bishen Composition disse que nos seis anos desde a sua criação, eles acumularam mais de 5 milhões de materiais de composição no total, e o volume de correção mensal excede 30.000. Esses materiais de composição são revisados manualmente, selecionados e enviados, rotulados, classificados e com dados corrigidos e, finalmente, acumulados.
Esses dados podem não apenas ser apresentados na forma de materiais na página do APP, mas também ser usados para treinar algoritmos em segundo plano. Portanto, ao cooperar com outras empresas para abrir a interface, a Penshen Composition adicionou um artigo especial no contrato - sem "cache, armazenamento, cálculo e treinamento como corpus".
Bishen Composition acredita que Xueersi "roubou" os dados e especula que Xueersi usa os dados para o treinamento e desenvolvimento do grande modelo matemático MathGPT e da máquina de aprendizado Xueersi "Composition AI Assistant". Mas isso parece difícil de provar.
Liu Ran acredita que, normalmente, os dados de composição devem ter algumas restrições definidas com antecedência, como não aceitar alta simultaneidade, criptografar os dados e deve ser possível rastrear o paradeiro e os usos dos dados. No entanto, ele também acredita que os dados de composição não são tão críticos quanto os dados de comportamento chave do usuário.
"Você pode deixar a IA aprender o que é uma boa composição e, em seguida, deixá-la gerar de acordo com esses padrões. Mas não acho que muitos dados sejam realmente necessários. Dezenas de milhares de composições de alta qualidade devem ser suficientes." .
"O primeiro caso de roubo de dados de modelo grande de IA",
**Consegues levantar-te? **
A Penshen Composition assumiu uma atitude dura e emitiu dois anúncios sucessivos, exigindo um pedido de desculpas de Xueersi e, ao mesmo tempo, reivindicando uma compensação de 1 yuan. Ele ainda quer rotular esse incidente como "o primeiro caso de roubo de dados de modelo grande de IA".
O advogado Liu Honglin, diretor da Shanghai Mankiw Law Firm, disse à Deep AI que o corpus autoconstruído ou a biblioteca de materiais da própria Bishen Composition possui direitos de propriedade intelectual. No entanto, se é uma obra sob a Lei de Direitos Autorais depende se a originalidade atende aos critérios relevantes.
"Se a Penshen Composition tiver evidências suficientes para provar que Xueersi roubou seus dados de forma maliciosa, ela pode iniciar uma violação de propriedade intelectual ou um processo de concorrência desleal." Ele disse.
Além disso, a Bishen Composition tem um acordo de cooperação com a Xueersi.Se o respeito e a autorização dos direitos de propriedade intelectual forem acordados, eles também podem proteger seus direitos e interesses por meio de quebras contratuais.
Vale a pena notar que muitas das composições na Penshen Composition Material Library são enviadas pelos usuários. A Pen God Composition afirma que recebe 300.000 envios de ensaios todos os meses. Portanto, antes de determinar se é uma violação, é necessário esclarecer os direitos de propriedade intelectual desses materiais.
De acordo com a análise de Liu Honglin, depende de como o criador (colaborador) do ensaio e a composição penshen concordam com os direitos de propriedade intelectual. Se o usuário autorizar os direitos de propriedade intelectual da Penshen Composition no momento do envio, a Penshen Composition desfrutará dos direitos e interesses correspondentes.
A Deep AI perguntou sobre o contrato de serviço do usuário da Pen God Composition e descobriu que existe tal cláusula: o conteúdo publicado pelo usuário na Pen God Composition (incluindo, entre outros, comentários, comentários, notas), concede à Pen God Composition uma licença não exclusiva gratuita e irrevogável.
Em outras palavras, a Penshen Composition detém os direitos de propriedade intelectual da biblioteca de materiais.
O que Liu Ran não conseguiu descobrir foi por que a Bishen Composition cooperou com Xueersi. "Se fosse eu, definitivamente não cooperaria com Xueersi, porque estamos em um forte relacionamento competitivo." Ele acredita: "Na era dos modelos grandes, não há chance de apenas fornecer um banco de dados de composição. "
De acordo com a análise de especialistas da indústria, Xueersi tem tráfego, cenas e popularidade, especialmente em termos de produtos front-end orientados ao usuário, Xueersi tem maiores vantagens do que Pen God Composition. No entanto, o trabalho de coleta de dados e construção de uma biblioteca de materiais no back-end é demorado e trabalhoso, sendo difícil ver resultados a curto prazo. Para Xueersi, é mais conveniente acessar diretamente a biblioteca de materiais prontos. A Penshen Composition alcançou a monetização comercial com a venda de acesso à biblioteca de materiais.
Mas para uma empresa iniciante como a Pen God Composition, essa cooperação é como uma rosa com espinhos. Porque os gigantes chineses podem entrar em seu território a qualquer momento e até formar uma concorrência direta no nível de negócios. **
A composição de correção de IA é uma função muito importante da composição de Penshen. Há três anos, a TAL (empresa controladora da Xueersi) também lançou a "Solução de correção de composição em chinês e inglês", que realizou a correção inteligente de composição em chinês e inglês por meio de IA.
Agora, a modificação da composição de IA é apenas a ponta do iceberg da enorme matriz de produtos de IA da TAL. Em seu último lançamento de produto, a correção de composição chinesa é um módulo de correção de ditado em chinês e inglês. A TAL tem ambições maiores e seus tentáculos já se estenderam a todos os aspectos da educação em IA.
Depois que o ChatGPT se tornou popular com IA generativa, os empreendedores do setor de inteligência artificial ficaram entusiasmados e ansiosos. Eles estão entusiasmados porque a indústria está finalmente esquentando novamente; eles estão ansiosos porque o ChatGPT é muito poderoso e muitos projetos empresariais em campos verticais perderam suas barreiras da noite para o dia.
Para uma empresa como a Pen God Composition, onde estão as barreiras à concorrência e como enfrentar os gigantes são problemas muito reais. A involução acelerada da indústria de inteligência artificial e a intensificação da competição homogênea vão intensificar o confronto entre startups e gigantes.
Coletar dados pode ser apenas a ponta do iceberg em uma nova rodada de competição.
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
"Roubar" dados, o lado negro dos grandes modelos de IA
Fonte original:
Uma empresa iniciante chamada "um golpe dois golpes" denunciou publicamente o ex-líder de educação e treinamento "Xueersi", dizendo que "roubou" os dados que trabalhou tanto para salvar "pegando na biblioteca".
A origem da história é que em meados de abril deste ano, "Pen Shen Composition" (um produto da Strike Two Strike Company) descobriu que havia um grande número de acessos anormais regulares à interface do servidor, resultando em um rápido aumento na carga no servidor.
O número de visitas supera em muito a média diária. A Bishen Composition revelou ao Deep AI que as visitas diárias habituais são de algumas centenas ou alguns milhares, mas nesses poucos dias aumentou para mais de 500.000 por dia. Em uma semana, seus dados foram rastreados 2,58 milhões de vezes.
Ao consultar os logs do servidor, a Pen God Composition descobriu que um único IP rastreou seu banco de dados com alta densidade por meio da tecnologia "crawler". As palavras de busca para cada visita deste IP estão relacionadas à composição, e o sistema retornará 30 composições por página. Cada visita usa as palavras de pesquisa para voltar da primeira página página por página, coletando basicamente o mesmo tópico na biblioteca .Todas as composições foram capturadas.
De acordo com especialistas do setor, em circunstâncias normais, os usuários comuns não farão isso. **Esse tipo de acesso no estilo de pesquisa ao banco de dados também é conhecido como "raspar a biblioteca". **
A Penshen Composition acredita que o manipulador nos bastidores de "Paku" é seu parceiro Xueersi.
Não muito depois do incidente da "Biblioteca de estacionamento", a Penshen Composition descobriu que Xueersi estava desenvolvendo um grande modelo matemático MathGPT e disse que lançaria um "assistente de IA" em um futuro próximo, um dos quais é a composição.
Não há nenhuma conclusão definitiva sobre se há alguma conexão entre os dois incidentes de Penshen Composition sendo "pegado" e Hexueersi desenvolvendo o "Composition AI Assistant".
Mas a Bishen Composition acredita que seus direitos foram violados. Enviou uma carta do advogado à outra parte e tornou o assunto público, tentando obter uma explicação. Xueersi deu uma resposta pública, dizendo que o uso do conteúdo do material de Penshen obedecia aos requisitos do contrato e que seu modelo MathGPT autodesenvolvido e "assistente de IA de composição" não usavam nenhum dado da composição de Penshen.
Neste incidente, não é apenas o material de composição que vale a pena discutir. O que os dados significam para modelos grandes?
Ambos os lados insistem em suas próprias opiniões
Vamos primeiro apresentar brevemente a composição do deus da caneta.
Esta empresa foi fundada em 2017. O produto "Pen God" é um software de escrita assistido por inteligência artificial, que pode ser considerado um produto de IA+educação. No início, "Pen God" era voltado para plataformas de criação de conteúdo e fabricantes de ferramentas relacionadas, e depois aprofundou-se no campo vertical, usando IA para ensinar os alunos a escrever redações, então havia "Pen God Composition".
Você pode simplesmente entender: está na indústria da educação, é voltado para o grupo de estudantes, usa tecnologia de inteligência artificial e resolve a cena de escrever redações.
A escrita AI tem muito em comum com o ChatGPT, que é popular hoje em dia. Todos eles envolvem tecnologias como processamento de linguagem natural, análise e previsão semântica e aprendizado de máquina. Song Jiawei, fundador da Penshen Composition, atuou como arquiteto de sistemas sênior da Sony e CTO da Singulato.
Cinco anos atrás, Song Jiawei disse que estava pensando em como aplicar tecnologias de modelo de linguagem pré-treinadas, como bert ou GPT-2 a aplicativos. Naquela época, o GPT não estava fora do círculo e não era tão conhecido quanto hoje.
Depois de começar a fazer composição de IA, Penshen Composition entrou oficialmente na trilha da educação, entrando no mesmo rio que Xueersi, o líder de educação e treinamento.
De acordo com a introdução de Penshen, em dezembro de 2020, Penshen Composition e Xueersi chegaram a uma cooperação. ** A composição de Penshen fornece a Xueersi uma "Interface de serviço de material de ensaio de modelo de composição de Benshen", que é usada em serviços relacionados a Xueersi, e a taxa é estabelecida de acordo com o número de chamadas. Por esta razão, a Penshen Composition abriu uma interface de serviço para Xueersi. **
Em outras palavras, Xueersi pode usar os materiais de composição no banco de dados Penshen Composition e pagar por eles.
Os materiais de composição são um ativo essencial nesta transação e a pedra angular do modelo de negócios da Penshen Composition. Na verdade, a composição de Pen God começou a partir do ponto de material, no mínimo. Ele apresentava a função de "pesquisa de material com um clique" na época. Os usuários podem pesquisar palavras-chave e o sistema pode combinar automaticamente os materiais. Os recursos variam de clássicos da poesia antiga, documentos oficiais a artigos modernos da web. Durante o processo de escrita, o sistema também pode enviar material em tempo real.
Esses materiais não são da Internet, mas do próprio banco de dados de Penshen. Por meio da identificação inteligente, tradução e correspondência da tecnologia de IA, a Penshen pode fornecer materiais adequados ao comportamento de pesquisa dos usuários.
Quando a quantidade desses materiais de composição for grande o suficiente, a qualidade for alta o suficiente e a correspondência for precisa o suficiente, ele terá um certo valor comercial e poderá até ser vendido externamente. Esta é a razão da cooperação com Xueersi.
O problema é que esses materiais correm o risco de serem "roubados", principalmente se algumas interfaces forem abertas.
De acordo com a introdução do Deep AI na composição do penshen, eles limitaram o escopo da cooperação com Xueersi: "Abrimos a interface para permitir que eles chamem nossos dados e os exibam em seu próprio aplicativo, mas o contrato não inclui dados de armazenamento. Ou permissões para algoritmos de IA. Os dados devem estar disponíveis apenas para seus usuários, não armazenados em suas máquinas."
É equivalente a, **Quando um usuário inicia uma pesquisa no lado do produto de Xueersi, o modelo de composição invocado vem de Penshen Composition e Xueersi não pode armazená-lo sozinho. **
A chamada anormal em meados de abril fez a Pen God Composition pensar que estava além do escopo da cooperação comercial normal. "Suas ações acionaram nossos mecanismos de defesa, o que nos levou a descobrir isso."
Bishen Zuowen afirmou que verificou os logs de acesso em segundo plano e descobriu que o acesso ilegal foi iniciado por um único IP por meio da tecnologia "crawler". "Já temos este endereço IP."
Liu Ran, CEO de uma empresa start-up doméstica de inteligência artificial, analisou o Deep AI. Esse método de enumerar palavras-chave exaustivamente deve ser para obter os dados na biblioteca. Esse é um comportamento muito óbvio.
A Penshen Composition revelou à Deep AI que, após o incidente, eles verificaram com a equipe de operações de Xueersi, e a outra parte admitiu diretamente que a equipe de algoritmos de Xueersi estava rastreando os dados e usando-os para seu próprio uso. No entanto, para esta declaração, o Deep AI ainda não foi confirmado por Xueersi.
O ex-sócio de repente se transformou em um bárbaro na porta, o que deixou Bishen Composition muito zangado e enviou cartas de advogados várias vezes.
Xueersi disse em sua resposta pública em 13 de junho que sua chamada para a interface de composição Penshen não excedia o escopo do contrato entre as duas partes, e o uso do conteúdo do material Penshen cumpria os requisitos do contrato e não era usado para nada. além do contrato, para qualquer finalidade. Xueersi enfatizou especificamente que seu grande modelo MathGPT autodesenvolvido e "assistente de AI de composição" não usavam nenhum dado de Penshen Composition.
Os dois lados insistem em suas próprias opiniões, e ainda não há conclusão. De acordo com o artigo de Pen God, este caso pode se tornar "o primeiro caso de roubo de dados de modelo de IA em larga escala".
Uma questão que vale a pena explorar é o que os dados significam para modelos grandes?
Poder de computação, algoritmos e dados são os três elementos principais da inteligência artificial para aprendizado de máquina.
A fim de melhorar o poder de computação, muitas empresas de tecnologia estão gastando muito dinheiro para arrebatar a GPU da Nvidia. Do lado do algoritmo, algumas grandes empresas nacionais e estrangeiras tornaram o algoritmo de código aberto, o que reduz bastante o limite para o desenvolvimento do modelo.
Do lado dos dados, sempre existiram barreiras. Onde encontrar dados de alta qualidade é uma questão fundamental.
Grandes modelos de IA generativa precisam usar uma grande quantidade de dados diversos para treinamento para melhorar as capacidades de generalização e geração do modelo. Diferentes modelos podem usar diferentes fontes de dados. Grandes modelos gerais, como o ChatGPT, usam muitos dados públicos, como vários sites de notícias, livros, artigos científicos, páginas da web, etc. Para modelos grandes em alguns campos verticais, é necessário encontrar corpora e conjuntos de dados direcionados.
O responsável pelo modelo em grande escala de uma empresa de tecnologia líder nacional disse à Deep AI que o ChatGPT realmente usa muitos dados não públicos, e muitos dos dados públicos na Internet são de qualidade muito ruim, e há um limite para dados de alta qualidade. A aquisição e limpeza de dados estão enfrentando grandes desafios. **
O CTO da TAL Tian Mi declarou publicamente em 4 de maio: "Muitos campos têm barreiras de dados e know-how do setor, e modelos grandes ainda precisam ser profundamente integrados ao conhecimento do domínio, além de dados de domínio suficientes para treinar especialistas no domínio. Modelo. "
Como Tian Mi disse, o grande modelo de domínio deve ser profundamente integrado ao conhecimento do domínio. No campo da composição de IA, os materiais de composição são dados importantes para máquinas de treinamento.
Já em 2019, a Penshen Company começou a coletar dados propositalmente e treinar seu próprio corpus de composição, cobrindo citações famosas, poemas, documentos oficiais, idiomas da Internet etc. Eles usam o método de máquinas de treinamento para simular rótulos manuais para rotular cada corpus.
No corpus vertical, somente quando os dados são marcados é que o push de conteúdo preciso pode ser realizado com base na correspondência de vetores, análise semântica e previsão da criação de conteúdo atual do usuário.
Liu Ran disse à Deep AI que a construção de um modelo requer muitos dados verificados e, se os dados forem classificados, pode economizar muito trabalho humano. As composições organizadas pela Penshen Composition podem ser usadas como dados marcados.
Este processo é contínuo e demorado. A Bishen Composition disse que nos seis anos desde a sua criação, eles acumularam mais de 5 milhões de materiais de composição no total, e o volume de correção mensal excede 30.000. Esses materiais de composição são revisados manualmente, selecionados e enviados, rotulados, classificados e com dados corrigidos e, finalmente, acumulados.
Esses dados podem não apenas ser apresentados na forma de materiais na página do APP, mas também ser usados para treinar algoritmos em segundo plano. Portanto, ao cooperar com outras empresas para abrir a interface, a Penshen Composition adicionou um artigo especial no contrato - sem "cache, armazenamento, cálculo e treinamento como corpus".
Bishen Composition acredita que Xueersi "roubou" os dados e especula que Xueersi usa os dados para o treinamento e desenvolvimento do grande modelo matemático MathGPT e da máquina de aprendizado Xueersi "Composition AI Assistant". Mas isso parece difícil de provar.
Liu Ran acredita que, normalmente, os dados de composição devem ter algumas restrições definidas com antecedência, como não aceitar alta simultaneidade, criptografar os dados e deve ser possível rastrear o paradeiro e os usos dos dados. No entanto, ele também acredita que os dados de composição não são tão críticos quanto os dados de comportamento chave do usuário.
"Você pode deixar a IA aprender o que é uma boa composição e, em seguida, deixá-la gerar de acordo com esses padrões. Mas não acho que muitos dados sejam realmente necessários. Dezenas de milhares de composições de alta qualidade devem ser suficientes." .
**Consegues levantar-te? **
A Penshen Composition assumiu uma atitude dura e emitiu dois anúncios sucessivos, exigindo um pedido de desculpas de Xueersi e, ao mesmo tempo, reivindicando uma compensação de 1 yuan. Ele ainda quer rotular esse incidente como "o primeiro caso de roubo de dados de modelo grande de IA".
O advogado Liu Honglin, diretor da Shanghai Mankiw Law Firm, disse à Deep AI que o corpus autoconstruído ou a biblioteca de materiais da própria Bishen Composition possui direitos de propriedade intelectual. No entanto, se é uma obra sob a Lei de Direitos Autorais depende se a originalidade atende aos critérios relevantes.
"Se a Penshen Composition tiver evidências suficientes para provar que Xueersi roubou seus dados de forma maliciosa, ela pode iniciar uma violação de propriedade intelectual ou um processo de concorrência desleal." Ele disse.
Além disso, a Bishen Composition tem um acordo de cooperação com a Xueersi.Se o respeito e a autorização dos direitos de propriedade intelectual forem acordados, eles também podem proteger seus direitos e interesses por meio de quebras contratuais.
Vale a pena notar que muitas das composições na Penshen Composition Material Library são enviadas pelos usuários. A Pen God Composition afirma que recebe 300.000 envios de ensaios todos os meses. Portanto, antes de determinar se é uma violação, é necessário esclarecer os direitos de propriedade intelectual desses materiais.
De acordo com a análise de Liu Honglin, depende de como o criador (colaborador) do ensaio e a composição penshen concordam com os direitos de propriedade intelectual. Se o usuário autorizar os direitos de propriedade intelectual da Penshen Composition no momento do envio, a Penshen Composition desfrutará dos direitos e interesses correspondentes.
A Deep AI perguntou sobre o contrato de serviço do usuário da Pen God Composition e descobriu que existe tal cláusula: o conteúdo publicado pelo usuário na Pen God Composition (incluindo, entre outros, comentários, comentários, notas), concede à Pen God Composition uma licença não exclusiva gratuita e irrevogável.
O que Liu Ran não conseguiu descobrir foi por que a Bishen Composition cooperou com Xueersi. "Se fosse eu, definitivamente não cooperaria com Xueersi, porque estamos em um forte relacionamento competitivo." Ele acredita: "Na era dos modelos grandes, não há chance de apenas fornecer um banco de dados de composição. "
De acordo com a análise de especialistas da indústria, Xueersi tem tráfego, cenas e popularidade, especialmente em termos de produtos front-end orientados ao usuário, Xueersi tem maiores vantagens do que Pen God Composition. No entanto, o trabalho de coleta de dados e construção de uma biblioteca de materiais no back-end é demorado e trabalhoso, sendo difícil ver resultados a curto prazo. Para Xueersi, é mais conveniente acessar diretamente a biblioteca de materiais prontos. A Penshen Composition alcançou a monetização comercial com a venda de acesso à biblioteca de materiais.
Mas para uma empresa iniciante como a Pen God Composition, essa cooperação é como uma rosa com espinhos. Porque os gigantes chineses podem entrar em seu território a qualquer momento e até formar uma concorrência direta no nível de negócios. **
A composição de correção de IA é uma função muito importante da composição de Penshen. Há três anos, a TAL (empresa controladora da Xueersi) também lançou a "Solução de correção de composição em chinês e inglês", que realizou a correção inteligente de composição em chinês e inglês por meio de IA.
Agora, a modificação da composição de IA é apenas a ponta do iceberg da enorme matriz de produtos de IA da TAL. Em seu último lançamento de produto, a correção de composição chinesa é um módulo de correção de ditado em chinês e inglês. A TAL tem ambições maiores e seus tentáculos já se estenderam a todos os aspectos da educação em IA.
Para uma empresa como a Pen God Composition, onde estão as barreiras à concorrência e como enfrentar os gigantes são problemas muito reais. A involução acelerada da indústria de inteligência artificial e a intensificação da competição homogênea vão intensificar o confronto entre startups e gigantes.
Coletar dados pode ser apenas a ponta do iceberg em uma nova rodada de competição.