No mês passado, a conhecida instituição educacional Xueersi revelou que está desenvolvendo um grande modelo matemático MathGPT, voltado para entusiastas globais da matemática e grandes instituições de pesquisa científica, e anda sobre duas pernas na resolução de problemas e palestras. Naquela época, muitas pessoas sentiram que quando o grande modelo de linguagem global que você cantou e eu subimos no palco, finalmente um grande modelo de versão científica estava chegando. No entanto, mais de um mês se passou e o desenvolvimento da realidade foi em outra direção.
Na terça-feira, 13 desta semana, a ferramenta de escrita AI "Pen Shen Composition" acusou Xueersi de acessar ilegalmente e armazenar em cache os dados de seu servidor mais de 2,5 milhões de vezes por meio da tecnologia "crawler", a fim de desenvolver o novo produto "Composition AI Assistant" do MathGPT " ", e reivindicou um yuan.
Um, seis anos de conquistas e um final de semana
A Penshen Composition foi criada em dezembro de 2017. É uma plataforma de educação de composição para K12, ou seja, do ensino fundamental ao ensino médio doméstico. É afiliada à Beijing Yiyilianghua Technology Co., Ltd. Embora houvesse vozes e conceitos de combinar IA com IA quando ela foi estabelecida, as expectativas do mercado e o desempenho real não eram tão quentes quanto agora, e a atenção que atraía era muito limitada. No entanto, mesmo assim, a Penshen Composition ainda contava com sua característica de "usar a tecnologia de IA para ajudar os escritores a melhorar sua capacidade de escrita" Concluiu o financiamento multimilionário da Buhuo Venture Capital em julho.
De acordo com dados oficiais, nos seis anos desde o seu lançamento, a Penshen Composition recebeu mais de 300.000 envios de ensaios e mais de 400.000 curtidas e comentários todos os meses. Acumulou milhões de materiais de ensaios e ensaios corrigidos todos os meses. Também há mais de 30.000 artigos. Depois que o ChatGPT foi lançado no final do ano passado, Shiji Tianhong, um dos investidores da Penshen Composition, disse uma vez que "Pensus" e a tecnologia ChatGPT têm a mesma origem, e ambos usam o algoritmo mais avançado baseado em transformador como a tecnologia subjacente . Song Jiawei, o fundador da Bishen Composition, também apresentou: "Um golpe e dois golpes atualmente têm mais de 60% do pessoal técnico de P&D na equipe. Antes do estabelecimento da empresa, eles fundaram empresas de PNL. Alguns backbones foram profundamente envolvido no campo da PNL por muitos anos e continua a acumular."
** Portanto, em geral, o modelo de algoritmo da PenShen Composition é autodesenvolvido e treinado pela empresa, e o big data usado pela plataforma é derivado principalmente de seu próprio acúmulo. **Devido à tecnologia acumulada e frutífera na escrita, Penshen Composition e Xueersi formalmente lançaram uma cooperação há três anos e assinaram um contrato com o aplicativo de ferramenta de aprendizado de Xueersi "Tipai Pai", que é o principal responsável por fornecer o serviço de consulta de material de composição.
No entanto, como parceiro, a Bishen Composition declarou recentemente: De 13 a 17 de abril, as conquistas de nossa equipe nos seis anos desde nossa fundação foram impiedosamente apunhaladas pelas costas por "Xueersi", que cooperaram por muitos anos. Rastreou mais de 2,5 milhões de vezes em apenas um tempo! Xueersi anunciou o MathGPT em maio, e o momento é muito coincidente.
2. Escreva o Apelo de Deus e a Resposta de Xue Ersi
** A julgar pela declaração emitida pelo Weibo oficial da Penshen Composition, ele não possui um mecanismo de segurança de dados completo e não possui defesa contra seu "parceiro" Xueersi, que levou a subsidiária Santi Yunlian (Xueersi) Si) aproveitou da confiança um do outro. ** A este respeito, Bishen Composition afirmou que este comportamento obviamente ignora os termos do contrato entre as duas partes, e também viola o Artigo 32 da "Lei de Proteção de Dados" "Qualquer organização ou coleta de dados individual deve adotar leis legais e adequadas métodos. Não roube ou obtenha dados de outras formas ilegais "violou gravemente os direitos de dados do Bishenzuowen APP. Imediatamente depois, a Penshen Composition encontrou Xueersi para verificação, e a outra parte não procrastinou e admitiu diretamente que sua equipe de algoritmos estava rastreando os dados e usando-os para seu próprio uso. Portanto, a Bishen Composition enviou uma carta de advogado, mas desta vez não recebeu uma resposta substantiva de Xueersi.
"Como uma empresa muito menor que a Xueersi, não temos escolha a não ser proteger nossos próprios direitos por meio de canais legais." No entanto, a Bishen Composition também apontou na declaração que as leis e regulamentos atuais não "precedem o julgamento de roubo de dados de grande modelo de IA". , por isso só pode "dar este primeiro passo com coragem". Quanto ao apelo real da composição de Penshen, na verdade não é difícil: ** só quer que Xueersi pague um yuan em compensação, peça desculpas publicamente e exclua os dados rastreados. **
A explicação da Penshen Composition para isso é: "Os dados são valiosos, os esforços meticulosos não têm preço e a reivindicação de um yuan é porque a justiça e a justiça não podem ser medidas por dinheiro. Esperamos contar à outra parte por meio de litígio e dizer à sociedade que esse comportamento terá que pagar um preço. Indústria de IA O desenvolvimento da indústria exige que todos trabalhem e criem juntos, em vez de cobiçar e plagiar as conquistas dos outros."
Assim como a composição do deus da caneta dizia, este processo reivindicava apenas um yuan, então a declaração não despertou muita resposta e atenção, e os poucos artigos também condenavam Xueersi. No entanto, são notícias negativas, afinal, o Weibo oficial de Xueersi também postou uma resposta recentemente: “Em primeiro lugar, o MathGPT é um grande modelo autodesenvolvido com foco no campo da matemática, sem nenhum dado relacionado à composição; em segundo lugar, o 'Composition AI Assistant' está atualmente em desenvolvimento. O status ainda não foi liberado e o serviço não usa nenhum dado da Penshen Composition."
Quanto ao ponto chave deste incidente, mais de 2,5 milhões de vezes de rastreamento de dados, Xueersi apontou que o contrato afirmava claramente que "o número de chamadas incluídas na taxa mensal garantida é da ordem de milhões", e a interface chamada "pertence a ambas as partes. O escopo normal de cooperação estipulado no contrato". Ao final da resposta, Xueersi enfatizou que "sempre respeita os direitos de propriedade intelectual e atribui grande importância à proteção da propriedade intelectual", e todas as ações são realizadas em estrita conformidade com o contrato, mas "a declaração pública da Penshen Composition já causou danos à reputação da marca Xueersi. Reservamo-nos o direito de perseguir sua responsabilidade por violação de reputação."
3. Questões de direitos autorais de dados
No que diz respeito às declarações atuais das duas partes, é muito cedo para tirar qualquer conclusão, mas isso também revela um aspecto muito importante, mas facilmente esquecido do quente mercado de modelos em grande escala nos últimos seis meses: a propriedade dos direitos autorais de dados de treinamento de IA. É também por esse motivo que o Reddit, conhecido como a "versão americana do Tieba", tem feito muito barulho na Internet recentemente.
Devido ao rico conteúdo de bate-papo acumulado ao longo dos anos no Reddit, tornou-se o material usado pelo Google, Microsoft, OpenAI e outras empresas para treinar grandes modelos de linguagem. ChatGPT e outros eloquentes e mais tarde se tornaram populares em todo o mundo, o Reddit também contribuiu . Mas agora, com a popularidade desses produtos semelhantes ao GPT, o fundador e CEO do Reddit disse uma vez: ** "Os dados do corpus do Reddit são muito valiosos, mas não queremos fornecer esse conteúdo para algumas empresas gigantes de graça."* Na sequência Depois de se manifestar, o Stack Overflow, outro conhecido site de perguntas e respostas de TI, também anunciou que planeja cobrar taxas de acesso a dados de grandes desenvolvedores a partir de meados deste ano. Seu CEO também disse: ** "O desenvolvimento recente do modelo de linguagem grande também se beneficia da promoção da comunidade, a comunidade também deve ser compensada por suas contribuições."*
Sem dúvida, no processo de AGI e grandes modelos se tornando cada vez mais inteligentes da minoria para o público, dos bastidores para a frente do palco, dados de treinamento massivos são indispensáveis. No entanto, a julgar pelo desempenho atual de várias empresas, até mesmo a OpenAI, a atual primeira irmã, não tem uma boa solução para a questão dos direitos autorais dos dados de treinamento. A razão não é difícil de entender. A versão inicial do GPT dificilmente atraiu a atenção do mundo exterior. Naquela época, as pessoas estavam céticas sobre se poderia ser comercializado. Naturalmente, ninguém se importava com fontes de dados e questões de direitos autorais. Quando o ChatGPT for lançado, um enorme valor de uso, valor comercial e ascensão social surgirão, e o sistema legal tradicional, modelo econômico, ideias de desenvolvimento, etc., imediatamente se tornarão problemas para você.
Independentemente de ser verdade ou não e qual é o resultado final, desta vez, Bishen Composition e Xueersi encenaram em conjunto o primeiro drama de direitos autorais de dados de modelos em grande escala na China e também trouxeram alguma inspiração para a indústria doméstica de modelos em grande escala e empreendimentos. Embora seja apenas uma disputa de um yuan, é de grande importância. Talvez quando dezenas de milhares de dramas forem lançados no futuro, se olharmos para a declaração de hoje de Penshen Composition e Xueersi, descobriremos que esse dólar é realmente presciente.
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
Os resultados de seis anos foram rastreados mais de 2,5 milhões de vezes em um fim de semana, como proteger os direitos autorais dos dados na nova era
No mês passado, a conhecida instituição educacional Xueersi revelou que está desenvolvendo um grande modelo matemático MathGPT, voltado para entusiastas globais da matemática e grandes instituições de pesquisa científica, e anda sobre duas pernas na resolução de problemas e palestras. Naquela época, muitas pessoas sentiram que quando o grande modelo de linguagem global que você cantou e eu subimos no palco, finalmente um grande modelo de versão científica estava chegando. No entanto, mais de um mês se passou e o desenvolvimento da realidade foi em outra direção.
Na terça-feira, 13 desta semana, a ferramenta de escrita AI "Pen Shen Composition" acusou Xueersi de acessar ilegalmente e armazenar em cache os dados de seu servidor mais de 2,5 milhões de vezes por meio da tecnologia "crawler", a fim de desenvolver o novo produto "Composition AI Assistant" do MathGPT " ", e reivindicou um yuan.
Um, seis anos de conquistas e um final de semana
A Penshen Composition foi criada em dezembro de 2017. É uma plataforma de educação de composição para K12, ou seja, do ensino fundamental ao ensino médio doméstico. É afiliada à Beijing Yiyilianghua Technology Co., Ltd. Embora houvesse vozes e conceitos de combinar IA com IA quando ela foi estabelecida, as expectativas do mercado e o desempenho real não eram tão quentes quanto agora, e a atenção que atraía era muito limitada. No entanto, mesmo assim, a Penshen Composition ainda contava com sua característica de "usar a tecnologia de IA para ajudar os escritores a melhorar sua capacidade de escrita" Concluiu o financiamento multimilionário da Buhuo Venture Capital em julho.
De acordo com dados oficiais, nos seis anos desde o seu lançamento, a Penshen Composition recebeu mais de 300.000 envios de ensaios e mais de 400.000 curtidas e comentários todos os meses. Acumulou milhões de materiais de ensaios e ensaios corrigidos todos os meses. Também há mais de 30.000 artigos. Depois que o ChatGPT foi lançado no final do ano passado, Shiji Tianhong, um dos investidores da Penshen Composition, disse uma vez que "Pensus" e a tecnologia ChatGPT têm a mesma origem, e ambos usam o algoritmo mais avançado baseado em transformador como a tecnologia subjacente . Song Jiawei, o fundador da Bishen Composition, também apresentou: "Um golpe e dois golpes atualmente têm mais de 60% do pessoal técnico de P&D na equipe. Antes do estabelecimento da empresa, eles fundaram empresas de PNL. Alguns backbones foram profundamente envolvido no campo da PNL por muitos anos e continua a acumular."
** Portanto, em geral, o modelo de algoritmo da PenShen Composition é autodesenvolvido e treinado pela empresa, e o big data usado pela plataforma é derivado principalmente de seu próprio acúmulo. **Devido à tecnologia acumulada e frutífera na escrita, Penshen Composition e Xueersi formalmente lançaram uma cooperação há três anos e assinaram um contrato com o aplicativo de ferramenta de aprendizado de Xueersi "Tipai Pai", que é o principal responsável por fornecer o serviço de consulta de material de composição.
No entanto, como parceiro, a Bishen Composition declarou recentemente: De 13 a 17 de abril, as conquistas de nossa equipe nos seis anos desde nossa fundação foram impiedosamente apunhaladas pelas costas por "Xueersi", que cooperaram por muitos anos. Rastreou mais de 2,5 milhões de vezes em apenas um tempo! Xueersi anunciou o MathGPT em maio, e o momento é muito coincidente.
2. Escreva o Apelo de Deus e a Resposta de Xue Ersi
** A julgar pela declaração emitida pelo Weibo oficial da Penshen Composition, ele não possui um mecanismo de segurança de dados completo e não possui defesa contra seu "parceiro" Xueersi, que levou a subsidiária Santi Yunlian (Xueersi) Si) aproveitou da confiança um do outro. ** A este respeito, Bishen Composition afirmou que este comportamento obviamente ignora os termos do contrato entre as duas partes, e também viola o Artigo 32 da "Lei de Proteção de Dados" "Qualquer organização ou coleta de dados individual deve adotar leis legais e adequadas métodos. Não roube ou obtenha dados de outras formas ilegais "violou gravemente os direitos de dados do Bishenzuowen APP. Imediatamente depois, a Penshen Composition encontrou Xueersi para verificação, e a outra parte não procrastinou e admitiu diretamente que sua equipe de algoritmos estava rastreando os dados e usando-os para seu próprio uso. Portanto, a Bishen Composition enviou uma carta de advogado, mas desta vez não recebeu uma resposta substantiva de Xueersi.
"Como uma empresa muito menor que a Xueersi, não temos escolha a não ser proteger nossos próprios direitos por meio de canais legais." No entanto, a Bishen Composition também apontou na declaração que as leis e regulamentos atuais não "precedem o julgamento de roubo de dados de grande modelo de IA". , por isso só pode "dar este primeiro passo com coragem". Quanto ao apelo real da composição de Penshen, na verdade não é difícil: ** só quer que Xueersi pague um yuan em compensação, peça desculpas publicamente e exclua os dados rastreados. **
A explicação da Penshen Composition para isso é: "Os dados são valiosos, os esforços meticulosos não têm preço e a reivindicação de um yuan é porque a justiça e a justiça não podem ser medidas por dinheiro. Esperamos contar à outra parte por meio de litígio e dizer à sociedade que esse comportamento terá que pagar um preço. Indústria de IA O desenvolvimento da indústria exige que todos trabalhem e criem juntos, em vez de cobiçar e plagiar as conquistas dos outros."
Quanto ao ponto chave deste incidente, mais de 2,5 milhões de vezes de rastreamento de dados, Xueersi apontou que o contrato afirmava claramente que "o número de chamadas incluídas na taxa mensal garantida é da ordem de milhões", e a interface chamada "pertence a ambas as partes. O escopo normal de cooperação estipulado no contrato". Ao final da resposta, Xueersi enfatizou que "sempre respeita os direitos de propriedade intelectual e atribui grande importância à proteção da propriedade intelectual", e todas as ações são realizadas em estrita conformidade com o contrato, mas "a declaração pública da Penshen Composition já causou danos à reputação da marca Xueersi. Reservamo-nos o direito de perseguir sua responsabilidade por violação de reputação."
3. Questões de direitos autorais de dados
No que diz respeito às declarações atuais das duas partes, é muito cedo para tirar qualquer conclusão, mas isso também revela um aspecto muito importante, mas facilmente esquecido do quente mercado de modelos em grande escala nos últimos seis meses: a propriedade dos direitos autorais de dados de treinamento de IA. É também por esse motivo que o Reddit, conhecido como a "versão americana do Tieba", tem feito muito barulho na Internet recentemente.
Devido ao rico conteúdo de bate-papo acumulado ao longo dos anos no Reddit, tornou-se o material usado pelo Google, Microsoft, OpenAI e outras empresas para treinar grandes modelos de linguagem. ChatGPT e outros eloquentes e mais tarde se tornaram populares em todo o mundo, o Reddit também contribuiu . Mas agora, com a popularidade desses produtos semelhantes ao GPT, o fundador e CEO do Reddit disse uma vez: ** "Os dados do corpus do Reddit são muito valiosos, mas não queremos fornecer esse conteúdo para algumas empresas gigantes de graça."* Na sequência Depois de se manifestar, o Stack Overflow, outro conhecido site de perguntas e respostas de TI, também anunciou que planeja cobrar taxas de acesso a dados de grandes desenvolvedores a partir de meados deste ano. Seu CEO também disse: ** "O desenvolvimento recente do modelo de linguagem grande também se beneficia da promoção da comunidade, a comunidade também deve ser compensada por suas contribuições."*
Sem dúvida, no processo de AGI e grandes modelos se tornando cada vez mais inteligentes da minoria para o público, dos bastidores para a frente do palco, dados de treinamento massivos são indispensáveis. No entanto, a julgar pelo desempenho atual de várias empresas, até mesmo a OpenAI, a atual primeira irmã, não tem uma boa solução para a questão dos direitos autorais dos dados de treinamento. A razão não é difícil de entender. A versão inicial do GPT dificilmente atraiu a atenção do mundo exterior. Naquela época, as pessoas estavam céticas sobre se poderia ser comercializado. Naturalmente, ninguém se importava com fontes de dados e questões de direitos autorais. Quando o ChatGPT for lançado, um enorme valor de uso, valor comercial e ascensão social surgirão, e o sistema legal tradicional, modelo econômico, ideias de desenvolvimento, etc., imediatamente se tornarão problemas para você.