La coquille domestique à grande échelle est un phénomène dont on se plaint depuis longtemps.
Récemment, Jia Yangqing, ancien vice-président d’Alibaba et taureau bien connu des cadres d’IA, a posté sur Moments hier pour fustiger le modèle de coquille LLaMA d’un grand fabricant national.
L’essentiel est le suivant : changez-le si vous le souhaitez, mais ne le cachez pas et ne volez pas la cloche, de peur que la petite entreprise ne fasse un travail d’adaptation redondant...
En réponse à cette nouvelle, de nombreuses personnes dans l’industrie ont spéculé que « l’usine de coquillages » mentionnée par Jia Yangqing est en fait le zéro et le dix mille choses qui viennent de sortir le grand modèle Yi-34B il n’y a pas si longtemps.
En tant que premier grand modèle de l’équipe d’IA de Kai-Fu Lee, Yi-34B a 34B paramètres, est également basé sur l’architecture GPT et a obtenu les premiers résultats dans les deux classements de modèles open-source de Hugging Face et C-.
Cependant, peu de temps après la sortie du modèle, la communauté Hugging Face a laissé un message à Zero One Things, lui demandant de modifier le tenseur du modèle.
La raison en est la suivante : à l’exception de deux tenseurs qui ont été renommés, Yi utilise entièrement l’architecture de Llama.
Voyant cela, de nombreuses personnes dans l’industrie ont froncé les sourcils : s’agit-il d’une « coquille » nue ?
Si c’est le cas, pourquoi la vague des grands modèles est-elle passée depuis plus de six mois, et ce genre d'« atmosphère tordue » est encore en train d’émerger ?
1
Qu’est-ce qu’une « coquille » ?
En fait, peu de temps après l’incident, Zero One Thing a répondu, admettant que la conception structurelle de Yi-34B est basée sur la structure mature de GPT, en s’appuyant sur les résultats publics de LLaMA, mais cela doit être cohérent avec le courant dominant de l’industrie et plus propice à l’adaptation et à l’itération.
Cependant, cette interprétation soulève une question importante, à savoir : comment définir clairement « coquille » et « emprunt » ?
Est-ce que modifier et ajuster sur la base du modèle open source est une sorte de comportement de « bombardement » ?
D’un point de vue technique, la clé pour déterminer si un projet est « emprunt » ou « tubage » est d’évaluer si les améliorations ou optimisations apportées sont substantielles et originales.
Au cours de ce processus, les développeurs ajoutent une valeur significative au modèle existant, par exemple en introduisant de nouvelles techniques de traitement des données, en optimisant les performances des algorithmes ou en développant des fonctionnalités spécifiques à un secteur ou à une application.
Dans le même temps, les développeurs indiquent souvent clairement sur quel modèle open source leurs modifications sont basées et expliquent les améliorations et les innovations qu’ils ont apportées. Cette approche s’inscrit dans les principes et l’esprit de la communauté open source.
À l’inverse, si les modifications sont superficielles et n’apportent pas de nouvelles informations techniques ou d’améliorations substantielles des performances, elles peuvent être considérées comme des cas de tubage.
Alors cette fois-ci, le Yi-34B avec zéro et mille choses, est-il considéré comme un obus ?
À en juger par les informations qui ont été publiées, l’approche de 0100000 semble se situer quelque part entre le « bombardement » et « l’emprunt ».
Ils s’appuient dans une certaine mesure sur l’architecture de LLaMA, mais ils font aussi leur propre travail et innovation dans le traitement des données, les méthodes de formation, etc.
Par exemple, il a utilisé son propre pipeline de données, sélectionné des données de haute qualité allant de 3 Po de données brutes à des jetons 3T, et testé différentes méthodes Norm dans la largeur et la profondeur du réseau.
Ces améliorations peuvent ne pas être aussi faciles à observer directement à partir de l’architecture ou du code du modèle, et elles sont souvent intégrées au modèle plutôt que directement reflétées dans l’infrastructure du modèle.
Dans ce cas, il peut être injuste de le classer entièrement comme un « boîtier ».
Cependant, il ne peut pas être considéré comme une « référence » indépendante en raison de la grande similitude entre son architecture de modèle et l’architecture LLaMA.
Lorsqu’un nouveau modèle est très similaire ou presque identique à un modèle open source existant en termes d’architecture de base, il est difficile d’être considéré comme un « emprunt » indépendant, même s’il est par ailleurs innovant et amélioré.
2
PRESSION DU TEMPS
Bien que l’accident de 010000 choses cette fois ne soit peut-être pas une « coquille » complète, la situation de la « coquille » des modèles domestiques à grande échelle existe en effet depuis longtemps.
Pourquoi les grands modèles domestiques sont-ils répétés en « cascade » ?
En plus de la pénurie de puissance de calcul, de talents et de fonds, qui pousse certaines équipes à « trouver une autre voie », une autre raison importante est que la fenêtre de temps actuelle pour l’entrepreneuriat modèle à grande échelle est devenue de plus en plus étroite.
Après tout, l’engouement pour les grands modèles brûle depuis plus de six mois, et les joueurs qui auraient dû entrer dans le jeu sont déjà entrés dans le jeu, et le modèle de l’ensemble de l’industrie a été fondamentalement formé.
Le statut des principaux fabricants a été ébranlé, et leurs homologues étrangers innovent constamment, et il ne reste vraiment plus beaucoup de temps à l’équipe de la couche de modélisme.
Dans le cas de plus en plus de grands modèles similaires sur le marché, pourquoi les clients devraient-ils s’en tenir à un grand modèle qui est lent à se développer et l’avenir n’est pas très clair ?
Le besoin de solutions rapides est imminent. Les besoins des clients ne peuvent pas attendre. Ils ont besoin de solutions qui fonctionnent maintenant, pas dans des années.
Sous une telle pression, certaines équipes ont fait un choix : utiliser le modèle open source comme base, l’améliorer et le personnaliser pour répondre aux besoins du marché.
Après tout, même avec les meilleurs talents, le processus d’innovation et de développement interne est long et incertain. Étant donné que le domaine de l’intelligence artificielle évolue et change rapidement, l’incertitude du marché et de la technologie entraîne d’énormes risques pour la R&D.
Avant le mois d’octobre de cette année, de nombreuses équipes nationales considéraient GPT-4 comme une cible de « benchmarking ». Cependant, comme tout le monde le sait, vous avancez, et votre adversaire avance aussi.
À la fin du mois de septembre, OpenAI a lancé DALL-E3, suivi de GPT-4V et des fonctions d’interaction vocale, ce qui l’a fait passer au niveau multimodal.
Au début du mois de novembre, une série de mises à jour « king bomb » lors de la conférence des développeurs a étouffé les modèles nationaux qui voulaient percer dans le « domaine local » avec des longueurs de texte plus longues, une nouvelle API Assistants et une technologie de synthèse vocale (TTS).
Dans le contexte de l’itération rapide de la technologie, de nombreuses équipes ont encore du mal à développer de grands modèles, qui peuvent être obsolètes avant d’être publiés.
Pour les équipes de startups, tout en maintenant l’innovation technologique, il est également nécessaire de considérer la faisabilité du modèle d’affaires et l’acceptation du marché.
Le modèle open source, qui dispose d’un framework mature et est largement reconnu par le marché, est sans aucun doute devenu une solution fiable et immédiatement utilisable.
De plus, les frameworks open source matures disposent souvent d’une grande communauté de support, ce qui signifie que les équipes peuvent obtenir plus d’aide lorsqu’elles rencontrent des problèmes.
Dans le même temps, d’autres développeurs de la communauté ont peut-être déjà résolu certains problèmes communs, et l’équipe peut directement apprendre de ces solutions pour éviter la duplication des efforts.
3
Modèle Shell, puis-je voter ?
Dans le cas où la « coquille » des modèles nationaux à grande échelle est devenue un phénomène courant et qu’il est très probable qu’elle devienne la norme à l’avenir, tous les investisseurs doivent faire face à un problème, c’est-à-dire :
Si vous insistez pour rechercher des sociétés investissables dans ces grandes sociétés modèles « fictives », comment devriez-vous choisir ?
Lorsque l’on considère cela, il y a un facteur très important, à savoir :
Ces entreprises modèles à grande échelle sont-elles complètement dépendantes de la « coquille » et n’ont-elles pas d’efforts et de plans de recherche et de développement indépendants, ou utilisent-elles la « coquille » comme un moyen de compromis et de transition, mais ont-elles un plan de développement clair à long terme, une vision novatrice et la capacité de se tourner éventuellement vers la recherche et le développement indépendants ?
Ces deux situations doivent être traitées différemment.
Une mesure importante à mesurer lorsque l’on examine ces deux types d’entreprises est la feuille de route de la technologie et du produit.
Parce qu’une feuille de route claire et tournée vers l’avenir en matière de technologie et de produits reflète directement l’intention stratégique à long terme et les capacités d’innovation de l’entreprise. Il indique non seulement si l’entreprise a l’intention de passer de la recherche et du développement « shell » à la recherche et au développement indépendants, mais indique également l’orientation du développement technologique futur et la compétitivité potentielle de l’entreprise sur le marché.
En fait, il n’est pas rare dans les entreprises d’entrer sur le marché de la même manière que le « shell », mais de s’appuyer finalement sur des produits développés par l’entreprise pour obtenir la reconnaissance des utilisateurs.
Par exemple, Xiaomi à l’ère de l’Internet mobile en est un exemple clair.
Au début, les smartphones de Xiaomi semblaient au monde extérieur simplement imiter le design et les fonctionnalités d’autres marques, en particulier Apple. Ses premiers produits ont été critiqués pour leur manque d’innovation et s’appuyaient davantage sur la conception et le système d’exploitation existants (le système MIUI basé sur Android).
Cependant, Xiaomi a depuis démontré un engagement à long terme envers sa propre feuille de route technologique et produit, non seulement en termes de logiciel (système MIUI), mais aussi en termes de conception matérielle, d’innovation fonctionnelle et d’expérience utilisateur.
Par exemple, sa puce de téléphone mobile Surge S1 qu’elle a développée en interne marque l’innovation indépendante de Xiaomi dans le domaine de la technologie de base de la téléphonie mobile.
Au fil du temps, Xiaomi a obtenu des notes extrêmement élevées et une large base d’utilisateurs sur le marché avec des technologies plus innovantes.
De même, il n’est pas exclu que certaines entreprises aient des itinéraires techniques à long terme parmi les entreprises modèles nationales à grande échelle qui sont actuellement des « coquilles » nationales.
Si vous le regardez de ce point de vue, la soi-disant « coquille » ne signifie pas que les sombres perspectives des grands modèles nationaux.
Du point de vue de l’industrie, seules un plus grand nombre d’entreprises ayant un potentiel d’innovation ont survécu au « grand filtre » au début de la vague de l’IA, et davantage d’innovations indépendantes pourraient émerger à l’avenir.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Pourquoi le grand modèle du boîtier est-il toujours en vie ?
Source originale : AI New Intelligence
La coquille domestique à grande échelle est un phénomène dont on se plaint depuis longtemps.
Récemment, Jia Yangqing, ancien vice-président d’Alibaba et taureau bien connu des cadres d’IA, a posté sur Moments hier pour fustiger le modèle de coquille LLaMA d’un grand fabricant national.
L’essentiel est le suivant : changez-le si vous le souhaitez, mais ne le cachez pas et ne volez pas la cloche, de peur que la petite entreprise ne fasse un travail d’adaptation redondant...
En tant que premier grand modèle de l’équipe d’IA de Kai-Fu Lee, Yi-34B a 34B paramètres, est également basé sur l’architecture GPT et a obtenu les premiers résultats dans les deux classements de modèles open-source de Hugging Face et C-.
Cependant, peu de temps après la sortie du modèle, la communauté Hugging Face a laissé un message à Zero One Things, lui demandant de modifier le tenseur du modèle.
La raison en est la suivante : à l’exception de deux tenseurs qui ont été renommés, Yi utilise entièrement l’architecture de Llama.
Si c’est le cas, pourquoi la vague des grands modèles est-elle passée depuis plus de six mois, et ce genre d'« atmosphère tordue » est encore en train d’émerger ?
1
Qu’est-ce qu’une « coquille » ?
En fait, peu de temps après l’incident, Zero One Thing a répondu, admettant que la conception structurelle de Yi-34B est basée sur la structure mature de GPT, en s’appuyant sur les résultats publics de LLaMA, mais cela doit être cohérent avec le courant dominant de l’industrie et plus propice à l’adaptation et à l’itération.
Cependant, cette interprétation soulève une question importante, à savoir : comment définir clairement « coquille » et « emprunt » ?
Est-ce que modifier et ajuster sur la base du modèle open source est une sorte de comportement de « bombardement » ?
D’un point de vue technique, la clé pour déterminer si un projet est « emprunt » ou « tubage » est d’évaluer si les améliorations ou optimisations apportées sont substantielles et originales.
Dans le même temps, les développeurs indiquent souvent clairement sur quel modèle open source leurs modifications sont basées et expliquent les améliorations et les innovations qu’ils ont apportées. Cette approche s’inscrit dans les principes et l’esprit de la communauté open source.
À l’inverse, si les modifications sont superficielles et n’apportent pas de nouvelles informations techniques ou d’améliorations substantielles des performances, elles peuvent être considérées comme des cas de tubage.
Alors cette fois-ci, le Yi-34B avec zéro et mille choses, est-il considéré comme un obus ?
Ils s’appuient dans une certaine mesure sur l’architecture de LLaMA, mais ils font aussi leur propre travail et innovation dans le traitement des données, les méthodes de formation, etc.
Par exemple, il a utilisé son propre pipeline de données, sélectionné des données de haute qualité allant de 3 Po de données brutes à des jetons 3T, et testé différentes méthodes Norm dans la largeur et la profondeur du réseau.
Ces améliorations peuvent ne pas être aussi faciles à observer directement à partir de l’architecture ou du code du modèle, et elles sont souvent intégrées au modèle plutôt que directement reflétées dans l’infrastructure du modèle.
Cependant, il ne peut pas être considéré comme une « référence » indépendante en raison de la grande similitude entre son architecture de modèle et l’architecture LLaMA.
Lorsqu’un nouveau modèle est très similaire ou presque identique à un modèle open source existant en termes d’architecture de base, il est difficile d’être considéré comme un « emprunt » indépendant, même s’il est par ailleurs innovant et amélioré.
2
PRESSION DU TEMPS
Bien que l’accident de 010000 choses cette fois ne soit peut-être pas une « coquille » complète, la situation de la « coquille » des modèles domestiques à grande échelle existe en effet depuis longtemps.
Pourquoi les grands modèles domestiques sont-ils répétés en « cascade » ?
En plus de la pénurie de puissance de calcul, de talents et de fonds, qui pousse certaines équipes à « trouver une autre voie », une autre raison importante est que la fenêtre de temps actuelle pour l’entrepreneuriat modèle à grande échelle est devenue de plus en plus étroite.
Après tout, l’engouement pour les grands modèles brûle depuis plus de six mois, et les joueurs qui auraient dû entrer dans le jeu sont déjà entrés dans le jeu, et le modèle de l’ensemble de l’industrie a été fondamentalement formé.
Dans le cas de plus en plus de grands modèles similaires sur le marché, pourquoi les clients devraient-ils s’en tenir à un grand modèle qui est lent à se développer et l’avenir n’est pas très clair ?
Le besoin de solutions rapides est imminent. Les besoins des clients ne peuvent pas attendre. Ils ont besoin de solutions qui fonctionnent maintenant, pas dans des années.
Sous une telle pression, certaines équipes ont fait un choix : utiliser le modèle open source comme base, l’améliorer et le personnaliser pour répondre aux besoins du marché.
Après tout, même avec les meilleurs talents, le processus d’innovation et de développement interne est long et incertain. Étant donné que le domaine de l’intelligence artificielle évolue et change rapidement, l’incertitude du marché et de la technologie entraîne d’énormes risques pour la R&D.
À la fin du mois de septembre, OpenAI a lancé DALL-E3, suivi de GPT-4V et des fonctions d’interaction vocale, ce qui l’a fait passer au niveau multimodal.
Au début du mois de novembre, une série de mises à jour « king bomb » lors de la conférence des développeurs a étouffé les modèles nationaux qui voulaient percer dans le « domaine local » avec des longueurs de texte plus longues, une nouvelle API Assistants et une technologie de synthèse vocale (TTS).
Dans le contexte de l’itération rapide de la technologie, de nombreuses équipes ont encore du mal à développer de grands modèles, qui peuvent être obsolètes avant d’être publiés.
Pour les équipes de startups, tout en maintenant l’innovation technologique, il est également nécessaire de considérer la faisabilité du modèle d’affaires et l’acceptation du marché.
Le modèle open source, qui dispose d’un framework mature et est largement reconnu par le marché, est sans aucun doute devenu une solution fiable et immédiatement utilisable.
Dans le même temps, d’autres développeurs de la communauté ont peut-être déjà résolu certains problèmes communs, et l’équipe peut directement apprendre de ces solutions pour éviter la duplication des efforts.
3
Modèle Shell, puis-je voter ?
Dans le cas où la « coquille » des modèles nationaux à grande échelle est devenue un phénomène courant et qu’il est très probable qu’elle devienne la norme à l’avenir, tous les investisseurs doivent faire face à un problème, c’est-à-dire :
Si vous insistez pour rechercher des sociétés investissables dans ces grandes sociétés modèles « fictives », comment devriez-vous choisir ?
Lorsque l’on considère cela, il y a un facteur très important, à savoir :
Ces entreprises modèles à grande échelle sont-elles complètement dépendantes de la « coquille » et n’ont-elles pas d’efforts et de plans de recherche et de développement indépendants, ou utilisent-elles la « coquille » comme un moyen de compromis et de transition, mais ont-elles un plan de développement clair à long terme, une vision novatrice et la capacité de se tourner éventuellement vers la recherche et le développement indépendants ?
Une mesure importante à mesurer lorsque l’on examine ces deux types d’entreprises est la feuille de route de la technologie et du produit.
Parce qu’une feuille de route claire et tournée vers l’avenir en matière de technologie et de produits reflète directement l’intention stratégique à long terme et les capacités d’innovation de l’entreprise. Il indique non seulement si l’entreprise a l’intention de passer de la recherche et du développement « shell » à la recherche et au développement indépendants, mais indique également l’orientation du développement technologique futur et la compétitivité potentielle de l’entreprise sur le marché.
En fait, il n’est pas rare dans les entreprises d’entrer sur le marché de la même manière que le « shell », mais de s’appuyer finalement sur des produits développés par l’entreprise pour obtenir la reconnaissance des utilisateurs.
Par exemple, Xiaomi à l’ère de l’Internet mobile en est un exemple clair.
Cependant, Xiaomi a depuis démontré un engagement à long terme envers sa propre feuille de route technologique et produit, non seulement en termes de logiciel (système MIUI), mais aussi en termes de conception matérielle, d’innovation fonctionnelle et d’expérience utilisateur.
Par exemple, sa puce de téléphone mobile Surge S1 qu’elle a développée en interne marque l’innovation indépendante de Xiaomi dans le domaine de la technologie de base de la téléphonie mobile.
Au fil du temps, Xiaomi a obtenu des notes extrêmement élevées et une large base d’utilisateurs sur le marché avec des technologies plus innovantes.
Si vous le regardez de ce point de vue, la soi-disant « coquille » ne signifie pas que les sombres perspectives des grands modèles nationaux.
Du point de vue de l’industrie, seules un plus grand nombre d’entreprises ayant un potentiel d’innovation ont survécu au « grand filtre » au début de la vague de l’IA, et davantage d’innovations indépendantes pourraient émerger à l’avenir.