Qué optimizaciones y avances se producirán cuando el gran modelo luche en 2.0

Texto original: The Paper, autor: Che Xingyun

Fuente de la imagen: Generada por Unbounded AI‌

En junio de este año, los principales fabricantes actualizaron sus productos similares a ChatGPT. El 9 de junio, Xunfei lanzó una versión mejorada de Xinghuo Cognitive Big Model; el 13 de junio, después de lanzar el producto similar a ChatGPT, 360 celebró nuevamente la Conferencia de aplicaciones 360 Smart Brain Big Model.

A diferencia de los modelos grandes lanzados alrededor de febrero, los productos actualizados lanzados recientemente por varias compañías están más sesgados hacia la capa de aplicación y el propósito es hacerlo más fácil para miles de hogares.

A juzgar por la versión actual, 360 Intellectual Brain inicialmente poseía capacidades de generación multimodal. Además de generar texto, tablas e imágenes a partir de texto, generar texto e imágenes a partir de imágenes, generar texto a partir de videos y cortar videos a partir de textos y otras creaciones básicas Además, también redefine "humano digital" para brindar a los usuarios una "inteligencia artificial" personalizable y exclusiva que "tiene un alma, un diseño humano y una memoria".

En la actualidad, el escenario de aplicación con la distancia más cercana entre 360 Smart Brain y los usuarios es el cubo familiar existente de 360. Zhou Hongyi dijo en la conferencia de prensa que "360 Smart Brain 4.0" se conectará a 360 Security Guard, 360 Browser, 360 Search, etc. Colaboración hombre-máquina.

En la conferencia de prensa, Zhou Hongyi cambió su punto de vista anterior: "Una vez dije que la brecha entre el modelo doméstico a gran escala y ChatGPT es de dos años, y ahora quiero retirar esta oración". El nivel está a la par. con GPT3.5, y si se desarrolla a esta velocidad, alcanzará o incluso superará a GPT4 en un abrir y cerrar de ojos.

Dentro de los cuatro meses desde el lanzamiento de la versión inicial hasta el lanzamiento oficial de 360 Smart Brain, ¿Zhou Hongyi vio un cambio tan grande?

Gigante de la ciencia y la tecnología cazando modelo grande

El "Informe de investigación de mapas de modelos a gran escala de inteligencia artificial de China" publicado en el Foro Zhongguancun de 2023 muestra que en la actualidad, los modelos a gran escala de inteligencia artificial de China muestran una tendencia de desarrollo vigoroso. Según estadísticas incompletas, hasta ahora, se han lanzado en todo el país 79 modelos a gran escala con parámetros de más de mil millones.

Sin embargo, los parámetros de los modelos a gran escala de las principales empresas de tecnología son relativamente grandes: los parámetros del modelo grande Alibaba Tongyi Qianwen superan los 10 billones, los parámetros del modelo grande Tencent Hunyuan y el modelo grande Pangu de Huawei superan el billón , y el modelo grande de Baidu Wenxin tiene parámetros de más de un billón. El volumen de parámetros del modelo a gran escala es más de 200 mil millones, y el volumen de parámetros del modelo grande de JD Yanxi es de 100 mil millones; el volumen de parámetros de las empresas de tecnología en industrias verticales es generalmente más de 100 mil millones, y el volumen de parámetros del gran modelo de las instituciones de investigación científica en el nivel de cien mil millones y por debajo.

Desde la perspectiva del sistema de diseño del modelo grande, las principales empresas de tecnología han llevado a cabo un diseño integral cuatro en uno en la capa de potencia informática, la capa de plataforma, la capa de modelo y la capa de aplicación. Baidu, Ali y Huawei tienen un diseño integral de investigación y desarrollo independientes, desde chips hasta aplicaciones, como el "núcleo Kunlun + plataforma de paletas voladoras + modelo grande Wenxin + aplicación industrial", el "chip Hanguang 800 + base M6-OFA" de Ali + Tongyi modelo grande + aplicación industrial", el "chip Shengteng + marco MindSpore + Pangu modelo grande + aplicación industrial" de Huawei.

Además, Kingsoft Office también lanzó WPS AI el 31 de mayo. En la actualidad, WPSAI se ha conectado a los componentes de oficina de Kingsoft Office, como documentos ligeros, texto, tablas, presentaciones y PDF. En el futuro, anclará AIGC, comprensión de lectura. , preguntas y respuestas, e interacción hombre-computadora desarrollo en una dirección estratégica y acceso a la línea completa de productos de Kingsoft Office.

La rápida afluencia de varios de los principales fabricantes en esta pista se debe principalmente al rápido seguimiento y la introducción de medidas por parte de las autoridades reguladoras para regular el desarrollo de la industria Con la escolta de la estructura de nivel superior, cada fabricante importante puede, naturalmente, invierte en investigación y desarrollo y lanza productos con confianza.

Desde que se lanzó el modelo a gran escala en lotes en marzo de este año, las políticas regulatorias de IA se han aclarado gradualmente, lo que también ha señalado la dirección para las aplicaciones de la industria.

Mirando hacia atrás en el desarrollo de toda la industria, el 11 de abril, el "Método de Gestión de Servicios de Inteligencia Artificial Generativa" fue lanzado para comentarios; el 30 de mayo, el Instituto de Tecnología de la Información y las Comunicaciones está preparando conjuntamente el modelo abierto de inteligencia artificial "Kite". licencia, y el siguiente paso será emitir la " Licencia de modelo de inteligencia artificial abierta de Zhikite (borrador para comentarios).

Posteriormente, las ciudades de primer nivel publicaron conjuntamente el "Plan de implementación de Beijing para acelerar la construcción de una fuente de innovación de inteligencia artificial influyente a nivel mundial (2023-2025)"; Año)".

En este contexto, Zhou Hongyi cree que el modelo grande doméstico reducirá rápidamente la brecha con ChatGPT, lo que parece fácil de entender.

¿Cuál es la diferencia entre 360 Smart Brain

Según el plan de Zhou Hongyi, el modelo grande 360 se basará en la actualización continua del modelo grande, teniendo en cuenta la puesta en escena, la producción, el aplanamiento y la verticalización.

Bajo esta estrategia de desarrollo, 360 Smart Brain puede llegar al consumidor (asistente de IA personal del usuario), pequeñas y medianas empresas (aplicación vertical SaaS), empresas/gobiernos/ciudades (modelo de implementación privatizado), industria (modelo vertical industrial) y otros cuatro principales escenarios de aplicación.

Para satisfacer mejor las necesidades de los diferentes escenarios mencionados anteriormente, el modelo general a gran escala debe completar la transformación de la entrada de texto a la salida de texto, a la comprensión de imágenes y videos, y a la capacidad de producir imágenes y videos en los existentes. base, que es equivalente a hacer el modelo a gran escala Con "oídos" y "ojos", sienta las bases para crear un "humano digital".

Los humanos digitales tradicionales solo necesitan producir de acuerdo con el guión establecido, pero en la era de los modelos grandes, los humanos digitales 360 se pueden personalizar, por lo que las personas están diseñadas, tienen recuerdos y experiencia. Actualmente, hay más de 200 caracteres en el 360 Plataforma digital humana cuadrada, dividida en dos categorías: celebridades digitales y empleados digitales. 360 espera que, en el futuro, todos tengan su propio asistente de inteligencia artificial y tengan la oportunidad de comunicarse con personas antiguas en el espacio virtual, a través del tiempo y el espacio.

En la reunión de demostración, Zhou Hongyi preguntó a "Zhuge Liang" cómo cree que se ha convertido en un material para fantasmas y animales hoy, y el hombre digital respondió en el tono de Zhuge Liang: el destino del pasado y el presente es inevitable. En la situación actual, el mundo está en crisis. Aunque soy viejo, sigo apuntando al mundo. Los jóvenes de hoy me usan como material para fantasmas y animales, y acepto este cambio de buena gana. Y deseo que los jóvenes amigos avancen con valentía en el camino que tienen por delante y creen un futuro mejor.

Al mismo tiempo, Zhou Hongyi también enfatizó que la forma de humanos digitales en el futuro también tendrá sus propios objetivos, capacidades de planificación y descomposición, de modo que se puedan llamar varios modelos verticales para completar tareas.

Sin embargo, estas funciones son en realidad optimizaciones basadas en aplicaciones de modelos a gran escala existentes y no han abierto un nuevo campo. Pero, de hecho, cuando el gran modelo ha hecho un gran avance, el escenario de aplicación más creativo es la conducción no tripulada.

** La conducción sin conductor tiene la oportunidad de ingresar al carril rápido **

Mirando hacia atrás en el campo de la conducción no tripulada, desde 2016, los principales fabricantes se han estado desplegando en este campo, pero hasta este año, ninguno de ellos puede lograr una verdadera conducción no tripulada.

En la actualidad, un sistema de conducción no tripulado de nivel L2+ necesita más de 10 cámaras, 1-2 lidars o 3-5 radares de ondas milimétricas para proporcionar datos multidimensionales, que se pueden utilizar para el entrenamiento de modelos después del etiquetado manual. Después de la aparición de modelos grandes que pueden reconocer imágenes, el costo de tiempo y material requerido para el etiquetado manual se reducirá drásticamente.

Según la conferencia de prensa de Momo Zhixing DriveGPT en abril de 2023, para obtener información como líneas de carril, participantes del tráfico, semáforos, etc., el costo del etiquetado manual en la industria es de aproximadamente 5 yuanes por imagen, y el costo de Momo DriveGPT es de 0,5 yuanes. Creemos que después de que madure la capacitación de modelos a gran escala de las empresas de tecnología, el costo marginal del etiquetado automático de una sola imagen se acercará a 0, y se espera que el costo promedio disminuya aún más.

Según Zhang Peng, vicepresidente de Kaiwang Data Products Project, en febrero de 2023, en la actualidad, el etiquetado manual es el principal método de etiquetado de datos, complementado con el etiquetado de máquinas, y el 95 % del etiquetado de datos sigue siendo principalmente manual. La intervención de modelos grandes puede mejorar mucho la eficiencia de esta industria. Tomando a Tesla como ejemplo, el equipo de etiquetado manual tendrá más de 1000 personas en 2021 y el equipo despedirá a más de 200 personas en 2022.

Además, en la era de los modelos grandes, se espera que los gigantes tecnológicos de terceros ayuden a los OEM a crear sus propios algoritmos de conducción autónomos y sistemas de circuito cerrado de datos al proporcionar una cadena de herramientas completa, al tiempo que confían en las capacidades de generación de datos de los modelos grandes para reducir la brecha en el campo de datos, se espera que llegue la era de Android de conducción autónoma.

En la actualidad, los modelos grandes se han utilizado para habilitar datos en bucle cerrado, simulación, algoritmos de percepción, algoritmos de regulación y control y otros campos. Y gigantes como Microsoft y Nvidia se disputan la maquetación en modelos grandes y la conducción autónoma, o harán saltar chispas nuevas.

Además, la aparición de modelos grandes también promueve la división del trabajo en la industria, evita "reinventar la rueda" y acelera la iteración de sensores y chips, y se espera que el costo del sistema disminuya significativamente. Se espera que los desarrolladores de modelos a gran escala y los actores de la cadena de la industria de la conducción autónoma se beneficien de manera integral.

Tomando Baidu Apollo como ejemplo, primero usa información gráfica para entrenar previamente un modelo original, usa algoritmos para identificar, ubicar y segmentar datos de imágenes de Street View, y los coloca en el codificador para formar una biblioteca inferior, es decir, establece un correspondencia entre imágenes e información de texto basada en el grupo de datos de Street View.

En segundo lugar, es posible buscar y extraer escenas específicas (como vehículos expresos, sillas de ruedas, niños, etc.) a través de texto e imágenes, y realizar capacitación personalizada en el modelo del lado del vehículo, lo que mejora en gran medida el efecto de utilización de los datos de stock.

Baidu utiliza un método semisupervisado para hacer un uso completo de los datos 2D y 3D para entrenar un gran modelo de percepción. Al destilar el modelo pequeño en varios pasos, se mejora el rendimiento del modelo pequeño y, al mismo tiempo, el modelo pequeño se personaliza para el entrenamiento a través del etiquetado automático, que se utiliza para mejorar la capacidad de percepción visual 3D a larga distancia y mejorar el efecto de percepción del modelo de percepción multimodal.

Otro jugador líder, SenseTime, también declaró públicamente que AIGC se puede usar para generar escenas de tráfico reales y muestras difíciles para entrenar el sistema de conducción automática, y usar datos multimodales como entrada del modelo grande para mejorar el límite superior del sistema. percepción de las escenas de Cornercase.

Al mismo tiempo, el gran modelo multimodal de conducción autónoma puede realizar la integración integrada de percepción y toma de decisiones, y el entorno 3D puede reconstruirse a través del decodificador de entorno en el extremo de salida para realizar la comprensión visual del entorno; el decodificador de comportamiento puede generar una planificación de ruta completa, el decodificador de motivación se puede utilizar El lenguaje natural describe el proceso de razonamiento, lo que hace que el sistema de conducción autónoma sea más seguro y confiable.

Después de que el modelo grande realice las funciones anteriores, el umbral para la conducción no tripulada será cada vez más bajo en el futuro. Mientras que los principales fabricantes aceleran el progreso de los proyectos de conducción no tripulada, también pueden permitir que más jugadores nuevos se unan a este campo y desarrollen carreteras que requieran carreteras además de la navegación por carretera El seguimiento de la función de planificación, como optimizar aún más la planificación de la ruta del robot de barrido.

Mirándolo ahora, después del período de lanzamiento centralizado de modelos a gran escala de febrero a marzo, y el período de desarrollo de productos de abril a mayo y la dirección de la política se han aclarado gradualmente, junio ha entrado en el período de lanzamiento centralizado de AI a gran escala. productos y aplicaciones de modelos a escala Esto también conduce directamente a la reducción del precio de OpenAI API.

En el futuro previsible, la tecnología de IA seguirá iterando y las aplicaciones seguirán avanzando. Al mismo tiempo, cada vez más empresas tecnológicas importantes lanzarán productos para adentrarse en este camino, que seguirá impulsando la prosperidad de la industria y aportando más beneficios para los usuarios Los productos similares a GPT que satisfacen la demanda del mercado, como Tencent, que tiene una gran base de usuarios, también lanzó una solución técnica en el campo de los modelos grandes el 19 de junio.

Cuando estas empresas se unan, el desarrollo de la industria entrará en la vía rápida, y también significa que los usuarios finales pronto podrán utilizar este producto C. En cuanto a quién pagará por él, cada fabricante debe confiar en su habilidad propia

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)