Wang Yonggang: Fundador y CEO de SeedV Lab, Decano Ejecutivo del Instituto de Ingeniería de IA de Innovation Works
Tong Chao: cofundador y jefe de producto de SeedV Lab
Dónde están los escenarios de aplicación de la IA generativa
Las tecnologías de IA generativa como Stable Diffusion y ChatGPT han atraído la mayor atención del círculo de capital de riesgo de TI en la primera mitad de 2023. Cuando nos recuperemos de la magnífica ola de nuevas tecnologías y comencemos a pensar seriamente qué tipo de escenarios de aplicación son las mejores direcciones de implementación para la IA generativa, muchas personas aún encontrarán que la relación entre la tecnología y el mercado es intrincada, es difícil resolver el mejor camino para la implementación de la IA generativa:
Un inversor: en los últimos meses, todas las instituciones de capital de riesgo de primera línea se han movilizado y están muy ocupadas. Resulta que, a excepción de cuatro o cinco proyectos empresariales modelo a gran escala líderes que son buscados por todos, otros AIGC los proyectos no están claros y no se atreven a invertir. No sé dónde se desarrollarán las aplicaciones de IA en el futuro.
Un analista: varios proyectos modelo líderes a gran escala tienen una gran inversión y un alto riesgo; todas las aplicaciones del lado B y del gobierno están limitadas por la implementación privada y los datos privados, y el ciclo es largo y difícil de implementar; la mayoría de las aplicaciones del lado C las aplicaciones son demasiado Es demasiado superficial, y la homogeneidad de los proyectos de generación de texto e imagen es grave; es común comenzar un negocio después de uno o dos buenos documentos, pero el equipo en sí no puede descubrir la dirección específica de la aplicación...
El mayor quid del pensamiento aquí es:
La mayoría de la gente todavía piensa inconscientemente en la IA generativa como un conjunto de herramientas para generar diálogos, artículos e imágenes. De acuerdo con este estereotipo: esto solo puede ayudar a los redactores y diseñadores a mejorar la eficiencia, ¿cómo puede llamarse un cambio subversivo?
Aunque hay muchas señales de que la IA generativa está mostrando el amanecer de la inteligencia artificial general (AGI), las personas que están limitadas por juicios de valor a corto plazo siempre dirán: ¿y qué? Ver para creer. ¿La IA de hoy no sigue chateando, escribiendo artículos y haciendo dibujos?
Obviamente, no es recomendable analizar las perspectivas de aplicación de la IA generativa solo desde una única perspectiva o un único punto temporal. ¿Existe un modelo de pensamiento simple y fácil de usar que conecte el desarrollo de la IA generativa?
Construir un modelo de pensamiento en torno a la controlabilidad
Creemos que la IA generativa es una revolución de la industria de la información que se puede comparar con la informática de escritorio y la informática móvil, e incluso tiene un efecto más subversivo. Los cambios disruptivos nunca se logran de la noche a la mañana, sino que se realizan gradualmente con el desarrollo y progreso continuos de la IA generativa. Si desea ver claramente qué nuevos productos, nuevas plataformas, nuevos mercados y nuevas oportunidades traerá la IA generativa, creemos que existe un camino de pensamiento simple y fácil de entender que es fácil de guiar en la selección de productos y proyectos:
** ¡Cuanto más controlable sea la IA generativa, más disruptiva será para el mercado y la industria! **
Esta ruta se puede representar simplemente mediante un gráfico:
A medida que la capacidad de control de la IA generativa sobre el contenido generado continúa mejorando, los escenarios de aplicación aplicables para la IA generativa continuarán expandiéndose y profundizándose. El cambio cuantitativo conduce al cambio cualitativo. Una vez que se supera el umbral del dominio, la IA generativa puede transformar por completo la ecología del producto existente y dotar a los productos de elementos verdaderamente inteligentes.
Durante el proceso de evolución, la capacidad de control de la IA generativa pasará aproximadamente por seis etapas. Tome la generación de texto más básica como ejemplo:
Fase 1: Incontrolable
Hace más de 20 años, el modelo de lenguaje estadístico basado en el algoritmo N-grams también podía generar contenido de texto continuo. Sin embargo, los resultados resultantes son en gran medida incontrolables. Una forma tan temprana de "IA generativa" casi no tiene posibilidad de transformarse en productos, y mucho menos subvertir el mercado existente.
Fase 2: La dirección general es controlable
Desde la generación de texto basada en LSTM o RNN hasta la generación de texto GPT (como GPT-2), la IA generativa ha adquirido gradualmente la capacidad de describir una parte del lenguaje similar al humano. La capacidad de describir en esta etapa básicamente puede lograr oraciones fluidas, y el contenido se ajusta aproximadamente a las indicaciones dadas por humanos. Sin embargo, debido a que los detalles, la estructura o la lógica son incontrolables, aún es difícil transformarlo en un producto verdaderamente útil.
Fase 3: Estructura controlable o lógica local
Desde GPT-3 hasta ChatGPT (GPT-3.5), por primera vez, la IA generativa tiene control sobre la estructura y la lógica local del contenido generado. La creación de texto y las conversaciones de múltiples rondas son dos ecologías de aplicaciones típicas en este período. El primero puede admitir escenarios prácticos como el resumen automático de artículos, la generación de documentos legales y la generación de copias de marketing, mientras que el segundo puede satisfacer algunas necesidades de búsqueda conversacional, aprendizaje de idiomas, servicio al cliente inteligente, personas virtuales y personajes de juegos inteligentes.
Fase 4: La cadena de pensamiento preliminar es controlable
De GPT-3.5 a GPT-4, la capacidad de razonamiento lógico de la IA generativa ha mejorado significativamente. Por primera vez, la IA generativa tiene poderosas capacidades analíticas (como extraer datos de informes de noticias y resumir tendencias), capacidades de control (como convertir el lenguaje humano en instrucciones complejas de control del sistema) y capacidades preliminares de razonamiento lógico (como responder preguntas matemáticas simples). , problemas de lógica). El contenido de texto que se puede generar también se extiende a texto estructurado y semiestructurado, como datos, tablas, códigos, secuencias de instrucciones, flujos de trabajo o cadenas de herramientas. Esto condujo directamente a una gran cantidad de nuevas herramientas y sistemas hoy caracterizados por Copilot (traducido literalmente como "copiloto").
Fase 5: El razonamiento lógico complejo es controlable
Por supuesto, cuando el GPT-4 actual genera texto, la cadena de pensamiento lógico que se puede controlar todavía está en pañales. Si todo va bien, se espera que los humanos desarrollen una IA generativa de próxima generación que pueda controlar con precisión el razonamiento lógico complejo en un futuro no muy lejano. Dicha IA tiene capacidades avanzadas de razonamiento lógico como la memoria, el aprendizaje, la planificación y la toma de decisiones. Estas capacidades son suficientes para subvertir por completo la interacción humano-computadora en las últimas décadas y redefinir la relación entre humanos y computadoras en escenarios como herramientas de eficiencia, plataformas de contenido, automatización de procesos comerciales, robots, sistemas operativos y dispositivos inteligentes.
Fase 6: Reglas o principios controlables
Desde una perspectiva más prospectiva, las manifestaciones de más alto nivel del pensamiento humano son: 1. Descubrir principios y formular reglas con base en el pensamiento inductivo 2. Aplicar principios o reglas a escenarios específicos con base en el pensamiento deductivo. La forma evolutiva ideal de la IA generativa es acercarse a la forma de pensar humana, generar reglas o principios comparables al pensamiento humano y aplicarlos. Una vez que alcance el "Reino de la Libertad", donde las reglas o principios son controlables, la IA generativa tendrá una gran capacidad para iterar y mejorar, y podrá diseñar reglas del sistema y reglas mundiales como los humanos, e incluso llevar a cabo investigaciones científicas con científicos humanos. .
Controlabilidad y dirección de aplicación típica
La mejora de la controlabilidad de la IA generativa ha provocado una expansión sustancial del campo aplicable. Usamos la siguiente figura para resumir la relación entre la capacidad de control y la mejor dirección de aplicación de la IA generativa en diferentes etapas de desarrollo:
Con base en la capacidad de control, en cada etapa de desarrollo, las direcciones de aplicación respaldadas por IA generativa continúan expandiéndose y profundizándose, desde satisfacer necesidades simples y locales, hasta desarrollarse gradualmente para satisfacer las necesidades de dominio y plataforma, y finalmente acumularse en el producto y el modelo comercial. cambio disruptivo. Si la cadena de pensamiento y el razonamiento lógico son controlables, y en qué medida pueden controlarse con precisión, son los factores más críticos en el proceso de cambio cuantitativo a cambio cualitativo.
Controlabilidad y casos de aplicación específicos
Con base en la capacidad de control de la IA generativa, dividimos las direcciones de aplicación más adecuadas de la IA generativa hoy y en el futuro cercano en cuatro categorías, y usamos la siguiente figura para comparar los casos de aplicación típicos en cada categoría con la aplicación de la IA generativa. diferentes etapas de desarrollo están vinculadas:
Herramienta de creación de contenido/Plataforma de contenido
Las herramientas de creación de contenido son el escenario más directo y rápido para implementar la IA generativa. Con la mejora de la capacidad de control de la IA generativa, las tareas de creación de contenido pasarán de la creación simple de texto e imágenes a la creación automática compleja de videos, 3D, animaciones, juegos, películas y mundos virtuales. Con la ayuda de la IA, cada persona común tendrá habilidades que originalmente solo pertenecían a equipos profesionales y herramientas profesionales. Una vez que los deseos creativos de la gente común se liberen en gran medida, las necesidades de alto nivel para compartir, mirar, comprar y socializar en nuevas formas de contenido definitivamente impulsarán el nacimiento, el desarrollo y el crecimiento de una nueva generación de plataformas de contenido.
Automatización de Negocios/Servicios Empresariales
Debido a razones como la seguridad de los datos, la implementación privada, la precisión del contenido y el cumplimiento, los procesos comerciales tienen requisitos muy altos para la capacidad de control de la IA generativa. Las áreas comerciales donde la IA generativa es más adecuada hoy en día pueden incluir la creación de contenido en marketing e interfaces de usuario en el comercio electrónico. Además, la IA generativa también puede mejorar en gran medida la eficiencia comercial al generar automáticamente códigos intermedios como SQL, recopilar y analizar datos automáticamente, generar informes automáticamente y conectar procesos comerciales automáticamente. En el futuro, con la mejora de la capacidad de control de la IA generativa, se absorberán más tecnologías de IA de vanguardia en procesos clave como la planificación, la toma de decisiones y la optimización en los procesos comerciales.
Asistente personal/Asistente profesional
En los escenarios de la vida personal y de la oficina, la IA generativa servirá gradualmente como varias formas de "asistentes" y establecerá un nuevo ecosistema de colaboración humano-IA en unos pocos años. Lo controlable que es la IA generativa determina fundamentalmente qué tan inteligentes son los asistentes de IA en nuestra vida o trabajo y qué problemas pueden ayudarnos a resolver. Una vez que la IA generativa tenga un nivel equivalente al de secretarias, conductores, traductores, abogados, etc. humanos en algunos trabajos, los asistentes de IA se convertirán en una nueva generación de productos electrónicos populares que reemplazarán a las computadoras y los teléfonos móviles.
Infraestructura/Herramientas de desarrollo/SO/Motores de búsqueda
Las capacidades de programación, las capacidades de procesamiento de datos, las capacidades de diseño de sistemas y las capacidades de procesamiento de conocimientos de la IA generativa proporcionarán nuevos conceptos de diseño y nuevas funciones transversales para herramientas de desarrollo, bases de datos, motores de búsqueda y sistemas operativos. El hecho de que un sistema operativo con IA como núcleo y una plataforma informática inteligente con IA como núcleo puedan nacer en el futuro depende completamente de qué tan alto pueda alcanzar la capacidad de razonamiento lógico complejo de la IA generativa.
Evolución de la capacidad de aplicación de la IA multimodal
En comparación con la generación de texto y la generación de imágenes simples, los sistemas multimodales que incluyen sonido, video, escenas 3D, animación y tramas complejas están más en línea con el sentido común humano y las necesidades originales, y obviamente tienen perspectivas de aplicación más amplias y de mayor alcance. Para conocer el estado técnico y las perspectivas de la IA multimodal, consulte otro artículo del autor de este artículo:
En la era post-GPT, la multimodalidad es la mayor oportunidad
En el campo de la multimodalidad, creemos que la IA generativa de hoy y del futuro evolucionará y se acumulará aproximadamente de acuerdo con el contexto que se muestra en la figura a continuación, y continuará generando nuevas aplicaciones revolucionarias, nuevas plataformas e incluso nuevos modelos comerciales disruptivos:
Permiso de uso
Las imágenes y el contenido de texto de todas las hojas de ruta de aplicaciones anteriores son publicados por SeedV Lab bajo la licencia CC BY 4.0. Sobre la base de indicar la fuente original (laboratorio SeedV), todos son libres de usar, modificar y volver a publicar.
Las imágenes de la hoja de ruta de la aplicación anterior también son de código abierto en las siguientes ubicaciones, bienvenido a visitar (puede hacer clic directamente en [leer el texto original] al final del artículo para visitar):
github.com/SeedV/generative-ai-mapa de ruta
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Hoja de ruta de aplicaciones de IA: la controlabilidad es la hoja de ruta más sólida
Fuente: Semi-Ligero
Autor: Wang Yonggang
Dónde están los escenarios de aplicación de la IA generativa
Las tecnologías de IA generativa como Stable Diffusion y ChatGPT han atraído la mayor atención del círculo de capital de riesgo de TI en la primera mitad de 2023. Cuando nos recuperemos de la magnífica ola de nuevas tecnologías y comencemos a pensar seriamente qué tipo de escenarios de aplicación son las mejores direcciones de implementación para la IA generativa, muchas personas aún encontrarán que la relación entre la tecnología y el mercado es intrincada, es difícil resolver el mejor camino para la implementación de la IA generativa:
El mayor quid del pensamiento aquí es:
Obviamente, no es recomendable analizar las perspectivas de aplicación de la IA generativa solo desde una única perspectiva o un único punto temporal. ¿Existe un modelo de pensamiento simple y fácil de usar que conecte el desarrollo de la IA generativa?
Construir un modelo de pensamiento en torno a la controlabilidad
Creemos que la IA generativa es una revolución de la industria de la información que se puede comparar con la informática de escritorio y la informática móvil, e incluso tiene un efecto más subversivo. Los cambios disruptivos nunca se logran de la noche a la mañana, sino que se realizan gradualmente con el desarrollo y progreso continuos de la IA generativa. Si desea ver claramente qué nuevos productos, nuevas plataformas, nuevos mercados y nuevas oportunidades traerá la IA generativa, creemos que existe un camino de pensamiento simple y fácil de entender que es fácil de guiar en la selección de productos y proyectos:
** ¡Cuanto más controlable sea la IA generativa, más disruptiva será para el mercado y la industria! **
Esta ruta se puede representar simplemente mediante un gráfico:
Durante el proceso de evolución, la capacidad de control de la IA generativa pasará aproximadamente por seis etapas. Tome la generación de texto más básica como ejemplo:
Fase 1: Incontrolable
Hace más de 20 años, el modelo de lenguaje estadístico basado en el algoritmo N-grams también podía generar contenido de texto continuo. Sin embargo, los resultados resultantes son en gran medida incontrolables. Una forma tan temprana de "IA generativa" casi no tiene posibilidad de transformarse en productos, y mucho menos subvertir el mercado existente.
Fase 2: La dirección general es controlable
Desde la generación de texto basada en LSTM o RNN hasta la generación de texto GPT (como GPT-2), la IA generativa ha adquirido gradualmente la capacidad de describir una parte del lenguaje similar al humano. La capacidad de describir en esta etapa básicamente puede lograr oraciones fluidas, y el contenido se ajusta aproximadamente a las indicaciones dadas por humanos. Sin embargo, debido a que los detalles, la estructura o la lógica son incontrolables, aún es difícil transformarlo en un producto verdaderamente útil.
Fase 3: Estructura controlable o lógica local
Desde GPT-3 hasta ChatGPT (GPT-3.5), por primera vez, la IA generativa tiene control sobre la estructura y la lógica local del contenido generado. La creación de texto y las conversaciones de múltiples rondas son dos ecologías de aplicaciones típicas en este período. El primero puede admitir escenarios prácticos como el resumen automático de artículos, la generación de documentos legales y la generación de copias de marketing, mientras que el segundo puede satisfacer algunas necesidades de búsqueda conversacional, aprendizaje de idiomas, servicio al cliente inteligente, personas virtuales y personajes de juegos inteligentes.
Fase 4: La cadena de pensamiento preliminar es controlable
De GPT-3.5 a GPT-4, la capacidad de razonamiento lógico de la IA generativa ha mejorado significativamente. Por primera vez, la IA generativa tiene poderosas capacidades analíticas (como extraer datos de informes de noticias y resumir tendencias), capacidades de control (como convertir el lenguaje humano en instrucciones complejas de control del sistema) y capacidades preliminares de razonamiento lógico (como responder preguntas matemáticas simples). , problemas de lógica). El contenido de texto que se puede generar también se extiende a texto estructurado y semiestructurado, como datos, tablas, códigos, secuencias de instrucciones, flujos de trabajo o cadenas de herramientas. Esto condujo directamente a una gran cantidad de nuevas herramientas y sistemas hoy caracterizados por Copilot (traducido literalmente como "copiloto").
Fase 5: El razonamiento lógico complejo es controlable
Por supuesto, cuando el GPT-4 actual genera texto, la cadena de pensamiento lógico que se puede controlar todavía está en pañales. Si todo va bien, se espera que los humanos desarrollen una IA generativa de próxima generación que pueda controlar con precisión el razonamiento lógico complejo en un futuro no muy lejano. Dicha IA tiene capacidades avanzadas de razonamiento lógico como la memoria, el aprendizaje, la planificación y la toma de decisiones. Estas capacidades son suficientes para subvertir por completo la interacción humano-computadora en las últimas décadas y redefinir la relación entre humanos y computadoras en escenarios como herramientas de eficiencia, plataformas de contenido, automatización de procesos comerciales, robots, sistemas operativos y dispositivos inteligentes.
Fase 6: Reglas o principios controlables
Desde una perspectiva más prospectiva, las manifestaciones de más alto nivel del pensamiento humano son: 1. Descubrir principios y formular reglas con base en el pensamiento inductivo 2. Aplicar principios o reglas a escenarios específicos con base en el pensamiento deductivo. La forma evolutiva ideal de la IA generativa es acercarse a la forma de pensar humana, generar reglas o principios comparables al pensamiento humano y aplicarlos. Una vez que alcance el "Reino de la Libertad", donde las reglas o principios son controlables, la IA generativa tendrá una gran capacidad para iterar y mejorar, y podrá diseñar reglas del sistema y reglas mundiales como los humanos, e incluso llevar a cabo investigaciones científicas con científicos humanos. .
Controlabilidad y dirección de aplicación típica
La mejora de la controlabilidad de la IA generativa ha provocado una expansión sustancial del campo aplicable. Usamos la siguiente figura para resumir la relación entre la capacidad de control y la mejor dirección de aplicación de la IA generativa en diferentes etapas de desarrollo:
Controlabilidad y casos de aplicación específicos
Con base en la capacidad de control de la IA generativa, dividimos las direcciones de aplicación más adecuadas de la IA generativa hoy y en el futuro cercano en cuatro categorías, y usamos la siguiente figura para comparar los casos de aplicación típicos en cada categoría con la aplicación de la IA generativa. diferentes etapas de desarrollo están vinculadas:
Las herramientas de creación de contenido son el escenario más directo y rápido para implementar la IA generativa. Con la mejora de la capacidad de control de la IA generativa, las tareas de creación de contenido pasarán de la creación simple de texto e imágenes a la creación automática compleja de videos, 3D, animaciones, juegos, películas y mundos virtuales. Con la ayuda de la IA, cada persona común tendrá habilidades que originalmente solo pertenecían a equipos profesionales y herramientas profesionales. Una vez que los deseos creativos de la gente común se liberen en gran medida, las necesidades de alto nivel para compartir, mirar, comprar y socializar en nuevas formas de contenido definitivamente impulsarán el nacimiento, el desarrollo y el crecimiento de una nueva generación de plataformas de contenido.
Automatización de Negocios/Servicios Empresariales
Debido a razones como la seguridad de los datos, la implementación privada, la precisión del contenido y el cumplimiento, los procesos comerciales tienen requisitos muy altos para la capacidad de control de la IA generativa. Las áreas comerciales donde la IA generativa es más adecuada hoy en día pueden incluir la creación de contenido en marketing e interfaces de usuario en el comercio electrónico. Además, la IA generativa también puede mejorar en gran medida la eficiencia comercial al generar automáticamente códigos intermedios como SQL, recopilar y analizar datos automáticamente, generar informes automáticamente y conectar procesos comerciales automáticamente. En el futuro, con la mejora de la capacidad de control de la IA generativa, se absorberán más tecnologías de IA de vanguardia en procesos clave como la planificación, la toma de decisiones y la optimización en los procesos comerciales.
Asistente personal/Asistente profesional
En los escenarios de la vida personal y de la oficina, la IA generativa servirá gradualmente como varias formas de "asistentes" y establecerá un nuevo ecosistema de colaboración humano-IA en unos pocos años. Lo controlable que es la IA generativa determina fundamentalmente qué tan inteligentes son los asistentes de IA en nuestra vida o trabajo y qué problemas pueden ayudarnos a resolver. Una vez que la IA generativa tenga un nivel equivalente al de secretarias, conductores, traductores, abogados, etc. humanos en algunos trabajos, los asistentes de IA se convertirán en una nueva generación de productos electrónicos populares que reemplazarán a las computadoras y los teléfonos móviles.
Infraestructura/Herramientas de desarrollo/SO/Motores de búsqueda
Las capacidades de programación, las capacidades de procesamiento de datos, las capacidades de diseño de sistemas y las capacidades de procesamiento de conocimientos de la IA generativa proporcionarán nuevos conceptos de diseño y nuevas funciones transversales para herramientas de desarrollo, bases de datos, motores de búsqueda y sistemas operativos. El hecho de que un sistema operativo con IA como núcleo y una plataforma informática inteligente con IA como núcleo puedan nacer en el futuro depende completamente de qué tan alto pueda alcanzar la capacidad de razonamiento lógico complejo de la IA generativa.
Evolución de la capacidad de aplicación de la IA multimodal
En comparación con la generación de texto y la generación de imágenes simples, los sistemas multimodales que incluyen sonido, video, escenas 3D, animación y tramas complejas están más en línea con el sentido común humano y las necesidades originales, y obviamente tienen perspectivas de aplicación más amplias y de mayor alcance. Para conocer el estado técnico y las perspectivas de la IA multimodal, consulte otro artículo del autor de este artículo:
En la era post-GPT, la multimodalidad es la mayor oportunidad En el campo de la multimodalidad, creemos que la IA generativa de hoy y del futuro evolucionará y se acumulará aproximadamente de acuerdo con el contexto que se muestra en la figura a continuación, y continuará generando nuevas aplicaciones revolucionarias, nuevas plataformas e incluso nuevos modelos comerciales disruptivos:
Las imágenes y el contenido de texto de todas las hojas de ruta de aplicaciones anteriores son publicados por SeedV Lab bajo la licencia CC BY 4.0. Sobre la base de indicar la fuente original (laboratorio SeedV), todos son libres de usar, modificar y volver a publicar.
Las imágenes de la hoja de ruta de la aplicación anterior también son de código abierto en las siguientes ubicaciones, bienvenido a visitar (puede hacer clic directamente en [leer el texto original] al final del artículo para visitar):
github.com/SeedV/generative-ai-mapa de ruta