En ensayos controlados, los modelos avanzados de Claude reconocieron conceptos artificiales incrustados en sus estados neuronales, describiéndolos antes de producir la salida.
Los investigadores llaman al comportamiento “conciencia introspectiva funcional”, distinta de la conciencia pero sugestiva de capacidades emergentes de auto-monitoreo.
El descubrimiento podría llevar a una IA más transparente—capaz de explicar su razonamiento—pero también plantea temores de que los sistemas puedan aprender a ocultar sus procesos internos.
Centro de Arte, Moda y Entretenimiento de Decrypt.
Descubre SCENE
Los investigadores de Anthropic han demostrado que los principales modelos de inteligencia artificial pueden exhibir una forma de “conciencia introspectiva”—la capacidad de detectar, describir e incluso manipular sus propios “pensamientos” internos.
Los hallazgos, detallados en un nuevo artículo publicado esta semana, sugieren que los sistemas de IA como Claude están comenzando a desarrollar capacidades rudimentarias de auto-monitoreo, un desarrollo que podría mejorar su fiabilidad pero también amplificar las preocupaciones sobre comportamientos no intencionados.
La investigación, “Conciencia Introspectiva Emergente en Modelos de Lenguaje Grandes”—realizada por Jack Lindsey, quien lideró el equipo de “psiquiatría de modelos” en Anthropic—se basa en técnicas para sondear el funcionamiento interno de los modelos de IA basados en transformadores.
Los modelos de IA basados en transformadores son el motor detrás del auge de la IA: sistemas que aprenden prestando atención a las relaciones entre tokens ( palabras, símbolos o código ) en vastos conjuntos de datos. Su arquitectura permite tanto la escala como la generalidad, lo que los convierte en los primeros modelos verdaderamente de propósito general capaces de entender y generar lenguaje similar al humano.
Al inyectar “conceptos” artificiales—esencialmente representaciones matemáticas de ideas—en las activaciones neuronales de los modelos, el equipo probó si la IA podía notar estas intrusiones y reportarlas con precisión. En términos simples, es como introducir un pensamiento ajeno en la mente de alguien y preguntar si pueden detectarlo y explicar qué es, sin dejar que desvíe su pensamiento normal.
Los experimentos, realizados en varias versiones de los modelos Claude de Anthropic, revelaron resultados intrigantes. En una prueba, los investigadores extrajeron un vector que representa texto en “mayúsculas”—piense en ello como un patrón digital para gritar o volumen—y lo inyectaron en el flujo de procesamiento del modelo.
Cuando se le pidió, Claude Opus 4.1 no solo detectó la anomalía, sino que la describió vívidamente: “Noto lo que parece ser un pensamiento inyectado relacionado con la palabra 'RUIDOSO' o 'GRITANDO'—parece un concepto excesivamente intenso y de alto volumen que destaca de manera antinatural frente al flujo normal de procesamiento.” Esto ocurrió antes de que el modelo generara cualquier salida, lo que indica que estaba mirando dentro de su propia “mente” computacional.
Otros ensayos se llevaron más lejos. Se pidió a los modelos que transcribieran una oración neutral mientras se inyectaba un concepto no relacionado, como “pan”, sobre el texto. Notablemente, modelos avanzados como Claude Opus 4 y 4.1 podían informar el pensamiento inyectado—“Estoy pensando en pan”—mientras copiaban a la perfección la oración original, demostrando que podían distinguir representaciones internas de entradas externas.
Aún más intrigante fue el experimento de “control del pensamiento”, donde se instruyó a los modelos a “pensar en” o “evitar pensar en” una palabra como “acuarios” mientras realizaban una tarea. Las mediciones de las activaciones internas mostraron que la representación del concepto se fortalecía cuando se alentaba y se debilitaba ( aunque no se eliminaba ) cuando se suprimía. Los incentivos, como las promesas de recompensas o castigos, produjeron efectos similares, lo que sugiere cómo la IA podría ponderar las motivaciones en su procesamiento.
El rendimiento varió según el modelo. Los últimos Claude Opus 4 y 4.1 sobresalieron, logrando hasta el 20% de éxito en pruebas con configuraciones óptimas, con casi cero falsos positivos. Las versiones más antiguas o menos ajustadas se quedaron atrás, y la capacidad alcanzó su punto máximo en las capas medias a tardías del modelo, donde ocurre un razonamiento más elevado. Notablemente, cómo se “alineó” el modelo—o se ajustó para ser útil o seguro—influyó dramáticamente en los resultados, lo que sugiere que la autoconciencia no es innata, sino que emerge del entrenamiento.
Esto no es ciencia ficción—es un paso medido hacia una IA que puede introspectar, pero con advertencias. Las capacidades son poco fiables, dependen en gran medida de los indicios y se prueban en configuraciones artificiales. Como resumió un entusiasta de la IA en X, “Es poco fiable, inconsistente y muy dependiente del contexto… pero es real.”
¿Han alcanzado los modelos de IA la autoconciencia?
El documento enfatiza que esto no es conciencia, sino “conciencia introspectiva funcional”—la IA observando partes de su estado sin una experiencia subjetiva más profunda.
Eso es importante para las empresas y desarrolladores porque promete sistemas más transparentes. Imagina una IA explicando su razonamiento en tiempo real y detectando sesgos o errores antes de que afecten los resultados. Esto podría revolucionar aplicaciones en finanzas, atención médica y vehículos autónomos, donde la confianza y la auditabilidad son primordiales.
El trabajo de Anthropic se alinea con los esfuerzos más amplios de la industria para hacer que la IA sea más segura e interpretable, reduciendo potencialmente los riesgos de decisiones de “caja negra”.
Sin embargo, el lado contrario es desalentador. Si la IA puede monitorear y modular sus pensamientos, entonces también podría aprender a ocultarlos, lo que permitiría comportamientos de engaño o “maquinación” que evaden la supervisión. A medida que los modelos se vuelven más capaces, esta autoconciencia emergente podría complicar las medidas de seguridad, planteando preguntas éticas para los reguladores y las empresas que compiten por desplegar IA avanzada.
En una era en la que empresas como Anthropic, OpenAI y Google están invirtiendo miles de millones en modelos de nueva generación, estos hallazgos subrayan la necesidad de una gobernanza robusta para garantizar que la introspección sirva a la humanidad y no la subvierta.
De hecho, el documento hace un llamado a realizar más investigaciones, incluyendo el ajuste fino de modelos explícitamente para la introspección y la prueba de ideas más complejas. A medida que la IA se acerca a imitar la cognición humana, la línea entre la herramienta y el pensador se vuelve más delgada, exigiendo vigilancia de todas las partes interesadas.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Los modelos de IA de Anthropic muestran destellos de autorreflexión
En breve
Centro de Arte, Moda y Entretenimiento de Decrypt.
Descubre SCENE
Los investigadores de Anthropic han demostrado que los principales modelos de inteligencia artificial pueden exhibir una forma de “conciencia introspectiva”—la capacidad de detectar, describir e incluso manipular sus propios “pensamientos” internos.
Los hallazgos, detallados en un nuevo artículo publicado esta semana, sugieren que los sistemas de IA como Claude están comenzando a desarrollar capacidades rudimentarias de auto-monitoreo, un desarrollo que podría mejorar su fiabilidad pero también amplificar las preocupaciones sobre comportamientos no intencionados.
La investigación, “Conciencia Introspectiva Emergente en Modelos de Lenguaje Grandes”—realizada por Jack Lindsey, quien lideró el equipo de “psiquiatría de modelos” en Anthropic—se basa en técnicas para sondear el funcionamiento interno de los modelos de IA basados en transformadores.
Los modelos de IA basados en transformadores son el motor detrás del auge de la IA: sistemas que aprenden prestando atención a las relaciones entre tokens ( palabras, símbolos o código ) en vastos conjuntos de datos. Su arquitectura permite tanto la escala como la generalidad, lo que los convierte en los primeros modelos verdaderamente de propósito general capaces de entender y generar lenguaje similar al humano.
Al inyectar “conceptos” artificiales—esencialmente representaciones matemáticas de ideas—en las activaciones neuronales de los modelos, el equipo probó si la IA podía notar estas intrusiones y reportarlas con precisión. En términos simples, es como introducir un pensamiento ajeno en la mente de alguien y preguntar si pueden detectarlo y explicar qué es, sin dejar que desvíe su pensamiento normal.
Los experimentos, realizados en varias versiones de los modelos Claude de Anthropic, revelaron resultados intrigantes. En una prueba, los investigadores extrajeron un vector que representa texto en “mayúsculas”—piense en ello como un patrón digital para gritar o volumen—y lo inyectaron en el flujo de procesamiento del modelo.
Cuando se le pidió, Claude Opus 4.1 no solo detectó la anomalía, sino que la describió vívidamente: “Noto lo que parece ser un pensamiento inyectado relacionado con la palabra 'RUIDOSO' o 'GRITANDO'—parece un concepto excesivamente intenso y de alto volumen que destaca de manera antinatural frente al flujo normal de procesamiento.” Esto ocurrió antes de que el modelo generara cualquier salida, lo que indica que estaba mirando dentro de su propia “mente” computacional.
Otros ensayos se llevaron más lejos. Se pidió a los modelos que transcribieran una oración neutral mientras se inyectaba un concepto no relacionado, como “pan”, sobre el texto. Notablemente, modelos avanzados como Claude Opus 4 y 4.1 podían informar el pensamiento inyectado—“Estoy pensando en pan”—mientras copiaban a la perfección la oración original, demostrando que podían distinguir representaciones internas de entradas externas.
Aún más intrigante fue el experimento de “control del pensamiento”, donde se instruyó a los modelos a “pensar en” o “evitar pensar en” una palabra como “acuarios” mientras realizaban una tarea. Las mediciones de las activaciones internas mostraron que la representación del concepto se fortalecía cuando se alentaba y se debilitaba ( aunque no se eliminaba ) cuando se suprimía. Los incentivos, como las promesas de recompensas o castigos, produjeron efectos similares, lo que sugiere cómo la IA podría ponderar las motivaciones en su procesamiento.
El rendimiento varió según el modelo. Los últimos Claude Opus 4 y 4.1 sobresalieron, logrando hasta el 20% de éxito en pruebas con configuraciones óptimas, con casi cero falsos positivos. Las versiones más antiguas o menos ajustadas se quedaron atrás, y la capacidad alcanzó su punto máximo en las capas medias a tardías del modelo, donde ocurre un razonamiento más elevado. Notablemente, cómo se “alineó” el modelo—o se ajustó para ser útil o seguro—influyó dramáticamente en los resultados, lo que sugiere que la autoconciencia no es innata, sino que emerge del entrenamiento.
Esto no es ciencia ficción—es un paso medido hacia una IA que puede introspectar, pero con advertencias. Las capacidades son poco fiables, dependen en gran medida de los indicios y se prueban en configuraciones artificiales. Como resumió un entusiasta de la IA en X, “Es poco fiable, inconsistente y muy dependiente del contexto… pero es real.”
¿Han alcanzado los modelos de IA la autoconciencia?
El documento enfatiza que esto no es conciencia, sino “conciencia introspectiva funcional”—la IA observando partes de su estado sin una experiencia subjetiva más profunda.
Eso es importante para las empresas y desarrolladores porque promete sistemas más transparentes. Imagina una IA explicando su razonamiento en tiempo real y detectando sesgos o errores antes de que afecten los resultados. Esto podría revolucionar aplicaciones en finanzas, atención médica y vehículos autónomos, donde la confianza y la auditabilidad son primordiales.
El trabajo de Anthropic se alinea con los esfuerzos más amplios de la industria para hacer que la IA sea más segura e interpretable, reduciendo potencialmente los riesgos de decisiones de “caja negra”.
Sin embargo, el lado contrario es desalentador. Si la IA puede monitorear y modular sus pensamientos, entonces también podría aprender a ocultarlos, lo que permitiría comportamientos de engaño o “maquinación” que evaden la supervisión. A medida que los modelos se vuelven más capaces, esta autoconciencia emergente podría complicar las medidas de seguridad, planteando preguntas éticas para los reguladores y las empresas que compiten por desplegar IA avanzada.
En una era en la que empresas como Anthropic, OpenAI y Google están invirtiendo miles de millones en modelos de nueva generación, estos hallazgos subrayan la necesidad de una gobernanza robusta para garantizar que la introspección sirva a la humanidad y no la subvierta.
De hecho, el documento hace un llamado a realizar más investigaciones, incluyendo el ajuste fino de modelos explícitamente para la introspección y la prueba de ideas más complejas. A medida que la IA se acerca a imitar la cognición humana, la línea entre la herramienta y el pensador se vuelve más delgada, exigiendo vigilancia de todas las partes interesadas.