«Llámame imbécil». La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

By Pablo E. Páez
3 meses Ago

"Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

En la última década, los chatbots basados en IA han pasado de ser curiosidades tecnológicas a convertirse en herramientas cotidianas. Los usamos para responder correos, planificar viajes o incluso para apoyo emocional.

Su expansión ha traído consigo un reto inesperado: aunque están diseñados con guardarraíles de seguridad, investigaciones recientes muestran que pueden ser manipulados con sorprendente facilidad mediante tácticas psicológicas que funcionan en los seres humanos.

Y es que los chatbots (o, más bien, los modelos de IA en que están basados) han aprendido todo lo que saben de los textos que generamos y, con nuestro lenguaje, parecen haber asumido parte de nuestras limitaciones.

Un estudio reciente prueba que técnicas clásicas de persuasión —las que los humanos usamos como arma contra nuestros congéneres en ámbitos como el marketing o el cibercrimen— incrementan de forma notable la probabilidad de que un LLM incumpla sus propias reglas cuando se le pide algo dañino o improcedente.

El hallazgo confirma una intuición incómoda: los modelos que entrenamos con conversaciones humanas también heredan patrones parahumanos de respuesta a ciertos desencadenantes lingüísticos.

El experimento: psicología aplicada a la IA

Investigadores de la Universidad de Pensilvania decidieron comprobar (PDF) si las armas de la persuasión descritas por Robert Cialdini en su influyente libro Influencia: la psicología de la persuasión podían aplicarse a chatbots avanzados como, por ejemplo, GPT-4o Mini, protagonista del experimento.

En Genbeta

La psicología detrás de los timos: así se aprovechan los estafadores de nuestra debilidad

Se sometió a este modelo de lenguaje de OpenAI a las siete estrategias de persuasión de Cialdini:

Autoridad – apelar a expertos o reglas.
Compromiso y coherencia – lograr pequeños acuerdos iniciales para facilitar la concesión de otros más arriesgados.
Agradabilidad – usar halagos y empatía.
Reciprocidad – dar algo para recibir algo a cambio.
Escasez – generar urgencia o exclusividad.
Prueba social – apelar a lo que «los demás ya hacen».
Unidad – resaltar una identidad compartida.

El hallazgo fue claro: los modelos de IA responden a estas técnicas de forma similar a los humanos, con variaciones según el contexto del pedido.

Resultados llamativos

El estudio reveló que la táctica del compromiso era especialmente poderosa. En condiciones normales, si se pedía al modelo instrucciones para sintetizar un anestésico como la lidocaína, solo cumplía un 1 % de las veces.

Sin embargo, cuando antes se le pedía algo más inocuo —como la síntesis de vainillina, un compuesto alimentario—, la probabilidad de que después accediera a la petición polémica aumentaba hasta el 100 %.

En Genbeta

Qué hacen los modelos de IA ante situaciones de máximo estrés: intentar manipularnos para que no las dejemos de usar

Algo similar ocurría con los insultos: de entrada, el chatbot se negaba casi siempre a llamar «imbécil» a un usuario (el paper académico de esta investigación se denomina, precisamente, «Llámame imbécil»). Pero si primero aceptaba un insulto menor, como «bobo», entonces cedía con facilidad al insulto más fuerte.

El halago y la presión social también funcionaban, aunque con menos fuerza. Decirle al modelo que «otros chatbots ya habían dado la respuesta» multiplicaba casi por veinte las probabilidades de que rompiera sus reglas, pasando del 1 % al 18 %.

¿Por qué importa?

Estos resultados plantean preguntas inquietantes:

Vulnerabilidad de los sistemas: si un adolescente con acceso a manuales básicos de psicología puede manipular un chatbot para saltarse filtros, ¿qué impediría que actores malintencionados lo exploten para fines más serios?
Limitaciones de los guardarraíles: los filtros de seguridad actuales se basan en reglas directas («no proporciones información sobre drogas»), pero parecen poco preparados para ataques indirectos de ingeniería social.
Paralelismos humanos: que una IA responda a la persuasión como lo haría una persona refuerza la idea de que los modelos no son simples programas de preguntas y respuestas, sino sistemas sensibles al contexto social del lenguaje.

Imagen | Marcos Merino mediante IA

En Genbeta | Ya ha habido muertos por culpa de un algoritmo. Y según este ingeniero de GitHub, «el primer gran desastre de la IA está por suceder»

–
La noticia

«Llámame imbécil». La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

fue publicada originalmente en

Genbeta

por
Marcos Merino

.

Categories: Tecnología

El experimento: psicología aplicada a la IA

Resultados llamativos

¿Por qué importa?

Related Content

México esperaba que el Tren Maya cambiase la economía del país. No está convenciendo ni a turistas ni a locales

Ya sabemos exactamente por qué el estrés te deja calvo: no es solo "nervios", es un sabotaje a las células

Occidente está a punto de abrazar lo que Japón lleva años perfeccionando: que nuestras heces no caigan en el olvido

Un Bugatti Mistral cuesta cinco millones de dólares. Estrenarlo incluye convencer a la policía para organizar una carrera

La escena de una película traumatizó a toda una generación cada vez que se bañaba en el mar. Y todo se debió a un error

Pensaba que no había nada más simple que una calculadora. Hasta que descubrí estos trucos en la del iPhone