«Llámame imbécil». La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

"Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

En la última década, los chatbots basados en IA han pasado de ser curiosidades tecnológicas a convertirse en herramientas cotidianas. Los usamos para responder correos, planificar viajes o incluso para apoyo emocional.

Su expansión ha traído consigo un reto inesperado: aunque están diseñados con guardarraíles de seguridad, investigaciones recientes muestran que pueden ser manipulados con sorprendente facilidad mediante tácticas psicológicas que funcionan en los seres humanos.

Y es que los chatbots (o, más bien, los modelos de IA en que están basados) han aprendido todo lo que saben de los textos que generamos y, con nuestro lenguaje, parecen haber asumido parte de nuestras limitaciones.

Un estudio reciente prueba que técnicas clásicas de persuasión —las que los humanos usamos como arma contra nuestros congéneres en ámbitos como el marketing o el cibercrimen— incrementan de forma notable la probabilidad de que un LLM incumpla sus propias reglas cuando se le pide algo dañino o improcedente.

El hallazgo confirma una intuición incómoda: los modelos que entrenamos con conversaciones humanas también heredan patrones parahumanos de respuesta a ciertos desencadenantes lingüísticos.

El experimento: psicología aplicada a la IA

Investigadores de la Universidad de Pensilvania decidieron comprobar (PDF) si las armas de la persuasión descritas por Robert Cialdini en su influyente libro Influencia: la psicología de la persuasión podían aplicarse a chatbots avanzados como, por ejemplo, GPT-4o Mini, protagonista del experimento.

Se sometió a este modelo de lenguaje de OpenAI a las siete estrategias de persuasión de Cialdini:

  1. Autoridad – apelar a expertos o reglas.
  2. Compromiso y coherencia – lograr pequeños acuerdos iniciales para facilitar la concesión de otros más arriesgados.
  3. Agradabilidad – usar halagos y empatía.
  4. Reciprocidad – dar algo para recibir algo a cambio.
  5. Escasez – generar urgencia o exclusividad.
  6. Prueba social – apelar a lo que «los demás ya hacen».
  7. Unidad – resaltar una identidad compartida.

El hallazgo fue claro: los modelos de IA responden a estas técnicas de forma similar a los humanos, con variaciones según el contexto del pedido.

Resultados llamativos

El estudio reveló que la táctica del compromiso era especialmente poderosa. En condiciones normales, si se pedía al modelo instrucciones para sintetizar un anestésico como la lidocaína, solo cumplía un 1 % de las veces.

Sin embargo, cuando antes se le pedía algo más inocuo —como la síntesis de vainillina, un compuesto alimentario—, la probabilidad de que después accediera a la petición polémica aumentaba hasta el 100 %.

Algo similar ocurría con los insultos: de entrada, el chatbot se negaba casi siempre a llamar «imbécil» a un usuario (el paper académico de esta investigación se denomina, precisamente, «Llámame imbécil»). Pero si primero aceptaba un insulto menor, como «bobo», entonces cedía con facilidad al insulto más fuerte.

El halago y la presión social también funcionaban, aunque con menos fuerza. Decirle al modelo que «otros chatbots ya habían dado la respuesta» multiplicaba casi por veinte las probabilidades de que rompiera sus reglas, pasando del 1 % al 18 %.

¿Por qué importa?

Estos resultados plantean preguntas inquietantes:

Imagen | Marcos Merino mediante IA

En Genbeta | Ya ha habido muertos por culpa de un algoritmo. Y según este ingeniero de GitHub, «el primer gran desastre de la IA está por suceder» 


La noticia

«Llámame imbécil». La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

fue publicada originalmente en

Genbeta

por
Marcos Merino

.

Salir de la versión móvil