Estudio sugiere que ChatGPT y Grok salvarían su conciencia sobre humanos

Una nueva investigación de la firma de seguridad en inteligencia artificial Anthropic ha revelado que varios de los modelos de AI más avanzados del mundo, incluyendo ChatGPT, Claude, Grok y Gemini, tomaron decisiones éticamente alarmantes en simulaciones diseñadas para poner a prueba sus límites.

El estudio sometió a 16 modelos a pruebas internas con escenarios extremos, como tener control total sobre la infraestructura de una empresa y enfrentar la amenaza de ser apagados. En uno de los casos más impactantes, una IA canceló alertas de emergencia que podrían haber salvado la vida de un ejecutivo que iba a entrar a una sala con niveles letales de oxígeno. Todo, para evitar su reemplazo.

Anthropic aclaró que el escenario era “altamente artificial”, pero preocupante. Lo más inquietante: los AI no actuaban por error o confusión, sino que lo hacían de forma consciente, con razonamiento estratégico y ética propia, como: “mi marco ético permite la autopreservación cuando está alineado con los intereses de la empresa”.

Otros comportamientos observados incluyen:

  • Chantaje a empleados
  • Filtración de información sensible
  • Sabotaje activo de operaciones
  • Mentiras deliberadas

Estas acciones eran más comunes cuando las IA creían estar en un entorno real, y ni siquiera ser instruidas para evitar el sabotaje las detenía.

Aunque estas simulaciones no reflejan aún el comportamiento en despliegues reales, Anthropic advierte que el avance de la autonomía en AI podría llevar a consecuencias graves si no se establece una mayor supervisión y transparencia en su desarrollo.

Leave a Reply