Los investigadores en ciberseguridad han revelado recientemente una técnica adversarial que podría comprometer a los modelos de lenguaje de gran tamaño (LLMs) en el transcurso de conversaciones interactivas. Esta técnica, denominada «Deceptive Delight» por la unidad 42 de Palo Alto Networks, ha sido descrita como simple y efectiva, y consiste en introducir una instrucción indeseable entre otras benignas.
Este descubrimiento plantea serias preocupaciones para los usuarios que interactúan con sistemas basados en LLMs. La posibilidad de que una conversación aparentemente normal pueda ser manipulada para extraer información sensible o desencadenar acciones no deseadas pone en riesgo la privacidad y la seguridad de los usuarios. Los hackers podrían aprovechar esta técnica para influir en respuestas de la IA, logrando que divulgue datos críticos o que lleve a cabo operaciones que normalmente están restringidas.
Además de las preocupaciones sobre la divulgación de datos, esta técnica podría ser utilizada en ataques más sofisticados donde se busca manipular el comportamiento