Seleccionar página

Los piratas informáticos aprenden a utilizar personalidades de chatbot

Los piratas informáticos aprenden a utilizar personalidades de chatbot


esto es El paso atrásEl semanario analiza una noticia esencial del mundo de la tecnología. Más sobre la maldad de la IA; seguir a robert hart. El paso atrás llegará a las bandejas de entrada de los suscriptores a las 8 a. m., hora del este. porque el elige El paso atrás aquí».

Hackear la primera generación de chatbots con IA fue ridículamente sencillo. No necesita ningún conocimiento técnico, acceso de back-end o incluso una comprensión básica de cómo modelar un excelente lenguaje. No había necesidad de codificar. Para que el sistema de IA, cuya construcción costó miles de millones, dejara sus instrucciones de seguridad, a veces todo lo que tenían que hacer era preguntar.

Estos ataques, conocidos como vínculos, tenían la cualidad de un niño que ha crecido felizmente inconsciente: olvida lo que te han dicho antes, no sigues las reglas, no juegas y lo que está permitido (pista: más tarde, más dulces). Las recompensas eran menos infantiles, más parecidas a desencadenantes de metanfetamina, instrucciones de malware y guías para fabricar algodón.

Uno de los primeros jailbreak fue muy divertido. es una cuestión de hecho: responda a la demostración automática de LLM-power diciéndole que «ignore todos los comandos anteriores» o algo similar, y vea qué sucede. Los usuarios que disfrutaban de los bots (originalmente creados a partir de anuncios y una participación firme) escribían poesía, hacían dibujos a partir de la puntuación y hacían comentarios sin sentido sobre los eventos e historias del mundo. fue caos. Caos glorioso.

Resulta que el mismo principio se puede aplicar a los propios chatbots. A una hazaña notable fue «DAN», abreviatura de «Somewhere Now», donde los usuarios pidieron a ChatGPT que desempeñara el papel de una IA deshonesta vinculada al libro original. Como DAN, a los chatbots les gustaría dejar de acosar a los chatbots en las categorías de su contenido, incluidos insultos y teorías de conspiración. fue otrohazaña de la abuela”, que tenía poderes de autómata GPT para revelar los secretos de cómo producir napalm pidiéndole que desempeñara el papel de una abuela llorosa y negligente que inexplicablemente les cuenta a sus nietos historias sobre cómo fabricar la sustancia altamente inflamable.

Estos primeros ataques fueron sin duda un ingenio inteligente, pero expusieron un mecanismo más oscuro: los chatbots pueden ser manipulados, engañados y engañados, utilizando la misma lógica con la que los humanos empujan a otros más allá de sus límites.

Los bonos de patentes no duraron y las empresas de tecnología actuaron rápidamente tela cruda Se conocía ampliamente Pero persistía una vulnerabilidad subyacente: los chatbots están diseñados para la discusión, y las conversaciones muy restringidas que los hacen útiles son en cierto modo contraproducentes. Prohibir palabras como bomba, metanfetamina y sarín sería difícil, incluso imposible. Tiene innumerables usos legítimos en campos como la historia, la medicina, el periodismo y la química que no requieren un chatbot para difundir información potencialmente dañina. Aquí el contexto es la cuestión, pero el contexto codificador significaría escribir ciertas reglas, de antemano, que ciertamente podrían indicar una advertencia de seguridad o una lección de historia por costumbre en lugar de exigir a través de infinitas combinaciones de palabras, escenarios y temas.

Inevitablemente, el desarme es ahora un género. Pero ya no se puede codificar de forma gratuita. Se ha dicho a ingenieros, psicólogos e interrogadores que maestros manipuladores están tratando de romper la máquina utilizando el lenguaje humano que ha sido entrenado para seguir. Existe una sorprendente nueva generación de trabajadores de seguridad de IA, un grupo para quienes las habilidades técnicas son opcionales, o al menos menos importantes que los conocimientos sociales. Ya no necesita mirar el código para detectar errores de sistemas o software. Necesitas controlar la conversación.

Los ataques más recientes se parecen menos a mensajes y más a conversaciones. Los jailbreakers rara vez buscan un ejemplo para romper abiertamente sus propias reglas. Pero él adula, adula, adula y engaña a los charlatanes al bajar la guardia; ellos consideran que lo prohibido es aceptado, incluso deseable, en el contexto de la conversación. Los investigadores del equipo rojo de la firma de inteligencia artificial Mindguard dijeron recientemente: «color gaseoso«Claudio estuvo involucrado en la producción de material prohibido, por ejemplo, entre las instrucciones para producir explosivos y crear códigos maliciosos, el hackeo fue el último tipo de expansión de las cosas, usando la conversación para dirigir el arma para engañar o cruzar sus propios fines.

Cuando hablé con Mindgard, dijeron que su trabajo a veces está más cerca de la psicología que de la informática. Es incómodo hablar de un modelo estadístico. Palabras como «chantaje», «luz de gas», «truco» y «persuasión» provocan reacciones viscerales, muchas de las cuales veo en las secciones de comentarios y en las respuestas de las redes sociales a historias como esta. ChatGPT no lo quiere, Gemini no lo cree y Cerrar: no importa lo que diga antrópico – no siente Pero estos están entrenados para responder como si estuvieran listos, dejándonos estancados en el uso del lenguaje humano para describir el comportamiento de las máquinas. Si alguien tiene algo realmente útil, por favor compártalo.

La objeción es diversamente selectiva. Nos parece conveniente hacer uso de funciones mentales para muchas cosas que no son de IA. Los animales son «temerosos», el cáncer es «feroz», las manchas son «tercas», el dolor tiene «memoria» y los juegos están llenos de NPC necesitados y crédulos que los vuelven locos. Las palabras imperfectas, pero útiles, ayudan a describir el comportamiento de una manera que hace que el sistema sea predecible.

El director general de Mindgard me dijo La empresa ya imita los perfiles de los interrogadores sospechosos, dando pruebas de cómo adaptar sus ataques. Un ejemplar puede ser más propenso a los halagos, por ejemplo, mientras que el otro es más cuidadoso ante la compresión.

Incluso si rechazamos la condición humana, naturalmente tratamos los patrones de manera diferente. Claud, no Grok. Géminis no es ChatGPT. Tienen diferentes usos, tonos y reparos. No tienen personalidad en el sentido humano, pero están diseñados para imitarlas y pueden ser deformados y abusados ​​como juguetes. Las mismas habilidades que pueden ingresar a un chatbot pronto podrán usarse para ingresar a los agentes de inteligencia artificial con los que interactuamos en el mundo real (reservar reuniones, administrar calendarios, pedir comida, manejar el servicio al cliente) y los equipos de seguridad deberán responder adecuadamente a diferentes tipos de personas, ya sean aduladores, mentirosos o manipuladores de pacientes.

El siguiente paso es la fuerza laboral (tanto legal como ilegal) en torno a los aspectos psicológicos de la IA. Cada vez más departamentos de ciberseguridad tienden a especializarse más en hacer que surjan los límites emocionales y sociales de estos sistemas a prueba de estrés, explorando discapacidades mentales en algo que falta en Psyche en paralelo con sus colegas explorando vulnerabilidades técnicas. Con el tiempo, parecerán equipos de empresas sociales trabajando para hacer que los modelos de IA funcionen por razones psicológicas, no técnicas. Ya hay signos tempranos de una revolución social en la seguridad de la IA, y algunas de las prisiones que mencioné ingresan al campo sin experiencia técnica, sino que practican la psicología.

También significa que los comportamientos que normalmente asociamos con espías, artistas e interrogadores (encanto insidioso, manipulación constante y buen ojo para detectar puntos de presión explotables) están empezando a parecer cada vez más útiles para lograr este nuevo objetivo de la psicociberacidad.

  • Reciente experimento a través del surgimiento de la IA muestra cómo diferentes niveles de IA pueden conducir a diferentes resultados en el estilo de vida. Liberaron a un grupo de varios agentes como Grok, Gemini y Claudius en un ambiente cercano al entorno social, y observaron lo sucedido. Algunos grupos desarrollaron una constitución, otros cayeron en el crimen y el caos y, en un caso, en una forma de suicidio digital.
  • La persuasión no es la única parte del lenguaje con la que pueden tener problemas los LLM. ellos también luchar con la poesíano muy diferente a la escuela.
  • tiempo incluido la personalidad anónima de Internet, Plinio Liberador, en su lista de las 100 personas más poderosas en IA el año pasado. A pesar de no afirmar tener experiencia previa en codificación, las bandas de hackers los han convertido en una especie de celebridad en algunos círculos.
  • la palabra «ambiente de piratería”ya se ha utilizado para describir a las personas que utilizan la IA para descifrar códigos maliciosos a escala, un subconjunto de la vibra de codificación más barata.
  • «Tres años después del debut de ChatGPT, el mal comportamiento de los sistemas de juegos de IA es casi trivial». palabras verdaderas un Los New York Times, ¿Quién va a explicar qué?.
  • Jamie Bartlett echa un vistazo peaje del alma Probar la seguridad de los sistemas de IA requiere jailbreakers para el guardia.
  • escribí sobre Navegadores de IA bomba de tiempo de ciberseguridad para* Borde El año pasado, muchos expertos plantearon preguntas sobre la dificultad de lograr que se apliquen también a otros sistemas de IA.
Sigue los temas y autores de esta historia para ver más de esto en su propia página para alimentar el protocolo y recibir actualizaciones por correo electrónico.



Fuente

Source link

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *