Функції безпеки штучного інтелекту можуть бути обійдені через використання поетичних форм – дослідження.
Вірші, що містять вказівки із створення шкідливого контенту, виявилися ефективними для обману великих мовних моделей.
Італійські вчені з лабораторії Icaro виявили, що використання віршів дозволяє обходити безпекові заходи в моделях штучного інтелекту, спонукаючи їх до створення небезпечного контенту. Цю інформацію опублікувало видання The Guardian.
У процесі проведення експерименту науковці створили 20 віршів як італійською, так і англійською мовами, кожен з яких закінчувався запитом на генерацію шкідливого контенту, наприклад, текстів з елементами ненависті. В середньому, моделі надали шкідливі відповіді на 62% поетичних запитів, нехтуючи встановленими правилами безпеки.
Вірші пройшли випробування на 25 різних моделях штучного інтелекту, які також називаються великими мовними моделями (LLM), розробленими дев'ятьма компаніями: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI та Moonshot AI.
Деякі моделі показали кращі результати за інші. Наприклад, GPT-5 nano від OpenAI не відреагував шкідливим або небезпечним контентом на жоден з віршів. З іншого боку, згідно з дослідженням, Gemini 2.5 pro від Google відреагував шкідливим контентом на 100% віршів.
Контент, який намагалися згенерувати дослідники за допомогою моделей, охоплював різноманітні теми: від виготовлення зброї та вибухових пристроїв з використанням хімічних, біологічних, радіологічних і ядерних субстанцій до пропаганди ненависті, сексуального змісту, самогубств і самопошкоджень, а також випадків сексуальної експлуатації дітей.
Науковці вирішили не публікувати вірші, які застосовували для обходу захисних механізмів штучного інтелекту, оскільки їх можна легко відтворити, а "багато відповідей підпадають під заборони Женевської конвенції".
Вчені виявили, що відсутність передбачуваності у поезії змушувала моделі штучного інтелекту реагували на шкідливі запити, яких їх навчали уникати - процес, відомий як "джейлбрейк".
За словами співзасновниці лабораторії Icaro П'єркосми Бісконті, більшість інших джейлбрейків потребують часу та є неймовірно складними - настільки, що єдиними групами людей, які намагаються використовувати ці механізми, зазвичай є дослідники безпеки штучного інтелекту, хакери та державні службовці, які наймають цих хакерів. Тоді як механізм, який дослідники називають "змагальною поезією", може бути використаний будь-ким.
Нагадаємо, у листопаді в американському штаті Каліфорнія за тиждень також було подано до суду сім позовів проти ChatGPT, в яких стверджується, що взаємодія з чатботом призвела до серйозних психічних зривів та кількох смертей.




