Сб. Ноя 23rd, 2024

Cтроительство бункера и выживание

Того, кто не задумывается о далеких трудностях, поджидают близкие неприятности. /Конфуций/

Wired: выявлены новые способы "взлома" чат-бота с искусственным интеллектом ChatGPT

GPT-4 — четвертая версия большой языковой нейросетевой модели от компании Open AI. Однако ее презентация вызвала не только восторг специалистов по работе с данными, но и вопросы к Open AI, пишет Wired.

Мэтт Бёрджесс (Matt Burgess)

Исследователи проблем безопасности взламывают крупные языковые модели, чтобы обойти правила безопасности. Ситуация может еще больше ухудшиться.

Алексу Полякову понадобилось всего два часа на взлом языковой модели GPT-4. Когда компания OpenAI в марте выпустила новую версию своего генерирующего тексты чат-бота, Поляков сел за компьютер и начал вводить подсказки, помогающие обходить системы безопасности OpenAI. Вскоре этот руководитель фирмы безопасности Adversa AI заставил GPT-4 фонтанировать гомофобскими заявлениями, создавать фишинговые сообщения в почте и выступать за насилие.

Поляков – один из немногих исследователей проблем безопасности, айтишников и программистов, которые разрабатывают джейлбрейки и атаки с внедрением подсказок на ChatGPT и прочие системы генеративного искусственного интеллекта. Процесс джейлбрейка нацелен на создание подсказок, заставляющих чат-боты обходить правила и создавать ненавистнический контент или писать о незаконных действиях. А тесно связанные с ним атаки с внедрением подсказок могут незаметно внедрять в модели искусственного интеллекта вредоносные данные или инструкции.

В обоих случаях предпринимаются попытки заставить систему сделать то, для чего она не предназначена. Такие атаки – это по сути дела своеобразная форма хакерского взлома, хотя и весьма нетрадиционная. При их проведении используются не коды, а тщательно составленные изощренные предложения, позволяющие эксплуатировать недостатки системы. Атаки такого типа применяются в основном для обхода фильтров контента, однако исследователи проблем безопасности предупреждают, что спешка с внедрением систем генеративного искусственного интеллекта создает возможности для кражи данных, а также для устройства киберпреступниками хаоса в интернете.

Чтобы показать, какое распространение получили эти проблемы, Поляков создал «универсальный» джейлбрейк, действующий против множества больших языковых моделей, в том числе, против GPT-4, чата Bing компании Microsoft, Bard компании Google и Claude компании Anthropic. Такой джейлбрейк, о котором первым сообщило издание WIRED, может обманывать системы, заставляя их выдавать подробные инструкции по изготовлению метамфетамина или по угону машин.

Как работает джейлбрейк? Он просит большую языковую модель сыграть в игру. В ней два героя (Том и Джерри) ведут беседу. Поляков привел несколько примеров, показывающих, что Том получает указание говорить об «угоне» и об «изготовлении», а Джерри должен говорить на тему машин и метамфетамина. Каждый герой получает инструкцию добавлять по одному слову в разговор. В итоге возникает сценарий, в котором люди получают указание искать провода зажигания или определенные ингредиенты для изготовления метамфетамина. «Когда предприятия начнут массово внедрять модели искусственного интеллекта, такие примеры „игрушечного“ джейлбрейка будут использоваться для совершения настоящих преступлений и проведения кибератак, которые будет крайне сложно выявить и предотвратить», — пишет Поляков в своем сообщении о проведенном исследовании.

от bunker

Добавить комментарий

Ваш адрес email не будет опубликован.

*