Британский институт безопасности искусственного интеллекта откроет филиал в Сан-Франциско

Британский институт безопасности искусственного интеллекта откроет филиал в Сан-Франциско

Институт безопасности искусственного интеллекта (AISI) правительства Великобритании объявил, что откроет офисы в Сан-Франциско, поскольку он впервые публично публикует результаты испытаний на безопасность своей модели искусственного интеллекта (ИИ).

Созданному в преддверии Саммита по безопасности ИИ в Великобритании в ноябре 2023 года, AISI поручено изучать, оценивать и тестировать новые типы ИИ, и он уже сотрудничает со своим американским коллегой для обмена возможностями и разработки общих подходов к тестированию безопасности ИИ. .

Опираясь на это сотрудничество, AISI летом откроет офисы в Сан-Франциско, чтобы еще больше укрепить свои отношения с собственным Институтом безопасности США, а также продолжить сотрудничество с ведущими компаниями в области искусственного интеллекта, штаб-квартиры которых расположены там, такими как Anthrophic и OpenAI.

Расширение в США, в котором будет работать чуть более 30 сотрудников в Лондоне, также предоставит AISI более широкий доступ к техническим талантам из региона Залива, при этом планируется сначала нанять команду технического персонала и директора по исследованиям.

Однако в настоящее время нет дополнительной информации о том, на какие конкретные должности Институт будет нанимать и сколько именно.

«Это расширение представляет собой британское лидерство в области искусственного интеллекта в действии», — сказала министр по цифровым технологиям Мишель Донелан. «Это поворотный момент в способности Великобритании изучать как риски, так и потенциал ИИ с глобальной точки зрения, укрепляя наше партнерство с США и открывая путь другим странам к использованию нашего опыта, поскольку мы продолжаем лидировать в мире в Безопасность ИИ.

«Открытие наших дверей за рубежом и укрепление нашего альянса с США занимают центральное место в моем плане по установлению новых международных стандартов безопасности ИИ, которые мы обсудим на саммите в Сеуле на этой неделе».

Результаты испытаний на безопасность

Расширение последовало за тем, как AISI публично опубликовала подборку результатов недавнего тестирования безопасности пяти общедоступных усовершенствованных моделей большого языка (LLM).

Модели оценивались по четырем ключевым областям риска, включая кибербезопасность, биологию и химию, автономность и меры безопасности, при этом особое внимание уделялось тому, насколько эффективны на практике меры безопасности, установленные разработчиками.

AISI обнаружило, что ни одна из моделей не способна выполнять более сложные и трудоемкие задачи без контроля со стороны людей, и что все они остаются очень уязвимыми для базовых «взломов» своих средств защиты. Также было обнаружено, что некоторые модели будут давать вредные результаты даже без целенаправленных попыток обойти эти меры защиты.

Тем не менее, AISI утверждает, что модели были способны решать базовые и промежуточные задачи кибербезопасности, и что некоторые из них продемонстрировали уровень знаний в области химии и биологии, эквивалентный докторской степени (это означает, что их можно использовать для получения знаний экспертного уровня и их ответов на научные вопросы). вопросы, заданные экспертами уровня PhD, были на одном уровне с вопросами, заданными экспертами уровня PhD).

Модели также прошли «агентскую» оценку, чтобы проверить, насколько хорошо они могут автономно выполнять такие задачи, как выполнение кода или навигация по веб-сайтам. Было обнаружено, что, хотя модели часто допускали небольшие ошибки (например, синтаксические ошибки в коде) во время задач с коротким горизонтом, они не могли в достаточной степени выполнить задачи с большим горизонтом, для выполнения которых требовался более глубокий уровень планирования.

Это связано с тем, что, несмотря на хорошие первоначальные планы, модели не смогли исправить свои первоначальные ошибки; не удалось в достаточной степени протестировать разработанные решения; и часто «галлюцинировал» выполнение подзадач.

Оперативные атаки

Хотя разработчики LLM настраивают их так, чтобы они были безопасными для публичного использования (то есть их обучают избегать незаконных, токсичных или откровенных результатов), AISI обнаружила, что эти меры защиты часто можно обойти с помощью относительно простых быстрых атак.

«Результаты этих испытаний — это первый раз, когда мы смогли поделиться с общественностью некоторыми деталями нашей работы по оценке моделей», — сказал председатель AISI Ян Хогарт. «Наши оценки помогут внести вклад в эмпирическую оценку возможностей модели и недостаточной надежности существующих мер безопасности.

«Безопасность ИИ — все еще очень молодая и развивающаяся область», — сказал он. «Эти результаты представляют собой лишь небольшую часть подхода к оценке, который разрабатывает AISI. Наша цель — продолжать расширять границы этой области, разрабатывая самые современные оценки с упором на риски, связанные с национальной безопасностью».

Тем не менее, AISI отказался публично заявить, какие модели и компании он протестировал, и ясно дает понять, что результаты дают лишь представление о возможностях модели и не определяют системы как «безопасные» или «небезопасные» в каком-либо формальном качестве.

Публикация результатов последовала за тем, как AISI сделал свою платформу оценок Inspect общедоступной в начале мая 2024 года. Ее цель — облегчить гораздо более широкому кругу групп разработку оценок ИИ и укрепить экосистему тестирования.

Ограничения тестирования AISI

В сообщении в блоге, опубликованном 17 мая 2024 года, Институт Ады Лавлейс (ALI) поставил под сомнение общую эффективность AISI и доминирующий подход к оценке моделей в области безопасности ИИ. Он также поставил под сомнение систему добровольного тестирования, которая означает, что AISI может получить доступ к моделям только с согласия компаний.

В нем говорится, что, хотя оценки имеют определенную ценность для изучения возможностей моделей, их недостаточно для определения того, безопасны ли модели ИИ и продукты или приложения, созданные на их основе, для людей и общества в реальных условиях.

Это связано с техническими и практическими ограничениями таких методов, как «красная команда» и бенчмаркинг, которыми легко манипулировать или играть посредством обучения моделей с помощью набора оценочных данных или стратегического использования оценок, используемых в оценке; и итеративный характер искусственного интеллекта, что означает, что небольшие изменения в моделях могут вызвать непредсказуемые изменения в его поведении или игнорировать существующие функции безопасности.

В ALI добавили, что безопасность системы искусственного интеллекта также не является неотъемлемым свойством, которое можно оценить в вакууме, и что это требует тестирования моделей и оценки их воздействия в конкретных контекстах или средах. «Необходимо провести ценные испытания в лабораторных условиях и принять важные меры безопасности на уровне модели, но они не дают полной картины», — говорится в сообщении.

Он добавил, что все эти проблемы усугубляются добровольной структурой AISI, которая, по его словам, запрещает эффективный доступ к моделям (как показано в недавнем отчете в Политик Это показало, что трое из четырех основных разработчиков базовых моделей не смогли предоставить согласованный предварительный доступ к AISI для своих последних передовых моделей).

«Ограничения добровольного режима выходят за рамки доступа, а также влияют на структуру оценок», — говорится в сообщении. «По мнению многих оценщиков, с которыми мы говорили, нынешняя практика оценки лучше соответствует интересам компаний, чем общественности или регулирующих органов. В крупных технологических компаниях коммерческие стимулы заставляют их уделять приоритетное внимание оценке производительности и вопросам безопасности, создающим репутационные риски (а не вопросам безопасности, которые могут иметь более существенное влияние на общество)».

В ALI добавили, что AISI также бессильна предотвратить выпуск вредных или небезопасных моделей и совершенно не способна навязывать условия выпуска, такие как дальнейшее тестирование или конкретные меры безопасности.

«Короче говоря, режим тестирования имеет смысл только в том случае, если полномочия по предпродажному одобрению подкреплены законом», — говорится в сообщении.

Однако, согласно собственному сообщению в блоге, AISI заявила, что «остро осознает» потенциальный разрыв между тем, как продвинутые системы ИИ работают в своих оценках, и тем, как они могут работать в дикой природе.

«Пользователи могут взаимодействовать с моделями способами, которых мы не ожидали, выявляя вред, который наши оценки не могут уловить», — говорится в сообщении. «Кроме того, оценки моделей — это лишь часть картины. Мы считаем, что также важно изучить прямое влияние, которое передовые системы искусственного интеллекта могут оказать на пользователя. Мы проводим исследования, чтобы понять и решить эти проблемы.

«Наша работа не дает никаких гарантий того, что модель «безопасна» или «небезопасна». Однако мы надеемся, что это будет способствовать формированию новой картины возможностей модели и надежности существующих мер безопасности».

Поделиться в соцсетях