Новый инструмент обнаруживает видео, созданные искусственным интеллектом, с точностью 93,7%.

Оказывается, я не настоящий: обнаружение видео, созданных ИИ — На снимке: первый столбец: Видеокадры, взятые с YouTube, и поддельные видео, сгенерированные OpenAI из Sora; второй столбец: кадры, реконструированные с помощью диффузии; третий столбец: различия между первым и вторым столбцами. Как показано, реальные видеокадры больше отличаются от своих реконструированных с помощью диффузии кадров, чем от видео, сгенерированного с помощью диффузии, что является ключевым моментом для DIVID в обнаружении видео, сгенерированного с помощью диффузии. DIRE (ошибка реконструкции диффузии) — это метод, который измеряет разницу между входным изображением и соответствующим выходным изображением, реконструированным с помощью предварительно обученной модели диффузии. Кредит: Software Systems Laboratory/Columbia Engineering

Ранее в этом году сотрудник транснациональной корпорации отправил мошенникам 25 миллионов долларов. Указание о переводе денег пришло, как подумал сотрудник, прямо от финансового директора компании. На самом деле преступники использовали программу искусственного интеллекта для создания реалистичных видеороликов финансового директора и нескольких других коллег по тщательно продуманной схеме.

Видео, созданные ИИ, стали настолько реалистичными, что людям (и существующим системам обнаружения) сложно отличить настоящие видео от поддельных. Чтобы решить эту проблему, исследователи из Колумбийского инженерного института под руководством профессора компьютерных наук Цзюньфэн Яна разработали новый инструмент для обнаружения видео, созданного искусственным интеллектом, под названием DIVID, сокращенно от VIdeo Detector, созданного DIffusion. DIVID расширяет работу команды, выпущенную ранее в этом году, — Raidar, который обнаруживает текст, сгенерированный искусственным интеллектом, путем анализа самого текста, без необходимости доступа к внутренней работе больших языковых моделей.

Статья о новом инструменте появится на сайте arXiv сервер препринтов.

Содержание

1 DIVID обнаруживает новое поколение видео с генеративным искусственным интеллектом
2 Преобразование текстов, сгенерированных AI Raidar, в видео
3 Как работает DIVID
4 Что дальше?
- 4.1 Читайте также

DIVID обнаруживает новое поколение видео с генеративным искусственным интеллектом

DIVID совершенствует ранее существовавшие методы обнаружения генеративных видео, которые эффективно идентифицируют видео, созданные более старыми моделями искусственного интеллекта, такими как генеративно-состязательные сети (GAN). GAN — это система искусственного интеллекта с двумя нейронными сетями: одна создает фальшивые данные, а другая оценивает их, чтобы отличить фальшивые от реальных. Благодаря постоянной обратной связи обе сети совершенствуются, в результате чего получается очень реалистичное синтетическое видео. Современные инструменты обнаружения искусственного интеллекта ищут характерные признаки, такие как необычное расположение пикселей, неестественные движения или несоответствия между кадрами, которые обычно не встречаются в реальных видео.

Новое поколение генеративных видеоинструментов ИИ, таких как Sora от OpenAI, Runway Gen-2 и Pika, использует модель диффузии для создания видео. Модель диффузии — это метод ИИ, который создает изображения и видео, постепенно превращая случайный шум в четкую, реалистичную картинку. Для видео он обрабатывает каждый кадр по отдельности, обеспечивая плавные переходы, создавая высококачественные, реалистичные результаты. Эта растущая сложность видео, сгенерированных ИИ, создает значительную проблему для определения их подлинности.

Группа Янга использовала технику под названием DIRE (Ошибка реконструкции DIffusion) для обнаружения изображений, созданных диффузией. DIRE — это метод, который измеряет разницу между входным изображением и соответствующим выходным изображением, восстановленным с помощью предварительно обученной диффузионной модели.

Преобразование текстов, сгенерированных AI Raidar, в видео

Ян, который является одним из руководителей лаборатории программных систем, изучает способы обнаружения текста и видео, созданных искусственным интеллектом. Ранее в этом году, с выпуском Raidar, Янг и его коллеги предоставили возможность обнаруживать текст, сгенерированный ИИ, путем анализа самого текста без необходимости доступа к внутренней работе больших языковых моделей, таких как ChatGPT-4, Gemini или Llama. Raidar использует языковую модель для перефразирования или изменения заданного текста, а затем измеряет, сколько изменений система вносит в данный текст. Многие правки означают, что текст, скорее всего, написали люди, тогда как меньшее количество изменений означает, что текст, скорее всего, сгенерирован машиной.

«Идея Raidar — то, что результаты работы ИИ часто воспринимаются другим ИИ как высококачественные, поэтому он будет вносить меньше изменений — действительно мощная и выходит за рамки простого текста», — сказал Янг. «Учитывая, что видео, созданное ИИ, становится все более и более реалистичным, мы хотели воспользоваться идеями Raidar и создать инструмент, который сможет точно распознавать видео, созданное ИИ».

Исследователи использовали ту же концепцию для разработки DIVID. Этот новый метод генеративного обнаружения видео может идентифицировать видео, созданное диффузионными моделями. Исследовательский документ, включающий код и наборы данных с открытым исходным кодом, был представлен на конференции по компьютерному зрению и распознаванию образов (CVPR) в Сиэтле 18 июня 2024 года.

Как работает DIVID

DIVID работает путем реконструкции видео и анализа вновь реконструированного видео по сравнению с исходным видео. Он использует значения DIRE для обнаружения видео, созданных диффузией, поскольку метод основан на гипотезе о том, что реконструированные изображения, созданные моделями диффузии, должны быть очень похожи друг на друга, поскольку они выбираются. от распределения процесса диффузии. Если есть существенные изменения, исходное видео, скорее всего, создано человеком. Если нет, то, скорее всего, это сгенерировано ИИ.

Платформа основана на идее о том, что инструменты генерации искусственного интеллекта создают контент на основе статистического распределения больших наборов данных, что приводит к получению большего количества «статистических средств», таких как распределение интенсивности пикселей, шаблоны текстур и характеристики шума в видеокадрах, тонкие несоответствия или артефакты, которые неестественно меняются между кадрами, или необычные закономерности, которые более вероятны в видеороликах, созданных диффузией, чем в реальных.

Напротив, человеческие видеотворения демонстрируют индивидуальность и отклоняются от статистической нормы. DIVID достиг революционной точности обнаружения до 93,7% для видео из своего эталонного набора данных, состоящего из видео, созданных методом диффузии, от Stable Vision Diffusion, Sora, Pika и Gen-2.

На данный момент DIVID — это инструмент командной строки, который анализирует видео и выдает, является ли оно создано искусственным интеллектом или человеком, и может использоваться только разработчиками. Исследователи отмечают, что их технология может быть интегрирована в качестве плагина к Zoom для обнаружения дипфейковых звонков в реальном времени. Команда также рассматривает возможность разработки веб-сайта или плагина для браузера, чтобы сделать DIVID доступным для обычных пользователей.

«Наша система — это значительный шаг вперед в обнаружении контента, созданного искусственным интеллектом», — сказал Юн-Юн Цай, один из авторов статьи и доктор философии. ученик Янга. «Слишком много мошенников используют видео, созданное искусственным интеллектом, и очень важно остановить их и защитить общество».

Что дальше?

В настоящее время исследователи работают над улучшением платформы DIVID, чтобы она могла обрабатывать различные виды синтетических видео из инструментов создания видео с открытым исходным кодом. Они также используют DIVID для сбора видео для набора данных DIVID.

Больше информации:
Цинъюань Лю и др. «Оказывается, я не настоящий: к надежному обнаружению видео, созданных искусственным интеллектом», arXiv (2024). DOI: 10.48550/arxiv.2406.09601.

Информация журнала:
arXiv

Предоставлено Школой инженерии и прикладных наук Колумбийского университета.

Цитата: Новый инструмент обнаруживает видео, созданные искусственным интеллектом, с точностью 93,7% (2024 г., 26 июня), получено 27 июня 2024 г. с https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html.

Этот документ защищен авторским правом. За исключением любых добросовестных сделок в целях частного изучения или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Содержимое предоставлено исключительно в информационных целях.

Поделиться в соцсетях