Модель, управляемая данными, генерирует естественные движения человека для виртуальных аватаров.

Модель на основе данных для создания естественных движений человека для виртуальных аватаров. — WANDR начинается с произвольной позы тела и генерирует точные и реалистичные движения человека, которые достигают указанной трехмерной цели (изображенной в виде красной сферы). Используя подход, основанный исключительно на данных, WANDR представляет собой условный вариационный автоэнкодер, управляемый функциями намерения (изображены стрелками), которые направляют ориентацию человека (желтый), положение (голубой) и запястье (розовый) к цели. WANDR может достичь широкого спектра целей, даже если они значительно отклоняются от данных обучения. Предоставлено: Диоматарис и др.

Люди от природы способны выполнять широкий спектр движений, поскольку это позволяет им лучше всего решать различные задачи в повседневной жизни. Автоматическое воспроизведение этих движений в виртуальных аватарах и 3D-анимированных человекоподобных персонажах может оказаться очень полезным для многих приложений, начиная от метавселенных и заканчивая цифровыми развлечениями, интерфейсами искусственного интеллекта и робототехникой.

Исследователи из Института интеллектуальных систем Макса Планка и ETH Zurich недавно разработали WANDR, новую модель, которая может генерировать естественные человеческие движения для аватаров. Эта модель, которая будет представлена в документе, представленном на конференции по компьютерному зрению и распознаванию образов (CVPR 2024) в июне, объединяет различные источники данных в рамках единой модели для достижения более реалистичных движений трехмерных гуманоидных персонажей. Этот документ также размещен на arXiv сервер препринтов.

«На высоком уровне наше исследование направлено на выяснение того, что нужно для создания виртуальных людей, способных вести себя как мы», — рассказал Tech Xplore Маркос Диоматарис, первый автор статьи. «По сути, это означает научиться рассуждать о мире, о том, как в нем двигаться, ставить цели и пытаться их достичь.

«Но зачем заниматься этой исследовательской проблемой? По сути, мы хотим лучше понять людей, как это сделали бы нейробиологи, и мы пытаемся добиться этого, следуя философии «попытайся построить то, что хочешь понять».

Основной целью недавнего исследования Диоматариса и его коллег было создание модели, которая будет генерировать реалистичные движения для 3D-аватаров. Эти генерируемые движения позволят аватарам в конечном итоге взаимодействовать со своей виртуальной средой, например, хватая объекты.

«Подумайте о том, чтобы взять чашку кофе — это может быть так же просто, как разгибание руки, или может включать в себя скоординированные действия всего нашего тела», — сказал Диоматарис. «Для достижения цели такие действия, как наклон, вытягивание руки и ходьба, должны сочетаться друг с другом. На детальном уровне мы постоянно вносим тонкие корректировки, чтобы поддерживать баланс и оставаться на пути к нашей цели».

Кредит: arXiv (2024). DOI: 10.48550/arxiv.2404.15383

Выполняя эти тонкие настройки, люди могут создавать плавные движения, объединяя множество более мелких движений, которые сходятся к простой цели (например, положить руку на чашку). Диоматарис и его коллеги намеревались научить человека-аватара тем же навыкам.

Одним из подходов к обучению виртуальных агентов новым навыкам является обучение с подкреплением (RL), а другой — собрать набор данных, содержащий человеческие демонстрации, а затем использовать его для обучения модели машинного обучения. Эти два подхода имеют разные сильные стороны и ограничения.

«Проще говоря, RL — это обучение навыкам на основе опыта, полученного методом проб и ошибок», — объяснил Диоматарис. «Для нашей задачи агенту придется пробовать все виды случайных движений в начале своего обучения, пока ему не удастся сначала правильно стоять, затем идти, ориентироваться в направлении цели, двигаться к ней и, наконец, дотянуться до нее рукой.

«Этот подход не обязательно требует набора данных, но он может потребовать больших объемов вычислений, а также утомительного проектирования вознаграждений для агента, чтобы предотвратить неестественное поведение (например, предпочтение ползать вместо ходьбы при движении)».

В отличие от RL, модели обучения с использованием наборов данных предоставляют виртуальному агенту более полную информацию о навыках, а не позволяют ему разобраться в этой информации в одиночку. Хотя сейчас существуют различные большие наборы данных, содержащие демонстрации движений человека, очень немногие из них включают в себя движения, которые команда также хотела воспроизвести на аватарах.

«Отдавая приоритет реалистичности движения, мы решили освоить этот навык на основе данных», — сказал Диоматарис. «Мы представляем метод, который может использовать как большие наборы данных с различными общими движениями, так и меньшие наборы данных, которые специализируются на достижении людьми целей».

Кредит: arXiv (2024). DOI: 10.48550/arxiv.2404.15383

Диоматарис и его коллеги сначала разработали цель обучения, не зависящую от существования меток целей. Этот ключевой шаг позволил WANDR освоить общие навыки навигации на более крупных наборах данных, при этом используя помеченные данные, полученные из меньших наборов данных.

«WANDR — это первая модель генерации движений человека, в основе которой лежит активная петля обратной связи, полученная исключительно на основе данных, без каких-либо дополнительных шагов обучения с подкреплением (RL)», — сказал Диоматарис. «Что такое активная петля обратной связи? WANDR генерирует движение авторегрессионно (покадрово). На каждом этапе он прогнозирует действие, которое приведет человека к следующему состоянию».

Прогнозы WANDR о действиях аватара обусловлены особенностями, зависящими от времени и цели, которые исследователи определяют как «намерение». Эти функции пересчитываются в каждом кадре, действуя как петля обратной связи, которая помогает аватару достичь заданной цели с помощью запястья.

«Это означает, что, как и человек, наш метод постоянно корректирует предпринимаемые действия, пытаясь сориентировать аватара на цель и достичь ее», — сказал Диоматарис. «В результате наш аватар способен приближаться и достигать движущихся или последовательных целей, даже если он никогда не обучался чему-то подобному».

Существующие наборы данных, содержащие целенаправленные движения человека, такие как CIRCLE, немногочисленны и не содержат достаточно данных, чтобы модели могли обобщать различные задачи. Вот почему RL до сих пор является наиболее распространенным подходом к обучению моделей воспроизведения движений человека в аватарах.

Кредит: arXiv (2024). DOI: 10.48550/arxiv.2404.15383

«Вдохновленные парадигмой поведенческого клонирования в робототехнике, мы предлагаем подход, основанный исключительно на данных, при котором во время обучения в качестве цели рассматривается случайно выбранное будущее положение руки аватара», — сказал Диоматарис.

«Галлюцинируя цели таким образом, мы можем комбинировать как меньшие наборы данных с аннотациями целей, такими как CIRCLE, так и крупномасштабные, такие как AMASS, которые не имеют меток целей, но необходимы для изучения общих навигационных навыков, таких как ходьба, поворот и т. д.».

WANDR, модель, разработанная Диоматарисом и его коллегами, была обучена на данных из разных наборов данных и источников. Путем надлежащего смешивания данных из этих источников модель создает более естественные движения, позволяя аватару достигать произвольных целей в окружающей среде.

«Пока работы, изучающие генерацию движения, либо используют RL, либо полностью лишены элемента онлайн-адаптации движения», — сказал Диоматарис. «WANDR демонстрирует способ изучения адаптивного поведения аватаров на основе данных. Часть «онлайн-адаптация» необходима для любого приложения реального времени, где аватары взаимодействуют с людьми и реальным миром, как, например, в видеоиграх виртуальной реальности или в человеческих играх. взаимодействие с аватаром».

В будущем новая модель, представленная этой командой исследователей, может помочь в создании нового контента для видеоигр, приложений виртуальной реальности, анимационных фильмов и развлечений, позволяя человекоподобным персонажам выполнять более реалистичные движения тела. Поскольку WANDR полагается на различные источники данных и наборы данных о перемещениях людей, вероятно, будут расти в течение следующих десятилетий, его производительность может вскоре улучшиться.

«На данный момент отсутствуют две основные детали, которые мы планируем исследовать в будущем», — добавил Диоматарис. «Во-первых, аватары должны иметь возможность использовать большие и непроверенные наборы данных видео, чтобы научиться двигаться и взаимодействовать со своим виртуальным миром, и в дополнение к этому они должны иметь возможность исследовать свой виртуальный мир и учиться на собственном опыте.

«Эти два направления представляют собой фундаментальные средства, с помощью которых люди также приобретают опыт: совершая действия и извлекая уроки из их последствий, а также наблюдая за другими и учась на их опыте».

Больше информации:
Маркос Диоматарис и др., WANDR: Генерация движений человека, управляемая намерением, arXiv (2024). DOI: 10.48550/arxiv.2404.15383

Информация журнала:
arXiv

Цитирование: Модель на основе данных генерирует естественные движения человека для виртуальных аватаров (2024 г., 30 мая), получено 31 мая 2024 г. с https://techxplore.com/news/2024-05-driven-generates-natural-human-motions.html.

Этот документ защищен авторским правом. За исключением любых добросовестных сделок в целях частного изучения или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Содержимое предоставлено исключительно в информационных целях.

Поделиться в соцсетях

Читайте также