Как обучаются нейронные сети? Математическая формула объясняет, как они обнаруживают соответствующие закономерности

Как обучаются нейронные сети?  Математическая формула объясняет, как они обнаруживают соответствующие закономерности
Как обучаются нейронные сети?  Математическая формула объясняет, как они обнаруживают соответствующие закономерности

Верхний собственный вектор AGOP двух отдельных моделей, MLP и машин с ядром Лапласа, выявил схожие характеристики (сходство косинуса более 0,99) при обучении на одних и тех же данных из CelebA для различных задач. Кредит: Наука (2024). DOI: 10.1126/science.adi5639.

Нейронные сети способствовали прорывам в области искусственного интеллекта, включая большие языковые модели, которые сейчас используются в широком спектре приложений, от финансов до управления персоналом и здравоохранения. Но эти сети остаются черным ящиком, внутреннюю работу которого инженеры и ученые пытаются понять.


Теперь команда, возглавляемая специалистами по обработке данных и информатике из Калифорнийского университета в Сан-Диего, дала нейронным сетям аналог рентгеновского снимка, чтобы выяснить, как они на самом деле обучаются.

Исследователи обнаружили, что формула, используемая в статистическом анализе, обеспечивает упрощенное математическое описание того, как нейронные сети, такие как GPT-2, предшественник ChatGPT, изучают соответствующие закономерности в данных, известные как функции. Эта формула также объясняет, как нейронные сети используют эти соответствующие шаблоны для прогнозирования.

«Мы пытаемся понять нейронные сети, исходя из первых принципов», — сказал Дэниел Биглхоул, доктор философии. студент факультета компьютерных наук и инженерии Калифорнийского университета в Сан-Диего и соавтор исследования. «С помощью нашей формулы можно просто интерпретировать, какие функции сеть использует для прогнозирования».

Команда представляет свои выводы в журнале Наука.

Почему это имеет значение? Инструменты на базе искусственного интеллекта теперь широко распространены в повседневной жизни. Банки используют их для одобрения кредитов. Больницы используют их для анализа медицинских данных, таких как рентгеновские снимки и МРТ. Компании используют их для проверки кандидатов на работу. Но в настоящее время трудно понять механизм, который нейронные сети используют для принятия решений, и предвзятости в обучающих данных, которые могут на это повлиять.

«Если вы не понимаете, как нейронные сети обучаются, очень сложно установить, дают ли нейронные сети надежные, точные и соответствующие ответы», — сказал Михаил Белкин, автор-корреспондент статьи и профессор Института науки о данных Халичоглу Калифорнийского университета в Сан-Диего. . «Это особенно важно, учитывая быстрый рост технологий машинного обучения и нейронных сетей в последнее время».

Исследование является частью более масштабных усилий исследовательской группы Белкина по разработке математической теории, объясняющей, как работают нейронные сети. «Технологии значительно опередили теорию», — сказал он. «Нам нужно наверстать упущенное».

Команда также показала, что статистическая формула, которую они использовали для понимания того, как обучаются нейронные сети, известная как внешний продукт среднего градиента (AGOP), может быть применена для повышения производительности и эффективности в других типах архитектур машинного обучения, которые не включают нейронные сети.

«Если мы поймем основные механизмы, которые управляют нейронными сетями, мы сможем создавать модели машинного обучения, которые будут более простыми, эффективными и более интерпретируемыми», — сказал Белкин. «Мы надеемся, что это поможет демократизировать ИИ».

Для функционирования систем машинного обучения, которые предполагает Белкин, потребуется меньше вычислительной мощности и, следовательно, меньше энергии от сети. Эти системы также будут менее сложными и их будет легче понять.

Проиллюстрируем новые выводы примером

(Искусственные) нейронные сети — это вычислительные инструменты для изучения взаимосвязей между характеристиками данных (т. е. идентификации конкретных объектов или лиц на изображении). Один из примеров задачи — определить, в новом изображении человек в очках или нет. Машинное обучение решает эту проблему, предоставляя нейронной сети множество примеров (обучающих) изображений, помеченных как изображения «человека в очках» или «человека без очков».

Нейронная сеть изучает взаимосвязь между изображениями и их метками и извлекает шаблоны данных или признаки, на которых ей необходимо сосредоточиться для принятия решения. Одна из причин, по которой системы искусственного интеллекта считаются черным ящиком, заключается в том, что часто трудно математически описать, какие критерии на самом деле используют системы для своих прогнозов, включая потенциальные отклонения. Новая работа дает простое математическое объяснение того, как системы изучают эти функции.

Характеристики — это соответствующие закономерности в данных. В приведенном выше примере имеется широкий спектр функций, которые нейронные сети изучают, а затем используют, чтобы определить, носит ли человек на фотографии очки или нет.

Для этой задачи необходимо обратить внимание на одну особенность — верхнюю часть лица. Другими особенностями могут быть область глаз или носа, где часто лежат очки. Сеть выборочно обращает внимание на особенности, которые, по ее мнению, являются релевантными, а затем отбрасывает другие части изображения, такие как нижняя часть лица, волосы и так далее.

Обучение функциям — это способность распознавать соответствующие закономерности в данных, а затем использовать эти закономерности для прогнозирования. В примере с очками сеть учится обращать внимание на верхнюю часть лица. В новом Наука В статье исследователи определили статистическую формулу, которая описывает, как нейронные сети изучают функции.

Альтернативные архитектуры нейронных сетей. Далее исследователи показали, что внедрение этой формулы в вычислительные системы, которые не полагаются на нейронные сети, позволяет этим системам учиться быстрее и эффективнее.

«Как мне игнорировать то, что не нужно? Люди в этом хороши», — сказал Белкин. «Машины делают то же самое. Например, большие языковые модели реализуют это «избирательное внимание», и мы не знаем, как они это делают. Наука В статье мы представляем механизм, по крайней мере частично объясняющий, как нейронные сети «избирательно обращают внимание».

Больше информации:
Адитьянараянан Радхакришнан и др., Механизм обучения функциям в нейронных сетях и модели машинного обучения без обратного распространения ошибки, Наука (2024). DOI: 10.1126/science.adi5639.

Предоставлено Калифорнийским университетом в Сан-Диего.

Цитирование: Как обучаются нейронные сети? Математическая формула объясняет, как они обнаруживают соответствующие закономерности (12 марта 2024 г.), получено 12 марта 2024 г. с https://phys.org/news/2024-03-neural-networks-mathematical-formula-relevant.html.

Этот документ защищен авторским правом. За исключением любых добросовестных сделок в целях частного изучения или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Содержимое предоставлено исключительно в информационных целях.

Поделиться в соцсетях