Начиная с приобретения Darwin AI и заканчивая недавними сообщениями о том, что Apple может работать с Google и другими для поддержки более широкого спектра инструментов генеративного искусственного интеллекта (genAI), чем она планирует представить, совершенно очевидно, что компания решила сосредоточиться на том, где она создает свои собственные. ИИ-технологии.
По крайней мере, одно из этих направлений отражает работу, которую компания проводила еще до того, как искусственный интеллект стал модным словом — и это интеллектуальный интеллект.
Содержание
Намек на жизнь
Под этим я специально подразумеваю ИИ, который может понимать то, что он видит, контекстуализировать эту информацию, принимать на ее основе решения, изменять или модифицировать представление и так далее.
Возможно, вы уже используете такой ИИ:
- Каждый раз, когда вы фотографируете документ, Apple позволяет вам скопировать текст и вставить его в другой документ.
- Когда твой iPhone может сказать тебе, где находятся двери здания.
- Когда вы нажимаете кнопку «I» в «Фото», вы получаете доступ к описаниям того, что видно.
- Когда ваш iPhone сообщает вам значение этикетки для белья, на которой вы ее видите.
- Когда вы используете Переводчик для расшифровки текста на знаках вокруг вас.
- Когда датчик LiDAR предоставляет вам карту помещения.
Есть много других примеров. Возможно, есть даже лучшие иллюстрации, показывающие направление движения.
Электронный блюз
Исследователи Apple недавно опубликовали официальный документ, вызвавший ужас и комментарии с момента его публикации. Он описывает технологию под названием MM1, которая представляет собой мультимодальную модель для текстовых и графических данных.
Это означает, что он может обучать большие языковые модели (LLM), используя как текст, так и изображения, и его называют «значительным достижением» для ИИ. Модели, использующие эту технологию, превосходно справились с такими задачами, как создание подписей к изображениям, визуальный ответ на вопросы и вывод на естественном языке.
Система также продемонстрировала сильные возможности контекстного обучения. Другими словами, он может быстро учиться, подвергаясь воздействию текста/слов и изображений, а это также означает, что в конечном итоге технология сможет решать действительно сложные, открытые проблемы. Последнее является Святым Граалем для исследований ИИ, поскольку его достижение означает, что машины способны решать проблемы в высокой степени контекстуальным способом.
Это все хорошо, но здесь важно использование изображений. Это не первый раз за последние месяцы, когда Apple использует искусственный интеллект таким образом. В прошлом месяце ее инструмент анимации Keyframer вышел из строя, а в 2023 году мы услышали, что частью того, что компания намеревалась создать, был искусственный интеллект, способный создавать реалистичные иммерсивные сцены для использования в Vision Pro.
Автоматизировано для людей
И последний продукт, конечно же, является той областью, в которой большая часть видения Apple в области генеративного визуального искусственного интеллекта может иметь наибольшее значение, поскольку последствия очень глубоки. Подумайте, как это позволяет одному человеку, носящему Vision Pro, войти в окружающую среду — любую среду — и, исследуя это пространство, создать идеальную цифровую копию этого места, которой также можно поделиться с другими. Дело в том, что этот инструмент — не просто тупое изображение места; вооружившись визуальным интеллектом, полученный в результате общий опыт не просто смотреть как и место, которое вы исследовали, с несколькими настройками параметров для исправления любых ошибок, это фактически будет полностью функционирующее цифровое представление этого пространства.
Это полезно во всех ситуациях, от управления дорожным движением до управления зданиями и объектами, но возможность создавать реалистичные, умные и интеллектуальные представления пространств также распространяется на архитектуру и дизайн. И, конечно, есть очевидные последствия для здоровья.
Ни одна из этих идей, возможно, не сработает так, как я формулирую, хотя я на 100% уверен, что место Vision Pro в создании цифровых двойников для различных отраслей окажется незыблемым.
Всем больно
Но сочетание новых высоковизуальных операционных систем (visionOS) с высоковизуальным искусственным интеллектом, способным к глубокому контекстуальному пониманию и реагированию, — это не то, что просто догоняет знаменитый фильм Тома Круза. Отчет меньшинства.
Это внедрение технологий, которое должно произойти в реальном времени, выходит за рамки представлений футурологов, которые консультировали этот фильм.
Неудивительно, что вся индустрия теперь хочет двигаться в направлении Apple — больно видеть, что компания добирается до этого быстрее всех. Но иногда всем больно.
Пожалуйста, следуйте за мной Мастодонтили присоединяйтесь ко мне в гриль-баре AppleHolic и Apple Обсуждения группы на MeWe.
© IDG Communications, Inc., 2024.