Xiaomi больше всего известна благодаря смартфонам, оборудованию для «умного дома» и периодическим обновлениям электромобилей. Теперь компания хочет найти свое место и в исследованиях робототехники.

Компания анонсировала Xiaomi-Robotics-0, модель с открытым исходным кодом vision-language-action (VLA) с 4,7 миллиардами параметров. Он разработан таким образом, чтобы сочетать визуальное восприятие, понимание языка и выполнение действий в режиме реального времени, которые, по словам Xiaomi, являются основой “физического интеллекта”. И, по словам компании, он уже установил множество самых современных рекордов как в симуляциях, так и в реальных тестах.

Наши социальные сети: Telegram, VK, Dzen, Rutube

На высоком уровне подобные модели робототехники работают по замкнутому циклу: восприятие, принятие решения и исполнение. Робот должен видеть мир, понимать, что от него требуется, составлять план и затем плавно его выполнять. Xiaomi заявляет, что Robotics-0 был создан специально для того, чтобы сбалансировать широкое понимание с управлением мелкой моторикой.

Модель Xiaomi-Robotics-0 построена на двух основных компонентах

Для этого в модели используется так называемая архитектура смешанных трансформаторов (MoT). Он распределяет обязанности между двумя основными компонентами.

Первый — это визуальная языковая модель (VLM), которая действует как “мозг”. Он обучен интерпретировать инструкции человека, в том числе такие расплывчатые, как “Пожалуйста, сложите полотенце”, и понимать пространственные отношения на основе визуального ввода с высоким разрешением. Эта часть отвечает за обнаружение объектов, визуальные ответы на вопросы и логические рассуждения.

Второй компонент Xiaomi называет Action Expert. Он построен на основе многослойного диффузионного трансформатора (DiT). Вместо того, чтобы выполнять одно действие за раз, он генерирует нечто, называемое “блоком действий”, — понимайте это как последовательность движений, — используя методы согласования потоков для обеспечения точности и плавности движений.

Одна из распространенных проблем с моделями VLA заключается в том, что, когда они учатся выполнять физические действия, они, как правило, теряют часть своих первоначальных способностей к пониманию. Xiaomi заявляет, что этого удалось избежать благодаря совместному обучению модели как на мультимодальных данных, так и на данных о действиях. Результатом, по крайней мере в теории, является система, которая все еще может рассуждать о мире, одновременно обучаясь тому, как в нем передвигаться.

Как она обучается?

Процесс обучения происходит поэтапно. Во-первых, механизм “Предложения действий” заставляет VLM предсказывать возможное распределение действий при интерпретации изображений. Это приводит в соответствие внутреннее представление о том, что он видит, с тем, как выполняются действия. После этого VLM замораживается, а DiT обучается отдельно генерировать точные последовательности действий из шума, полагаясь на функции «ключ-значение», а не на отдельные языковые маркеры.

Xiaomi также решила еще одну практическую проблему, называемую задержкой логического вывода. Это когда задержки между предсказаниями модели и физическим движением могут привести к неловким паузам или нестабильному поведению.

Xiaomi заявляет, что внедрила асинхронный вывод, отделяющий вычисления модели от работы робота, поэтому движения остаются непрерывными, даже если модели требуется дополнительное время на обдумывание.

Для повышения стабильности Xiaomi использует технологию “Clean Action Prefix”, которая возвращает ранее предсказанное действие обратно в модель, чтобы обеспечить плавное движение без дрожания с течением времени.

Между тем, Λ-образная маска внимания смещает модель в сторону текущего визуального воздействия, вместо того чтобы слишком сильно полагаться на прошлые состояния. Цель состоит в том, чтобы сделать робота более чувствительным к внезапным изменениям окружающей среды.

Xiaomi-Robotics-0

Сообщается, что в ходе тестовых испытаний Xiaomi-Robotics-0 достигла самых высоких результатов в моделировании LIBERO, CALVIN и SimplerEnv, превзойдя около 30 других моделей.

Что еще более интересно, Xiaomi использовала его на платформе робота с двумя руками в реальных экспериментах. В долгосрочных задачах, таких как складывание полотенец и разборка строительных блоков, робот Xiaomi продемонстрировал устойчивую координацию рук и глаз и управлялся как с жесткими, так и с гибкими объектами без явных поломок.

В отличие от более ранних систем VLA, которые часто жертвовали мультимодальным мышлением после начала обучения действиям, модель Robotics-0 сохраняет сильные визуальные и языковые возможности, особенно в задачах, сочетающих восприятие с физическим взаимодействием.

Задайте вопрос? Оставьте комментарий
Ваш комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Смотрите так же 👀

Что будем искать? Например,как настроить

Минуту внимания
Мы используем файлы cookies, чтобы обеспечивать правильную работу нашего веб-сайта, а также работу функций социальных сетей и анализа сетевого трафика.