Xiaomi наращивает ИИ-экосистему: модели MiMo, OmniVoice и miclaw

Xiaomi давно ассоциировалась с доступными смартфонами и устройствами для умного дома. Но за последний год с небольшим компания незаметно превратилась в одного из самых активных игроков на рынке ИИ.

От больших языковых моделей и клонирования голоса до автономного телефонного агента и крупных инвестиций — Xiaomi быстро наращивает темп. Ниже собраны ключевые этапы участия компании в гонке ИИ и LLM.

С чего Xiaomi начала путь в гонке LLM

Наши социальные сети: MAX, Telegram, VK, Dzen, Rutube

История Xiaomi в ИИ по-настоящему началась в апреле 2025 года, когда компания представила MiMo-7B — свою первую открытую большую языковую модель. Название «MiMo» расшифровывается как Xiaomi Model (Mi и Mo). С самого начала Xiaomi сделала упор не на обычный чат, а на рассуждения и программирование.

Несмотря на всего 7 миллиардов параметров, Xiaomi заявила, что MiMo-7B показывает результаты выше ожидаемых. На математических тестах вроде MATH-500 версия с обучением с подкреплением, по данным компании, набрала 95,8%. Также модель, как утверждается, обошла o1-mini от OpenAI и Qwen-32B-Preview от Alibaba на математических соревнованиях AIME 2024 и 2025.

Модель обучалась на специально подобранном наборе из 200 миллиардов токенов для задач рассуждения, а общее число токенов на трёх этапах обучения достигло 25 триллионов. Xiaomi выпустила её под открытой лицензией MIT, а сама модель доступна на Hugging Face.

Команду разработки возглавила Луо Фули, ранее перешедшая в Xiaomi из DeepSeek.

1. MiMo-V2-Flash

Xiaomi MiMo-V2-Flash Benchmark

К декабрю 2025 года Xiaomi анонсировала MiMo-V2-Flash — модель с 309 миллиардами параметров, при этом основная часть весов оставалась «неактивной». Иными словами, одновременно использовалось примерно 15 миллиардов параметров благодаря архитектуре Mixture-of-Experts (MoE).

Модель выделялась сочетанием скорости и производительности. Она вошла в топ-2 среди открытых моделей по результатам тестов на рассуждение, сравнялась с GPT-5 и Claude 4.5 Sonnet в заданиях по разработке ПО (SWE-Bench Verified), а скорость генерации достигала 150 токенов в секунду при заявленной стоимости инференса на уровне всего 2,5% от цены Claude. Xiaomi установила стоимость API на уровне $0.1 за миллион входных токенов и на запуске временно открыла бесплатный доступ.

MiMo-V2-Flash также представила технику Multi-Token Prediction (MTP), которая позволяет модели одновременно генерировать и проверять несколько токенов.

2. MiMo-V2-Pro: флагман с триллионом параметров

Xiaomi MiMo-V2-Pro Benchmark

В марте 2026 года Xiaomi показала свою самую амбициозную модель на тот момент — MiMo-V2-Pro. У неё более одного триллиона параметров всего и 42 миллиарда активных параметров за проход. Поддерживается контекстное окно в один миллион токенов, то есть модель может обрабатывать объём, сопоставимый с несколькими длинными романами, в рамках одного диалога. Xiaomi утверждает, что модель создавалась специально для agentic-задач — сложных многошаговых операций, где нужно планирование и выполнение без постоянного участия человека.

Сначала модель появилась на платформе OpenRouter под анонимным названием «Hunter Alpha». Она быстро поднялась в топ рейтингов, обработав более 1,5 триллиона токенов до того, как Xiaomi официально подтвердила авторство. Такой интерес со стороны разработчиков стал сигналом, что модель действительно конкурентоспособна.

Вместе с MiMo-V2-Pro Xiaomi представила ещё две модели: MiMo-V2-Omni, мультимодальную версию для текста, изображений, аудио и видео, а также MiMo-V2-TTS — модель преобразования текста в речь для агентного стека.

3. MiMo-V2.5 и V2.5-Pro

В конце апреля 2026 года Xiaomi объединила лучшие разработки семейства V2 в одну архитектуру. MiMo-V2.5-Pro — это модель с 1,02 триллиона параметров, которая работает с текстом, изображениями, аудио и видео в едином контуре. Для сложных задач она выдаёт от 60 до 80 токенов в секунду, а более лёгкая MiMo-V2.5 для повседневного использования достигает 100–150 токенов в секунду.

На момент запуска V2.5-Pro также стала самой сильной открытой моделью в мире по agentic-возможностям в бенчмарке Artificial Analysis.

Кроме того, Xiaomi убрала дополнительные платежи за использование полного контекстного окна на 1 миллион токенов и сбросила пользовательские кредиты на старте, сделав решение удобнее для разработчиков.

Совсем недавно, в начале июня 2026 года, Xiaomi запустила MiMo Code — терминального ИИ-агента для программирования на базе MiMo-V2.5. В отличие от большинства кодовых помощников, которые теряют контекст после заполнения окна, MiMo Code использует систему постоянной памяти и сохраняет решения на протяжении длинных проектов.

4. MiMo-VL

В сегменте визуального ИИ Xiaomi выпустила MiMo-VL (Vision-Language) и домашнюю версию MiMo-VL-Miloco-7B. Модель Miloco предназначена для понимания домашней среды.

Она распознаёт привычные жесты — большой палец вверх, OK, знак мира и раскрытую ладонь, а также определяет повседневные действия, например просмотр телевизора, тренировку или чтение. Модель обучалась на сочетании supervised fine-tuning и reinforcement learning, что позволило сохранить «понимание дома» без потери общих возможностей.

5. MiDashengLM-7B

Выпущенная в августе 2025 года MiDashengLM-7B — это аудиомодель Xiaomi. В отличие от большинства голосовых ИИ-систем, которые в первую очередь обучаются на распознавании речи и теряют много нефоновой аудиоинформации, здесь используется подход general audio caption. Модель обучалась на массивном наборе данных объёмом 38 662 часа и понимает не только слова, но и музыку, звуки окружения, эмоции говорящего и акустический контекст.

Она построена на базе Qwen2.5-Omni-7B от Alibaba и используется в электромобилях Xiaomi и устройствах умного дома. Xiaomi выпустила её под лицензией Apache 2.0, что позволяет использовать модель в коммерческих проектах.

6. MiMo-Audio: масштабная работа со звуком

Параллельно с разработками в области зрения и языка Xiaomi опубликовала MiMo-Audio — отдельную аудиоязыковую модель. Позже аудиокодировщик MiMo-Audio был интегрирован в MiMo-V2.5, чтобы обеспечить мультимодальный опыт.

7. OmniVoice: клонирование голоса на любом языке

Один из самых заметных недавних релизов Xiaomi — OmniVoice, модель преобразования текста в речь от команды следующего поколения Kaldi в Xiaomi AI Lab, опубликованная с открытым кодом в мае 2026 года.

OmniVoice поддерживает 646 языков, включая множество малоресурсных языков, для которых доступно очень мало обучающих данных. Это модель zero-shot для клонирования голоса: она может воспроизвести голос по нескольким секундам эталонной записи и генерировать естественную речь на разных языках, сохраняя особенности оригинального тембра.

С технической точки зрения OmniVoice выделяется упрощённой архитектурой на одном transformer, которая напрямую сопоставляет текст с акустическими токенами. Это позволяет обучить модель на 100 000 часов аудио за один день и запускать инференс со скоростью до 40x real-time в PyTorch.

Xiaomi утверждает, что OmniVoice стала первой TTS-моделью для клонирования голоса, охватывающей сотни языков. Для неё также предусмотрены практические инструменты исправления сложных произношений, например для многозначных китайских иероглифов или редких английских собственных имён. Всё это доступно под лицензией Apache-2.0.

8. MiMo-V2.5-TTS и ASR: полный голосовой стек

Одновременно с запуском V2.5 Xiaomi также представила MiMo-V2.5-TTS и систему ASR (Automatic Speech Recognition).

Модель TTS поддерживает клонирование голоса, а ASR отвечает за двуязычное распознавание. Вместе они позволяют разработчикам строить голосовые продукты под ключ, не собирая цепочку из инструментов разных поставщиков.

9. Xiao AI и HyperAI: потребительская часть

Для обычных пользователей Xiaomi развивает два основных ИИ-сценария.

Xiao AI (小爱) — это давно существующий голосовой помощник Xiaomi, доступный на смартфонах, умных колонках и носимых устройствах. С HyperOS 2 он получил обновление до версии «Super Xiao AI»: улучшилась память на контекст, управление устройствами умного дома стало умнее, а ещё появилась возможность генерировать изображения по тексту. Помощник глубоко встроен в трёхкомпонентную систему HyperOS: HyperCore отвечает за производительность, HyperConnect — за синхронизацию устройств, HyperAI — за интеллектуальные функции.

HyperAI, представленный глобально на MWC 2025 и начавший появляться на смартфонах с серии Xiaomi 15, — это набор ИИ-функций, встроенных в HyperOS 2. Он включает перевод в реальном времени, помощь в написании текста, интеллектуальное распознавание речи с пересказом записей и ИИ-редактирование фотографий. Для глобальных устройств Xiaomi также использует Google Gemini в качестве серверной части. Позже HyperAI добрался и до моделей среднего сегмента, включая Redmi Note 14 Pro+ 5G и серию Poco.

10. miclaw: ИИ-агент, который действительно действует

Самая перспективная часть ИИ-пазла Xiaomi — miclaw. Анонсированный в марте 2026 года и пока находящийся в закрытой бете, miclaw — это не чат-бот, а автономный ИИ-агент на базе MiMo.

Он не просто отвечает на вопросы, а понимает задачу и затем выполняет её. Агент умеет открывать приложения, перемещаться по интерфейсам, заполнять формы, работать с системными инструментами и завершать многошаговые операции на смартфоне без постоянного контроля пользователя. Это работает через так называемый «цикл вывода и выполнения»: ИИ определяет действие, выполняет его, проверяет результат и продолжает, пока задача не будет завершена.

У miclaw также есть контекстная память, которая сжимает старые взаимодействия, сохраняя при этом исходный смысл задачи. Кроме того, агент может подключаться к более широкой экосистеме Xiaomi для умного дома и автомобилей.

Что касается приватности, Xiaomi заявляет, что взаимодействия пользователя с miclaw не используются для обучения ИИ-моделей. Личные данные обрабатываются в реальном времени только для выполнения команд, а чувствительная информация остаётся локально на устройстве благодаря тому, что Xiaomi называет edge-cloud privacy computing.

Сейчас закрытая бета поддерживает серию Xiaomi 17. По словам Xiaomi, HyperOS 4 полностью интегрирует miclaw на системном уровне.

miclaw также тестировали в роли помощника для смарт-часов через приложение Xiaomi Health. Пользователь удерживает кнопку, чтобы произнести команду, а ответ обрабатывается на подключённом смартфоне и отображается на часах.

11. Финансирование всей стратегии

В марте 2026 года генеральный директор Xiaomi Лэй Цзюнь объявил, что компания инвестирует в ИИ как минимум $8.7 billion, примерно 654 млрд ₽, в течение следующих трёх лет. Это поверх уже растущих бюджетов на R&D. В результате годовые расходы Xiaomi на исследования и разработки, как ожидается, достигнут около 40 миллиардов юаней, то есть примерно 420 млрд ₽, в 2026 году.

Эффект уже заметен. К началу апреля 2026 года модели Xiaomi обеспечивали около 21% всего трафика на OpenRouter — платформе маршрутизации ИИ-моделей. Лэй Цзюнь также говорил, что в 2026 году компания рассчитывает на «глубокую конвергенцию» — объединение собственного чипа, собственной ОС и собственной ИИ-модели в одном устройстве.

12. Что всё это значит

Ещё 12 месяцев назад у Xiaomi не было публичных ИИ-моделей. Сейчас у компании есть полноценный стек: модели для рассуждений, визуально-языковые модели, аудиомодели, система клонирования голоса, TTS/ASR-пайплайн, ИИ-агент и потребительские AI-функции, которые уже доходят до миллионов устройств.

Темпы, с которыми Xiaomi разрабатывает и выпускает эти модели, действительно впечатляют. А то, что большая часть решений выходит в open source, помогает компании быстро набирать реальную поддержку разработчиков.

Главный вопрос впереди — смогут ли miclaw и HyperOS 4 сделать весь этот ИИ по-настоящему полезным в повседневных сценариях. Если да, Xiaomi перестанет быть просто производителем смартфонов с ИИ «в довесок» и превратится в полноценную ИИ-платформу.

Для пользователей это означает более тесную интеграцию ИИ с устройствами Xiaomi: от перевода и обработки речи до автоматизации действий на смартфоне и в экосистеме умного дома. Для разработчиков открытые модели и API дают больше возможностей тестировать решения без привязки к одному поставщику. На практике полезность этой стратегии будет зависеть от того, насколько стабильно новые функции будут работать в реальных сценариях.

AppSetter | Android | ПК | Новости | Сравнения и обзоры