Xiaomi представляє MiMo: нову модель штучного інтелекту з відкритим вихідним кодом

MiMo

Схоже, що на сцені штучного інтелекту з відкритим вихідним кодом стало трохи жвавіше – і, можливо, цікавіше. Компанія Xiaomi офіційно вийшла на арену зі своєю новою моделлю MiMo. Це не просто ще одна велика мовна модель; Xiaomi зосереджується на покращенні здібностей до міркування в цьому випуску. Це, безумовно, викликає у мене інтерес.

Xiaomi MiMo

Ця нова модель була розроблена новоствореною групою всередині Xiaomi під назвою “Xiaomi Big Model Core Team” MiMo – це модель з 7 мільярдами параметрів. Порівняно з деякими гігантами в галузі ШІ, це скромний показник, але Xiaomi стверджує, що MiMo перевершує очікування щодо свого розміру – особливо в математичних міркуваннях і генерації коду. Вони припускають, що він може конкурувати з більшими моделями, згадуючи у своїх порівняннях o1-mini від OpenAI та 32-мільярдний Qwen від Alibaba.

Досягти такої досконалості міркувань з меншою моделлю непросто, і Xiaomi визнає це. Зазвичай вражаючі результати, особливо ті, що пов’язані з навчанням з підкріпленням, досягаються за допомогою набагато більших архітектур. То в чому ж секрет Xiaomi? Вони вважають, що вся справа в розкритті прихованого потенціалу базової моделі 7B. Це передбачає стратегічний вибір як на етапі навчання, так і на етапі після навчання. Відносно невеликий розмір моделі також дає переваги – можливо, для розгортання на пристроях без значних ресурсів графічного процесора або на периферії, що розширює її практичне використання.

Погляд зсередини: Як вони створили MiMo

Цікаво, як їм вдалося впровадити навички міркування? Розгляньмо їхній підхід, який є досить технічним, але, з усім тим, захопливим.

Фокус перед тренуванням: Загострення розуму

В основі лежить сильно оптимізований процес попереднього навчання. Xiaomi наголошує на вдосконаленій обробці даних – покращенні обробки необроблених даних, вдосконаленні інструментів для вилучення релевантної інформації та застосуванні декількох раундів фільтрації. Мета? Вбудувати більше шаблонів міркувань у навчальні дані. Йшлося не просто про безладне завантаження модельних даних, а про їх ретельну курацію, щоб підвищити здатність до міркувань.

Xiaomi представляє MiMo: нову модель штучного інтелекту з відкритим вихідним кодом

Вони зібрали спеціалізований набір даних, що містив близько 200 мільярдів “токенів міркувань” (уявіть собі токени як частини слів або коду). Потім вони використали трифазну стратегію змішування даних, навчаючи модель протягом трьох етапів на вражаючому наборі з 25 трильйонів токенів. Це величезний обсяг навчання! Вони також застосували техніку під назвою Multiple-Token Prediction, яка допомагає поліпшити швидкість реакції і підвищити продуктивність.

Покращення після навчання: Навчання з підкріпленням

Після початкового навчання вони допрацювали MiMo за допомогою навчання з підкріпленням (RL). Для цього модель вирішувала близько 130 000 математичних і кодувальних завдань, ретельно перевірених на точність і складність за допомогою систем, заснованих на правилах, щоб забезпечити якісне навчання.

Xiaomi представляє MiMo: нову модель штучного інтелекту з відкритим вихідним кодом

Навчання з підкріпленням може бути складним у складних задачах, де правильних рішень, а отже, і винагород, небагато. Xiaomi розв’язала цю проблему за допомогою таких розумних методів, як “Винагорода за складність тесту”, де винагорода коригується залежно від складності завдання, і “Легка повторна вибірка даних”, щоб стабілізувати навчання, повертаючись до більш простих завдань.

Прискорення процесу навчання

Навчання таких великих моделей вимагає значних обчислювальних ресурсів і часу. Xiaomi розробила “Механізм безшовного розгортання”, щоб зменшити час простою графічного процесора під час етапів навчання та валідації. Це призвело до прискорення у 2,29 раза під час навчання і майже у 2 рази під час валідації, що значно пришвидшило розробку. Рушій підтримує такі функції, як багатоточкове прогнозування в рамках vLLM і допомагає стабілізувати висновок під час навчання з підкріпленням.

Xiaomi MiMo

Варіанти MiMo

Xiaomi випускає не лише одну версію. Серія MiMo-7B складається з чотирьох варіантів:

  1. MiMo-7B-Base: Базова модель з потужними можливостями навчання.
  2. MiMo-7B-RL-Zero: версія, навчена RL, що базується безпосередньо на базовій моделі.
  3. MiMo-7B-SFT: Допрацьована версія, що використовує контрольовані методи з прикладами даних.
  4. MiMo-7B-RL: Ймовірно, найкращий виконавець; навчений за допомогою навчання з підкріпленням, починаючи з версії SFT. Xiaomi порівнює його з такими моделями, як o1-mini від OpenAI.

Огляд продуктивності: Як все складається?

Xiaomi поділилася результатами тестування версії MiMo-7B-RL (тестувалася при температурі 0,6). Ось короткий підсумок:

  • Математика:
    • MATH-500: 95,8% точності з першої спроби за один запуск (Pass@1).
    • AIME 2024 (складне математичне змагання): 68.2% Pass@1 за 32 спроби.
    • AIME 2025: 55.4% Pass@1 за 32 спроби.
  • Генерація коду:
    • LiveCodeBench v5: 57.8% Pass@1 (середнє за 8 запусків).
    • LiveCodeBench v6: 49.3% Pass@1 (середнє за 8 запусків).
  • Міркування та завдання:
    • GPQA Diamond: 54.4% Pass@1 (середній показник за 8 запусків).
    • SuperGPQA: 40,5% Pass@1 (з одного разу).
    • DROP (Reading Comprehension, бал F1): 78.7.
    • MMLU-Pro (широкі знання, точна відповідність): 58.6.
    • IF-Eval (Дотримання інструкцій): 61.0 (середнє значення за 8 запусків).

Загалом, ці цифри свідчать про те, що MiMo є досить здібним для свого розміру, особливо в математиці. Його завдання на кодування та міркування також виглядають конкурентоспроможними.

Xiaomi представляє MiMo: нову модель штучного інтелекту з відкритим вихідним кодом

Де можна знайти MiMo?

Великим плюсом для розробників і дослідників є те, що Xiaomi зробила всю серію MiMo-7B з відкритим вихідним кодом. Моделі доступні для завантаження та використання на Hugging Face. Для тих, хто зацікавлений у технічному зануренні, Xiaomi опублікувала повний звіт разом з контрольними точками на GitHub. Приємно бачити, що велика технологічна компанія ділиться потужними інструментами зі спільнотою. Залишається тільки чекати, як люди приймуть і будуть використовувати MiMo в реальних додатках!

Джерело

What’s your Reaction?
Cool
2
Cool
Happy
0
Happy
Shaking
0
Shaking
Interesting
0
Interesting
Sad
0
Sad
Angry
0
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Поділитися з друзями
Оцініть автора
( Поки що оцінок немає )
GizChina.net