DeepSeek, китайський стартап у сфері штучного інтелекту, представив свою нову мовну модель DeepSeek-V3-0324. Її можна безкоштовно завантажити з Hugging Face за ліцензією Массачусетського технологічного інституту і використовувати як в особистих, так і в комерційних цілях.
DeepSeek-V3-0324: Вражаюча, але доступна модель
DeepSeek-V3-0324 розміром 641 гігабайт ефективно працює на споживчому обладнанні, включаючи Mac Studio, оснащену чипом M3 Ultra від Apple. Він може похвалитися 685 мільярдами параметрів, що робить його однією з найбільших моделей ШІ з відкритим вихідним кодом.
Дослідник ШІ Xeophon стверджує, що він добре протистоїть Claude Sonnet 3.5 від Anthropic. На відміну від Sonnet, який вимагає платної підписки, DeepSeek-V3-0324 є повністю безкоштовним, що є значною перевагою з погляду доступності.
Підвищена ефективність завдяки архітектурі MoE
DeepSeek-V3-0324 використовує архітектуру Mixture of Experts (MoE), активуючи тільки найбільш релевантні параметри, а не всі одночасно. З 685 мільярдів параметрів лише 37 мільярдів активні в будь-який момент часу.
Такий дизайн знижує обчислювальне навантаження, зберігаючи при цьому продуктивність. За результатами оцінок, DeepSeek-V3-0324 відповідає продуктивності моделей з більш значною кількістю активних параметрів, що сприяє його швидкості та ефективності.
Інноваційні функції для чудової продуктивності
Модель має дві важливі особливості:
- Багатоголова латентна увага (MLA): Покращення здатності моделі утримувати контекст у великих текстах.
- Багатотокове прогнозування (MTP): Уможливлює одночасне генерування кількох токенів.
Завдяки цим вдосконаленням швидкість роботи моделі збільшилася на вражаючі 80%. Авні Ханнун, дослідник Apple, повідомив, що тестування на Mac Studio показало швидкість 20 токенів на секунду.
Еволюція стилю спілкування
Користувачі помітили помітну зміну в тональності. Попередні моделі DeepSeek демонстрували людський, розмовний тон, тоді як нова версія використовує більш формальний і технічний підхід, що робить її добре придатною для досліджень, кодування та корпоративних додатків.
Вплив DeepSeek на конкуренцію в галузі ШІ
DeepSeek-V3-0324 посилює конкуренцію в секторі ШІ. Надаючи надійну, безкоштовну альтернативу моделям, що вимагають передплати, DeepSeek змінює конкурентний ландшафт.
Що ви думаєте про цю нову модель? Не соромтеся ділитися своїми думками нижче!