DeepSeek представляє модель штучного інтелекту DeepSeek-V3-0324

DeepSeek-V3-0324

DeepSeek, китайський стартап у сфері штучного інтелекту, представив свою нову мовну модель DeepSeek-V3-0324. Її можна безкоштовно завантажити з Hugging Face за ліцензією Массачусетського технологічного інституту і використовувати як в особистих, так і в комерційних цілях.

DeepSeek-V3-0324: Вражаюча, але доступна модель

Transparent deepseek

DeepSeek-V3-0324 розміром 641 гігабайт ефективно працює на споживчому обладнанні, включаючи Mac Studio, оснащену чипом M3 Ultra від Apple. Він може похвалитися 685 мільярдами параметрів, що робить його однією з найбільших моделей ШІ з відкритим вихідним кодом.

Дослідник ШІ Xeophon стверджує, що він добре протистоїть Claude Sonnet 3.5 від Anthropic. На відміну від Sonnet, який вимагає платної підписки, DeepSeek-V3-0324 є повністю безкоштовним, що є значною перевагою з погляду доступності.

Підвищена ефективність завдяки архітектурі MoE

DeepSeek представляє модель штучного інтелекту DeepSeek-V3-0324

DeepSeek-V3-0324 використовує архітектуру Mixture of Experts (MoE), активуючи тільки найбільш релевантні параметри, а не всі одночасно. З 685 мільярдів параметрів лише 37 мільярдів активні в будь-який момент часу.

Такий дизайн знижує обчислювальне навантаження, зберігаючи при цьому продуктивність. За результатами оцінок, DeepSeek-V3-0324 відповідає продуктивності моделей з більш значною кількістю активних параметрів, що сприяє його швидкості та ефективності.

Інноваційні функції для чудової продуктивності

Модель має дві важливі особливості:

  1. Багатоголова латентна увага (MLA): Покращення здатності моделі утримувати контекст у великих текстах.
  2. Багатотокове прогнозування (MTP): Уможливлює одночасне генерування кількох токенів.

Завдяки цим вдосконаленням швидкість роботи моделі збільшилася на вражаючі 80%. Авні Ханнун, дослідник Apple, повідомив, що тестування на Mac Studio показало швидкість 20 токенів на секунду.

Еволюція стилю спілкування

Користувачі помітили помітну зміну в тональності. Попередні моделі DeepSeek демонстрували людський, розмовний тон, тоді як нова версія використовує більш формальний і технічний підхід, що робить її добре придатною для досліджень, кодування та корпоративних додатків.

Вплив DeepSeek на конкуренцію в галузі ШІ

DeepSeek-V3-0324 посилює конкуренцію в секторі ШІ. Надаючи надійну, безкоштовну альтернативу моделям, що вимагають передплати, DeepSeek змінює конкурентний ландшафт.

Що ви думаєте про цю нову модель? Не соромтеся ділитися своїми думками нижче!

Джерело

What’s your Reaction?
Cool
0
Cool
Happy
2
Happy
Shaking
0
Shaking
Interesting
0
Interesting
Sad
0
Sad
Angry
0
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Поділитися з друзями
Оцініть автора
( Поки що оцінок немає )
GizChina.net