Підвищення продуктивності мобільних телефонів: Прискорення роботи AI-моделей у 4-5 разів

ai

Оскільки технології штучного інтелекту (AI) стрімко розвиваються, зростає потреба у запуску великих моделей AI на периферійних пристроях, таких як мобільні телефони, персональні комп’ютери та навіть Raspberry Pi. Однак ефективне розгортання цих моделей на пристроях з обмеженими ресурсами, особливо на пристроях з обмеженими можливостями процесора, становить значну проблему. Історично, спеціалізовані апаратні прискорювачі, такі як NPU та GPU, були основним розв’язанням цієї проблеми. Але що, якби ми могли досягти порівнянної або навіть більшої продуктивності, використовуючи лише центральний процесор? Увійдіть в T-MAC, інноваційну технологію, розроблену Microsoft Research Asia. T-MAC може значно підвищити швидкість роботи великих моделей ШІ на мобільних пристроях, збільшуючи їхню продуктивність у 4-5 разів, і все це на базі центрального процесора.

AI PC
Джерело зображення: Wccftech

Завдання: Виконання великих моделей AI на мобільних пристроях

Намагаючись реалізувати ШІ на мобільних телефонах або компактних ПК, ми стикаємося з двома основними проблемами: обмеженим простором та енергоспоживанням. Моделі AI потребують значного обсягу пам’яті та енергії для ефективного функціонування. Для пом’якшення цих проблем однією з поширених технік є “квантування” моделі, яке передбачає зменшення розміру моделі шляхом зниження точності бітів її компонентів. Хоча квантування може заощадити місце, воно також може сповільнити роботу моделі через обчислювальні накладні витрати, пов’язані з повторним перетворенням низькорозрядних компонентів у високорозрядні для обробки, що не є ефективним і не є ідеальним для продуктивності.

Рішення: Технологія T-MAC

Технологія T-MAC пропонує альтернативу традиційним, повільнішим методам, використовуючи для обчислень стратегію “таблиці пошуку” (LUT). Цей підхід дозволяє моделям виконувати обчислення без попереднього перетворення бітів до більш високої точності. В результаті T-MAC економить час і енергію, дозволяючи мобільним пристроям і компактному обчислювальному обладнанню виконувати моделі ШІ зі швидкістю, яка може перевершити швидкість спеціалізованого обладнання, такого як NPU.

Механізм роботи T-MAC: Інновації, що підвищують швидкість

В основі інновацій T-MAC лежить обчислювальна парадигма, зосереджена на таблицях пошуку (LUT), що ефективно замінює традиційний підхід множення-акумуляції (MAC). Цей значний зсув дозволяє T-MAC виконувати низькорозрядні обчислення безпосередньо з таблицями пошуку, тим самим усуваючи потребу в неефективних процесах деквантифікації, які характерні для інших систем. Таке скорочення складних операцій множення та додавання має вирішальне значення для досягнення приросту швидкості, пов’язаного з T-MAC.

Apple AI

Наприклад, тестування T-MAC на ПК Surface AI, оснащеному новітнім чипсетом Qualcomm Snapdragon X Elite, показало чудові результати: модель 3B BitNet-b1.58 змогла генерувати до 48 токенів на секунду; 2-бітна модель 7B llama досягла швидкості до 30 токенів на секунду, а 4-бітна модель 7B llama досягла швидкості до 20 токенів на секунду. Ці показники не лише підкреслюють ефективність T-MAC, але й ілюструють його здатність випереджати NPU в різних контекстах. Наприклад, при розгортанні моделі llama-2-7B-4bit NPU виробляв 10,4 токена в секунду, тоді як CPU з використанням T-MAC досягав швидкості 12,6 токена в секунду з двома ядрами та до 22 токенів в секунду з більшою кількістю ядер.

Технічні аспекти: Підвищення продуктивності за допомогою T-MAC

Ефективність T-MAC обумовлена унікальною обробкою обчислень множення низькорозрядних матриць за допомогою біто-орієнтованого механізму. На відміну від традиційних підходів, які вимагають індивідуальних налаштувань для різних типів даних, T-MAC створює оптимальну структуру даних для одного біта і згодом масштабує її для більш високих рівнів біт за допомогою стекування. Ця стратегія спрощує обчислювальні завдання і мінімізує складнощі, пов’язані з обробкою даних змішаної точності.

Крім того, T-MAC використовує високоефективні інструкції пошуку по таблицях (TBL/PSHUF) на центральному процесорі, що значно підвищує продуктивність довільного доступу до пам’яті. Ця технологія оптимізує потік даних і управління пам’яттю, використовуючи швидку пам’ять на кристалі для зберігання таблиць пошуку, реорганізуючи ваги для покращення частоти звернень до кешу та розробляючи оптимальний підхід до розбиття матриці на плитки для максимального повторного використання даних.

Порівняння продуктивності: T-MAC проти традиційних технологій

Аналіз T-MAC у порівнянні з традиційними методами (наприклад, llama.cpp) показує значне покращення швидкості. T-MAC може виконувати перетворення з 4-бітних обчислень в 1-бітні до 11 разів швидше порівняно з llama.cpp, залежно від використовуваного пристрою. Крім того, T-MAC демонструє чудову масштабованість при зменшенні точності бітів, підтримуючи зростаючу швидкість навіть тоді, коли моделі працюють з меншою кількістю бітів, чого важко досягти традиційними методами.

На пристроях низького класу, таких як Raspberry Pi 5, T-MAC здатний обробляти 11 токенів в секунду з моделлю 3B BitNet-b1.58, що підкреслює його універсальність і ефективність на широкому спектрі пристроїв від високопродуктивних ПК до бюджетних моделей.

That Time I Got Reincarnated as a Slime ISEKAI Chronicles Nintendo Switch

Енергоефективність: Зниження енергоспоживання за допомогою T-MAC

Окрім збільшення швидкості, T-MAC також забезпечує значні переваги з погляду енергоефективності. Технологія зменшує кількість ядер, необхідних для досягнення аналогічної швидкості генерації, на 1/4 – 1/6 порівняно з традиційними методами, що призводить до зменшення споживання енергії. Ця ефективність має першорядне значення для мобільних і периферійних пристроїв, де термін служби батареї і використання енергії є життєво важливими факторами, які слід враховувати.

Заключні думки: Майбутнє AI на периферійних пристроях

T-MAC знаменує собою значний прогрес у сфері штучного інтелекту для компактних пристроїв. Завдяки використанню інтелектуальної таблиці пошуку ця технологія дозволяє значно підвищити продуктивність ШІ-моделі, одночасно знижуючи енергоспоживання. Таке розширення можливостей використання AI на мобільних телефонах, невеликих ПК та інших пристроях, які не мають достатньої потужності або енергопостачання для великих GPU або NPU, є багатообіцяльним.

Завдяки рішенню Microsoft Research Asia зробити T-MAC відкритим, розробники та дослідники можуть експериментувати з ним і включати його у свої проєкти зі штучного інтелекту. Оскільки ШІ продовжує стрімко розвиватися, такі інструменти, як T-MAC, сприятимуть більш широкому впровадженню, забезпечуючи швидке та ефективне розгортання AI на різноманітних пристроях. Майбутнє ШІ на мобільних платформах виглядає оптимістично завдяки таким інноваціям, як T-MAC.

Джерело

What’s your Reaction?
Cool
2
Cool
Happy
1
Happy
Shaking
0
Shaking
Interesting
0
Interesting
Sad
1
Sad
Angry
0
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Поділитися з друзями
Оцініть автора
( Поки що оцінок немає )
GizChina.net