Після того, як ChatGPT став надбанням громадськості кілька років тому, спостерігається стрімке зростання в галузі штучного інтелекту з боку кількох брендів. Досі робота Apple у цьому напрямку була малопомітною. Однак це не означає, що Apple не досягла жодного прогресу в галузі ШІ. Нещодавно Apple випустила нову модель ШІ з відкритим вихідним кодом під назвою “MGIE”. Ця модель ШІ може редагувати зображення на основі інструкцій природною мовою. Повна назва MGIE – MLLM-кероване редагування зображень. Вона використовує мультимодальну велику мовну модель (MLLM) для інтерпретації інструкцій користувача і виконання операцій на рівні пікселів. MGIE може розуміти команди на природній мові, які видаються користувачами. Він може виконувати такі операції, як модифікації у стилі Photoshop, глобальна оптимізація фотографій та локальне редагування.
Apple та дослідники з Каліфорнійського університету в Санта-Барбарі співпрацюють над публікацією результатів дослідження, пов’язаного з MGIE. Результати будуть опубліковані на Міжнародній конференції з навчальних репрезентацій (ICLR) у 2024 році. Ця конференція є однією з провідних конференцій з досліджень ШІ у світі.
Що таке MLLM?
Щоб правильно зрозуміти MGIE, ми повинні спочатку обговорити MLLM, оскільки MGIE використовує MLLM. MLLM – це потужна модель ШІ, яка може обробляти текст і зображення одночасно, тим самим розширюючи можливості редагування зображень на основі інструкцій. MLLM продемонстрували чудові можливості в кросмодальному розумінні та генеруванні візуальної перцептивної реакції. Однак вони ще не набули широкого застосування в задачах редагування зображень.
MGIE інтегрує MLLM у процес редагування зображень двома способами. По-перше, він використовує MLLM для отримання виразних інструкцій на основі даних, введених користувачем. Ці інструкції є стислими та надають чіткі вказівки для процесу редагування.
Наприклад, при введенні “зробити небо блакитнішим”, MGIE може згенерувати команду “збільшити насиченість області неба на 20%”.
По-друге, він використовує MLLM для створення візуальних образів, тобто латентних зображень бажаних змін. Таке представлення відображає суть редагування і може бути використане для керування операціями на рівні пікселів. MGIE використовує нову наскрізну схему навчання, яка спільно оптимізує виведення інструкцій, візуальну уяву та модулі редагування зображень.
Можливості MGIE
MGIE може впоратися з різноманітними ситуаціями редагування, від простого коригування кольору до складних маніпуляцій з об’єктами. Модель також може виконувати глобальне та локальне редагування відповідно до вподобань користувача. Деякі з можливостей та функцій MGIE включають
- Виразне редагування на основі інструкцій: MGIE може створювати стислі та чіткі інструкції для ефективного керування процесом редагування. Це не тільки покращує якість редагування, але й покращує загальний досвід користувача.
- Редагування у стилі Photoshop: MGIE може виконувати звичайне редагування в стилі Photoshop, таке як обрізання, зміна розміру, обертання, перевертання і додавання фільтрів. Макет також може застосовувати більш складні редагування, такі як зміна фону, додавання або видалення об’єктів і змішування зображень.
- Глобальна оптимізація фотографій: MGIE може оптимізувати загальну якість ваших фотографій, наприклад, яскравість, контрастність, різкість і баланс кольорів. Модель також може застосовувати художні ефекти, такі як замальовка, малювання та карикатура.
- Локальне редагування: MGIE може редагувати певні області або об’єкти на зображенні, такі як обличчя, очі, волосся, одяг та аксесуари. Модель також може змінювати властивості цих областей або об’єктів, такі як форма, розмір, колір, текстура і стиль.
MGIE – це проєкт з відкритим вихідним кодом на GitHub. Користувачі можуть знайти тут код, дані та попередньо навчені моделі. Проєкт також надає демонстраційний блокнот, який показує, як використовувати MGIE для виконання різних завдань редагування.
Наслідки та можливості на майбутнє
Випуск MGIE підкреслює зростальну майстерність Apple у дослідженнях і розробці штучного інтелекту. Цей новий інструмент не тільки має практичне застосування для особистого та професійного редагування зображень, наприклад, у соціальних мережах, електронній комерції, освіті, розвагах та мистецтві, але і є значним кроком вперед у розвитку мультимодального ШІ. Відкритий характер моделі та її доступність на таких платформах, як GitHub і Hugging Face Spaces, вказують на її потенціал для подальших досліджень і розробок за межами її поточного стану.
Завершальні слова
На завершення, нещодавній випуск Apple моделі MGIE (MLLM-Guided Image Editing) знаменує собою важливу віху в галузі штучного інтелекту та редагування зображень. Використовуючи можливості мультимодальних великих мовних моделей (MLLM), MGIE дозволяє користувачам виконувати складні завдання з редагування зображень за допомогою інструкцій природною мовою. Цей інноваційний підхід, розроблений у співпраці з дослідниками з Каліфорнійського університету в Санта-Барбарі, демонструє прихильність Apple до розвитку технології штучного інтелекту та її практичного застосування.
Інтеграція MLLM у процес редагування зображень не лише покращує користувацький досвід, але й відкриває нові можливості для творчого самовираження та продуктивності. Здатність MGIE розуміти та виконувати складні команди редагування, від простих коригувань кольору до складних маніпуляцій з об’єктами, встановлює новий стандарт для інструментів для редагування зображень, керованих ШІ. Крім того, його відкритий характер сприяє співпраці та інноваціям у дослідницькій спільноті, прокладаючи шлях для майбутніх досягнень у галузі мультимодального ШІ та методів обробки зображень.
Оскільки MGIE продовжує розвиватися і набирати популярність серед розробників і користувачів, його значення виходить за межі особистого і професійного редагування зображень. Його доступність на таких платформах, як GitHub і Hugging Face Spaces, підкреслює його потенціал для ширшого застосування в різних сферах, включаючи соціальні мережі, електронну комерцію, освіту, розваги та цифрове мистецтво.
По суті, випуск MGIE підкреслює прагнення Apple розширювати межі технології штучного інтелекту, надаючи користувачам інтуїтивно зрозумілі та потужні інструменти для творчого самовираження та візуального оповідання історій. Оскільки інновації на основі штучного інтелекту продовжують формувати цифровий ландшафт, MGIE є свідченням трансформаційного потенціалу спільних досліджень і міждисциплінарних інновацій у прагненні до технологічної досконалості.