Apple показала нову модель штучного інтелекту під назвою MGIE

Після того, як ChatGPT став надбанням громадськості кілька років тому, спостерігається стрімке зростання в галузі штучного інтелекту з боку кількох брендів. Досі робота Apple у цьому напрямку була малопомітною. Однак це не означає, що Apple не досягла жодного прогресу в галузі ШІ. Нещодавно Apple випустила нову модель ШІ з відкритим вихідним кодом під назвою “MGIE”. Ця модель ШІ може редагувати зображення на основі інструкцій природною мовою. Повна назва MGIE – MLLM-кероване редагування зображень. Вона використовує мультимодальну велику мовну модель (MLLM) для інтерпретації інструкцій користувача і виконання операцій на рівні пікселів. MGIE може розуміти команди на природній мові, які видаються користувачами. Він може виконувати такі операції, як модифікації у стилі Photoshop, глобальна оптимізація фотографій та локальне редагування.

AI model for image editing

Apple та дослідники з Каліфорнійського університету в Санта-Барбарі співпрацюють над публікацією результатів дослідження, пов’язаного з MGIE. Результати будуть опубліковані на Міжнародній конференції з навчальних репрезентацій (ICLR) у 2024 році. Ця конференція є однією з провідних конференцій з досліджень ШІ у світі.

Що таке MLLM?

Щоб правильно зрозуміти MGIE, ми повинні спочатку обговорити MLLM, оскільки MGIE використовує MLLM. MLLM – це потужна модель ШІ, яка може обробляти текст і зображення одночасно, тим самим розширюючи можливості редагування зображень на основі інструкцій. MLLM продемонстрували чудові можливості в кросмодальному розумінні та генеруванні візуальної перцептивної реакції. Однак вони ще не набули широкого застосування в задачах редагування зображень.

MGIE інтегрує MLLM у процес редагування зображень двома способами. По-перше, він використовує MLLM для отримання виразних інструкцій на основі даних, введених користувачем. Ці інструкції є стислими та надають чіткі вказівки для процесу редагування.

Наприклад, при введенні “зробити небо блакитнішим”, MGIE може згенерувати команду “збільшити насиченість області неба на 20%”.

По-друге, він використовує MLLM для створення візуальних образів, тобто латентних зображень бажаних змін. Таке представлення відображає суть редагування і може бути використане для керування операціями на рівні пікселів. MGIE використовує нову наскрізну схему навчання, яка спільно оптимізує виведення інструкцій, візуальну уяву та модулі редагування зображень.

AI model for image editing

Можливості MGIE

MGIE може впоратися з різноманітними ситуаціями редагування, від простого коригування кольору до складних маніпуляцій з об’єктами. Модель також може виконувати глобальне та локальне редагування відповідно до вподобань користувача. Деякі з можливостей та функцій MGIE включають

  • Виразне редагування на основі інструкцій: MGIE може створювати стислі та чіткі інструкції для ефективного керування процесом редагування. Це не тільки покращує якість редагування, але й покращує загальний досвід користувача.
  • Редагування у стилі Photoshop: MGIE може виконувати звичайне редагування в стилі Photoshop, таке як обрізання, зміна розміру, обертання, перевертання і додавання фільтрів. Макет також може застосовувати більш складні редагування, такі як зміна фону, додавання або видалення об’єктів і змішування зображень.
  •  Глобальна оптимізація фотографій: MGIE може оптимізувати загальну якість ваших фотографій, наприклад, яскравість, контрастність, різкість і баланс кольорів. Модель також може застосовувати художні ефекти, такі як замальовка, малювання та карикатура. 
  • Локальне редагування: MGIE може редагувати певні області або об’єкти на зображенні, такі як обличчя, очі, волосся, одяг та аксесуари. Модель також може змінювати властивості цих областей або об’єктів, такі як форма, розмір, колір, текстура і стиль.

MGIE – це проєкт з відкритим вихідним кодом на GitHub. Користувачі можуть знайти тут код, дані та попередньо навчені моделі. Проєкт також надає демонстраційний блокнот, який показує, як використовувати MGIE для виконання різних завдань редагування.

AI model for image editing

Наслідки та можливості на майбутнє

Випуск MGIE підкреслює зростальну майстерність Apple у дослідженнях і розробці штучного інтелекту. Цей новий інструмент не тільки має практичне застосування для особистого та професійного редагування зображень, наприклад, у соціальних мережах, електронній комерції, освіті, розвагах та мистецтві, але і є значним кроком вперед у розвитку мультимодального ШІ. Відкритий характер моделі та її доступність на таких платформах, як GitHub і Hugging Face Spaces, вказують на її потенціал для подальших досліджень і розробок за межами її поточного стану.

Завершальні слова

На завершення, нещодавній випуск Apple моделі MGIE (MLLM-Guided Image Editing) знаменує собою важливу віху в галузі штучного інтелекту та редагування зображень. Використовуючи можливості мультимодальних великих мовних моделей (MLLM), MGIE дозволяє користувачам виконувати складні завдання з редагування зображень за допомогою інструкцій природною мовою. Цей інноваційний підхід, розроблений у співпраці з дослідниками з Каліфорнійського університету в Санта-Барбарі, демонструє прихильність Apple до розвитку технології штучного інтелекту та її практичного застосування.

Apple показала нову модель штучного інтелекту під назвою MGIE

Інтеграція MLLM у процес редагування зображень не лише покращує користувацький досвід, але й відкриває нові можливості для творчого самовираження та продуктивності. Здатність MGIE розуміти та виконувати складні команди редагування, від простих коригувань кольору до складних маніпуляцій з об’єктами, встановлює новий стандарт для інструментів для редагування зображень, керованих ШІ. Крім того, його відкритий характер сприяє співпраці та інноваціям у дослідницькій спільноті, прокладаючи шлях для майбутніх досягнень у галузі мультимодального ШІ та методів обробки зображень.

Оскільки MGIE продовжує розвиватися і набирати популярність серед розробників і користувачів, його значення виходить за межі особистого і професійного редагування зображень. Його доступність на таких платформах, як GitHub і Hugging Face Spaces, підкреслює його потенціал для ширшого застосування в різних сферах, включаючи соціальні мережі, електронну комерцію, освіту, розваги та цифрове мистецтво.

По суті, випуск MGIE підкреслює прагнення Apple розширювати межі технології штучного інтелекту, надаючи користувачам інтуїтивно зрозумілі та потужні інструменти для творчого самовираження та візуального оповідання історій. Оскільки інновації на основі штучного інтелекту продовжують формувати цифровий ландшафт, MGIE є свідченням трансформаційного потенціалу спільних досліджень і міждисциплінарних інновацій у прагненні до технологічної досконалості.

What’s your Reaction?
Cool
2
Cool
Happy
0
Happy
Shaking
1
Shaking
Interesting
1
Interesting
Sad
0
Sad
Angry
1
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Джерело
Поділитися з друзями
Оцініть автора
( 2 оцінки, середнє 2.5 з 5 )
GizChina.net

Apple показала новую модель искусственного интеллекта под названием MGIE

После того, как ChatGPT стал достоянием общественности несколько лет назад, наблюдается стремительный рост в области искусственного интеллекта со стороны нескольких брендов. До сих пор работа Apple в этом направлении была малозаметной. Однако это не означает, что Apple не достигла никакого прогресса в области ИИ. Недавно Apple выпустила новую модель ИИ с открытым исходным кодом под названием “MGIE”. Эта модель ИИ может редактировать изображения на основе инструкций на естественном языке. Полное название MGIE – MLLM-управляемое редактирование изображений. Она использует мультимодальную большую языковую модель (MLLM) для интерпретации инструкций пользователя и выполнения операций на уровне пикселей. MGIE может понимать команды на естественном языке, которые выдаются пользователями. Он может выполнять такие операции, как модификации в стиле Photoshop, глобальная оптимизация фотографий и локальное редактирование.

AI model for image editing

Apple и исследователи из Калифорнийского университета в Санта-Барбаре сотрудничают над публикацией результатов исследования, связанного с MGIE. Результаты будут опубликованы на Международной конференции по учебным репрезентациям (ICLR) в 2024 году. Эта конференция является одной из ведущих конференций по исследованиям ИИ в мире.

Что такое MLLM?

Чтобы правильно понять MGIE, мы должны сначала обсудить MLLM, поскольку MGIE использует MLLM. MLLM – это мощная модель ИИ, которая может обрабатывать текст и изображения одновременно, тем самым расширяя возможности редактирования изображений на основе инструкций. MLLM продемонстрировали отличные возможности в кросс-модальном понимании и генерировании визуальной перцептивной реакции. Однако они еще не получили широкого применения в задачах редактирования изображений.

MGIE интегрирует MLLM в процесс редактирования изображений двумя способами. Во-первых, он использует MLLM для получения выразительных инструкций на основе данных, введенных пользователем. Эти инструкции сжаты и предоставляют четкие указания для процесса редактирования.

Например, при вводе “сделать небо более голубым”, MGIE может сгенерировать команду “увеличить насыщенность области неба на 20%”.

Во-вторых, он использует MLLM для создания визуальных образов, то есть латентных изображений желаемых изменений. Такое представление отражает суть редактирования и может быть использовано для управления операциями на уровне пикселей. MGIE использует новую сквозную схему обучения, которая совместно оптимизирует вывод инструкций, визуальное представление и модули редактирования изображений.

AI model for image editing

Возможности MGIE

MGIE может справиться с различными ситуациями редактирования, от простой корректировки цвета до сложных манипуляций с объектами. Модель также может выполнять глобальное и локальное редактирование в соответствии с предпочтениями пользователя. Некоторые из возможностей и функций MGIE включают:

  • Выразительное редактирование на основе инструкций: MGIE может создавать краткие и четкие инструкции для эффективного управления процессом редактирования. Это не только улучшает качество редактирования, но и улучшает общий опыт пользователя.
  • Редактирование в стиле Photoshop: MGIE может выполнять обычное редактирование в стиле Photoshop, такое как обрезка, изменение размера, вращение, переворачивание и добавление фильтров. Макет также может применять более сложные редактирования, такие как изменение фона, добавление или удаление объектов и смешивание изображений.
  • Глобальная оптимизация фотографий: MGIE может оптимизировать общее качество ваших фотографий, например, яркость, контрастность, резкость и баланс цветов. Модель также может применять художественные эффекты, такие как зарисовка, рисование и карикатура.
  • Локальное редактирование: MGIE может редактировать определенные области или объекты на изображении, такие как лицо, глаза, волосы, одежда и аксессуары. Модель также может изменять свойства этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.

MGIE – это проект с открытым исходным кодом на GitHub. Пользователи могут найти здесь код, данные и предварительно обученные модели. Проект также предоставляет демонстрационный блокнот, который показывает, как использовать MGIE для выполнения различных задач редактирования.

AI model for image editing

Последствия и возможности на будущее

Выпуск MGIE подчеркивает растущее мастерство Apple в исследованиях и разработке искусственного интеллекта. Этот новый инструмент не только имеет практическое применение для личного и профессионального редактирования изображений, например, в социальных сетях, электронной коммерции, образовании, развлечениях и искусстве, но и является значительным шагом вперед в развитии мультимодального ИИ. Открытый характер модели и ее доступность на таких платформах, как GitHub и Hugging Face Spaces, указывают на ее потенциал для дальнейших исследований и разработок за пределами ее текущего состояния.

Завершающие слова

В завершение, недавний выпуск Apple модели MGIE (MLLM-Guided Image Editing) знаменует собой важную веху в области искусственного интеллекта и редактирования изображений. Используя возможности мультимодальных больших языковых моделей (MLLM), MGIE позволяет пользователям выполнять сложные задачи по редактированию изображений с помощью инструкций на естественном языке. Этот инновационный подход, разработанный в сотрудничестве с исследователями из Калифорнийского университета в Санта-Барбаре, демонстрирует приверженность Apple к развитию технологии искусственного интеллекта и ее практическому применению.

Apple показала новую модель искусственного интеллекта под названием MGIE

Интеграция MLLM в процесс редактирования изображений не только улучшает пользовательский опыт, но и открывает новые возможности для творческого самовыражения и производительности. Способность MGIE понимать и выполнять сложные команды редактирования, от простых корректировок цвета до сложных манипуляций с объектами, устанавливает новый стандарт для инструментов для редактирования изображений, управляемых ИИ. Кроме того, его открытый характер способствует сотрудничеству и инновациям в исследовательском сообществе, прокладывая путь для будущих достижений в области мультимодального ИИ и методов обработки изображений.

Поскольку MGIE продолжает развиваться и набирать популярность среди разработчиков и пользователей, его значение выходит за пределы личного и профессионального редактирования изображений. Его доступность на таких платформах, как GitHub и Hugging Face Spaces, подчеркивает его потенциал для более широкого применения в различных сферах, включая социальные сети, электронную коммерцию, образование, развлечения и цифровое искусство.

По сути, выпуск MGIE подчеркивает стремление Apple расширять границы технологии искусственного интеллекта, предоставляя пользователям интуитивно понятные и мощные инструменты для творческого самовыражения и визуального повествования историй. Поскольку инновации на основе искусственного интеллекта продолжают формировать цифровой ландшафт, MGIE является свидетельством трансформационного потенциала совместных исследований и междисциплинарных инноваций в стремлении к технологическому совершенству.

What’s your Reaction?
Cool
0
Cool
Happy
1
Happy
Shaking
0
Shaking
Interesting
0
Interesting
Sad
0
Sad
Angry
0
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Джерело
Поділитися з друзями
Оцініть автора
( 2 оцінки, середнє 2.5 з 5 )
GizChina.net