Distribution Matching Distillation – новий метод надшвидкої генерації зображень ШІ

Команда дослідників із Лабораторії комп’ютерних наук та ШІ Массачусетського технологічного інституту (CSAIL) знайшла спосіб зробити LLM для генерації зображень, таких як DALL-E 3 і Stable Diffusion, набагато швидшими. Про це повідомляє Windows Report.

Вченим вдалося спростити процес в один крок, але без шкоди для якості зображення.

Наразі ШІ використовує так звану дифузійну модель для створення зображення. Це передбачає відтворення зображення шумового стану та поступове надання йому структури, доки воно не стане чітким. Звучить досить просто, але насправді потрібно багато кроків, щоб перейти від нечіткої нісенітниці до чіткого зображення.

У пресрелізі зазначено, що підхід Массачусетського технологічного інституту називається Distribution Matching Distillation (DMD). Ця процедура зводить багатоетапну модель дифузії до одноетапного рішення для створення зображення.

Отримана модель може генерувати зображення, які можна порівняти із традиційними дифузійними моделями, такими як Stable Diffusion 1.5, але на порядки швидше.

«Наша робота – це новий метод, який прискорює поточні моделі дифузії, такі як Stable Diffusion і DALL-E 3, у 30 разів. Цей прогрес не тільки значно скорочує час обчислення, але й зберігає, якщо не перевершує, якість створеного візуального вмісту. Теоретично цей підхід поєднує принципи generative adversarial networks (GAN) із принципами дифузійних моделей, досягаючи генерації візуального контенту за один крок. Це різкий контраст із сотнею кроків ітераційного вдосконалення, необхідних для сучасних моделей дифузії. Потенційно це може бути новий метод генеративного моделювання, який вирізняється швидкістю і якістю», – йдеться у повідомленні.

Ідея нової структури DMD полягає у використанні двох моделей дифузії. Таким чином їм вдається подолати проблеми нестабільності та згортання режиму в моделях GAN.

Результати були приголомшливими. Якщо подивитися наведений вище кліп, то можна побачити, що новий DMD генерує приблизно 20 зображень на секунду порівняно із Stable Diffusion 1.5, якому потрібно 1,4 секунди для створення одного зображення.

Читайте також на ProIT, як згенерувати ШІ-зображення у вигляді конструкторів LEGO.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!