Microsoft Research Asia опублікувала офіційний документ щодо генеративної програми ШІ, яку вона розробляє. Програма називається VASA-1.
Вона може створювати дуже реалістичні відео лише з одного зображення обличчя та вокальної звукової доріжки. Ще більш вражаючим є те, що програмне забезпечення може генерувати відео та міняти обличчя в реальному часі, повідомляє Tech Spot.
Visual Affective Skills Animator (або VASA) – це система машинного навчання, яка аналізує фотографію обличчя, а потім анімує її до голосу, синхронізуючи рухи губ зі звуком.
Як і будь-який генеративний ШІ, він не ідеальний. Аватари все ще мають проблеми з дрібними деталями, такими як пальці або, як у випадку VASA, – зуби. Якщо звернути увагу на зуби аватара, то можна помітити, що вони змінюють розміри та форму.
Також є деякі нюанси, які виглядають не зовсім природньо. Їх важко передати словами. Це скоріше схоже на те, що ваш мозок помічає якісь неспівпадіння і штучну міміку. Однак це помітно лише при уважному розгляді.
Обличчя, використані в демонстраційних роликах, створені ШІ за допомогою StyleGAN2 або DALL-E-3. Проте система працюватиме з будь-яким зображенням – реальним чи згенерованим. VASA навіть може анімувати намальовані обличчя. Наприклад, Мона Ліза, яка співає.
![](https://www.techspot.com/images2/news/bigimage/2024/04/2024-04-19-image-22.jpg)
Існують побоювання, що зловмисники можуть використовувати цю технологію для поширення пропаганди або маніпуляцій.
Корпорація Microsoft визнає можливість зловживань, але не дає адекватної поради щодо боротьби з ними, окрім ретельного аналізу відео. Також, щоб запобігти зловживанням, Microsoft не планує оприлюднювати технологію публічно.
«Ми не плануємо випускати онлайн-демо, API, продукт, додаткові деталі для впровадження або будь-які пов’язані пропозиції, доки не будемо впевнені, що технологія буде використовуватися відповідально та відповідно до належних правил», – повідомили у компанії.
Тим не менш, ця технологія має деякі сфери для практичного застосування. Зокрема, VASA можна використовувати для створення реалістичних відеоаватарів, які локально відображаються в режимі реального часу. Apple вже робить щось подібне зі своїми просторовими персонами, доступними на Vision Pro.
Ознайомитися з технічними подробицями можна в документі, опублікованому у репозиторії arXiv. На вебсайті Microsoft також є більше демонстрацій.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!