Alibaba запускає модель ШІ, яка може розуміти зображення та вести складніші розмови

Alibaba запустила нову модель штучного інтелекту, яка може розуміти зображення та вести складніші розмови, ніж попередні продукти компанії. Глобальна гонка за лідерство у цій технології розпалюється, повідомляє CNBC.

Китайський технологічний гігант заявив, що дві його нові ШІ-моделі, Qwen-VL і Qwen-VL-Chat, будуть мати відкритий вихідний код. Тобто дослідники, науковці та компанії по всьому світу зможуть використовувати їх для створення власних програм штучного інтелекту без необхідності навчання власних систем, що економить час і кошти.

Qwen-VL може відповідати на відкриті запити, пов’язані з різними зображеннями, і створювати підписи до них.

Qwen-VL-Chat обслуговує більш «складну взаємодію». Наприклад, порівняння кількох введених зображень і відповіді на кілька раундів запитань.

Ще, як стверджують в Alibaba, Qwen-VL-Chat може писати історії й створювати зображення на основі фотографій, які вводить користувач, а також розв’язувати математичні рівняння, зображені на картинці. Наприклад, ШІ може відповісти на запитання про розташування певних відділень лікарні, інтерпретуючи зображення таблички на ній.

Поки що більша частина розробок із генеративним ШІ зосереджена на відповіді на текст. Остання версія ChatGPT від OpenAI також має здатність розуміти зображення та відповідати текстом, подібно до Qwen-VL-Chat.

Дві останні моделі Alibaba побудовані на основі великої мовної моделі компанії Tongyi Qianwen, випущеної на початку цього року. LLM – це модель штучного інтелекту, яка навчена на величезних обсягах даних і лежить в основі чат-ботів.

Раніше ProIT повідомляв, що ChatGPT провів весільну церемонію. Але спочатку чат-бот сказав «ні».

Також ми розповідали, що Meta випустила SeamlessM4T – нейромережу-перекладач із підтримкою 100 мов.