ChatGPT навчився розмовляти

OpenAI випустив версію свого популярного чат-бота, який може взаємодіяти з людьми за допомогою усних слів. Як і з Alexa від Amazon, Siri від Apple й іншими цифровими помічниками, користувачі можуть спілкуватися з ChatGPT – і він відповість. Про це повідомляє The New York Times.

Вперше ChatGPT також може реагувати на зображення. Люди можуть, наприклад, завантажити фотографію вмісту свого холодильника, а чат-бот може надати їм список страв, які вони можуть приготувати із наявних у них інгредієнтів.

«Ми прагнемо зробити ChatGPT простішим у використанні – і кориснішим», – сказав Пітер Денг, віцепрезидент OpenAI зі споживчих і корпоративних продуктів.

За останні тижні OpenAI прискорила випуск своїх інструментів ШІ. Цього місяця компанія представила версію свого генератора зображень DALL-E і включила цей інструмент у ChatGPT.

Alexa та Siri давно пропонують способи взаємодії зі смартфонами, ноутбуками та іншими пристроями за допомогою голосу. Але такі чат-боти, як ChatGPT і Google Bard, володіють потужнішими мовними навичками й здатні миттєво писати електронні листи, вірші та курсові роботи, а також висловлюватись майже на будь-яку тему, яка їм підкидається.

OpenAI, по суті, поєднав ці два методи комунікації.

OpenAI вважає розмову більш природним способом взаємодії зі своїм чат-ботом і надає можливість вибирати із п’яти різних варіантів голосів – чоловічих та жіночих, які використовуються з популярними цифровими помічниками.

За інформацією компанії, протягом наступних двох тижнів нова версія чат-бота почне розгортатися для всіх, хто підписався на ChatGPT Plus, – послугу, яка коштує $20 на місяць. Бот може відповідати голосом лише при використанні на пристроях iPhone, iPad та Android.

Синтетичні голоси бота більш природні, ніж багато інших на ринку, хоча вони все ще звучать як роботи. Як і інші цифрові помічники, бот все ще не подолав проблему з омонімами. Коли The New York Times запитала новий ChatGPT, як пишеться «спортзал» (gym), бот відповів: «Джим».

Хоча голосовий інтерфейс ChatGPT нагадує попередніх помічників, основна технологія принципово відрізняється. ChatGPT керується головним чином великою мовною моделлю – LLM, яка навчилася створювати мову, аналізуючи величезну кількість тексту, зібраного з Інтернету.

Старіші цифрові помічники, такі як Alexa та Siri, діяли як командно-контрольні центри, які могли виконувати певну кількість завдань або давати відповіді на кінцевий список запитань, запрограмованих у базах даних. Наприклад, «Alexa, увімкни світло» або «Яка погода в Купертіно?»

Додавання нових команд до старих помічників займає тижні. ChatGPT може відповісти практично на будь-яке поставлене йому запитання за секунди, хоча і не завжди правильно.

Поки OpenAI перетворює ChatGPT на щось більше схоже на Alexa чи Siri, такі компанії, як Amazon та Apple, перетворюють своїх цифрових помічників на щось більше схоже на ChatGPT.

Минулого тижня Amazon представив оновлену систему для Alexa, яка спрямована на більш плавну розмову на «будь-яку тему». За словами представника компанії, Alexa частково керується новим LLM і має інші вдосконалення темпу й інтонації, щоб зробити мову природнішою.

Apple, яка публічно не ділиться своїми планами щодо того, як вона буде конкурувати із ChatGPT, тестує прототип своєї великої мовної моделі для майбутніх продуктів.

При використанні через Інтернет, а також на пристроях iPhone, iPad та Android новий ChatGPT також може реагувати на зображення. За допомогою фотографії чи діаграми можна надати докладний опис зображення та відповісти на запитання щодо його змісту. Це може бути корисним інструментом для людей із вадами зору.

OpenAI вперше продемонстрував інструмент створення зображень навесні, але в компанії заявили, що технологія не буде оприлюднена, доки дослідники краще не зрозуміють, як її можна використовувати безпечно.

Microsoft представила цей вид інструменту візуального пошуку, заснованого на технології OpenAI, у своєму чат-боті Bing влітку.

Сандхіні Агарвал, дослідник OpenAI, який спеціалізується на безпеці та політиці, сказав, що нова версія бота тепер не використовуватиме ідентифікацію облич, але може надати детальні описи фотографій. Наприклад, описуючи зображення, отримане космічним телескопом Хаббл, бот може відповісти абзацами з детальним описом вмісту фотографії.

Бот також може бути корисним інструментом для студентів. Отримавши зображення математичної задачі для середньої школи, яка містить слова, числа та діаграми, бот може миттєво прочитати задачу та вирішити її. Це може бути ефективним способом вчитися або займатися шахрайством.

Читайте також на ProIT: ChatGPT тепер знає більше: OpenAI таємно оновила кінцеву дату тренувальних даних?

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!