Смерть від LLM: онлайн-спільнота програмістів Stack Overflow втрачає популярність після появи GPT-4

У березні компанія OpenAI випустила найпотужнішу у світі модель ШІ. Кілька тижнів потому генеральний директор Stack Overflow Прашант Чандрасекар помітив тривожну тенденцію, пише Insider.

Онлайн-трафік на вебсайт із запитаннями та відповідями для програмістів почав падати. За даними компанії, у квітні трафік знизився приблизно на 13% порівняно з 2022 роком.

Протягом 15 років Stack Overflow є онлайн-спільнотою, куди програмісти звертаються, щоб поставити запитання й отримати поради від колег. Однак тепер вони можуть просто звернутися за допомогою до OpenAI GPT-4, ChatGPT, Codex або GitHub Copilot. Тож їм потрібно менше відвідувати Stack Overflow.

Ще більш прикро те, що багато з цих нових моделей були частково навчені на основі інформації Stack Overflow, яка є у вільному доступі в Інтернеті та була зібрана у зручний набір даних для навчання ШІ.

«Деякі з них дуже чітко називають Stack Overflow як основне джерело», – сказав Прашант Чандрасекар у нещодавньому інтерв’ю Insider.

Ласкаво просимо в майбутнє Інтернету у світі штучного інтелекту. Інтернет-спільноти, такі як Stack Overflow і Wikipedia, процвітали як майданчики для експертів і спільнот, які збиралися разом і вільно ділилися інформацією. Нові продукти, що виникли у результаті буму генеративного ШІ, ставлять під сумнів майбутнє цих онлайн-форумів.

Чат-боти відповідають на запитання чітко, автоматично й часто приємно, тому людям не потрібно мати справу з іншими людьми, щоб отримати інформацію.

«Смерть від LLM», – нещодавно назвав це Ілон Маск.

Те, як Stack Overflow реагує та намагається вижити, має широкі наслідки для тисяч інших компаній, які заробляють гроші, безкоштовно розміщуючи інформацію в Інтернеті.

Однак і для самого штучного інтелекту важливе існування таких Q&A сайтів. Коли люди мають менше стимулів для спілкування на форумах і відповідати на запитання, ШІ втрачає дані, які сам отримує для навчання. Через це якість штучного інтелекту може погіршитися.

Багато років тому, коли Прашант Чандрасекар був молодим розробником, він писав і кодував ночами, звертаючись по допомогу до спільноти.

«Це причина, чому Stack Overflow у багатьох відношеннях став таким популярним, – пояснив він. – Вам не потрібно витрачати багато годин до ночі, намагаючись з’ясувати певні речі. У вас є феноменальний ресурс спільноти, і це можуть оцінити лише ті люди, які пережили це».

З більш ніж 200 мільйонами щомісячних відвідувань тільки з настільних комп’ютерів компанія процвітала. Стартап залучив понад $130 млн від відомих інвесторів із Кремнієвої долини, таких як Andreessen Horowitz і Union Square Ventures. У 2021 році Prosus, головний спонсор китайського технологічного гіганта Tencent, придбав Stack Overflow за $1,8 млрд.

Приблизно у той час новий тип моделі ШІ набирав популярності. Компанія OpenAI випустила GPT-3 у 2020 році та зробила його доступним для всіх у листопаді наступного року.

Через рік також було запущено ChatGPТ – надзвичайно популярний чат-бот, створений на базовій моделі GPT-3. GPT-4, яка на сьогодні вважається найпотужнішою моделлю ШІ, вийшла у березні. Ці моделі напрочуд корисні для отримання відповідей на питання програмного кодування.

Також вже існують спеціальні служби кодування на основі штучного інтелекту, зокрема Codex OpenAI та GitHub Copilot. Остання версія GitHub Copilot на основі GPT-4 була випущена у березні. Тепер кодери можуть попросити модель пояснити код програмного забезпечення, показати їй помилки й отримати запропоновані виправлення.

Ця нова технологія допомагає інженерам швидше створювати більше програмного забезпечення. Тому не дивно, що програмісти менше покладаються на Stack Overflow.

«Я використовував Stack Overflow щодня, поки не з’явився СhatGPT, – нещодавно написав у Twitter розробник Насім Уддін. – Але сьогодні мені вже не потрібно переходити до Stack Overflow».

Там відреагували на цей виклик і почали стягувати плату з технологічних компаній, які безкоштовно використовували їхні дані для навчання ШІ.

«Ми вступаємо в цю нову еру, – сказав Прашант Чандрасекар. – Ми повідомили людей, які використовують наші дані для цілей LLM, що вони повинні співпрацювати з нами. Ми повинні мати змогу отримувати плату за ці дані. Великі компанії звернулися до нас, і зараз ми активно беремо участь у цих розмовах».

Він відмовився назвати жодну з цих компаній. Однак Нат Фрідман, генеральний директор GitHub до 2021 року, очікує, що технологічні компанії в майбутньому будуть платити за навчальні дані.

«Коли Stack Overflow повністю припинить роботу (через тривалу вроджену хворобу, самозаподіяні рани й остаточний удар штучного інтелекту), звідки лабораторії ШІ отримають свої навчальні дані?» – написав він у Twitter. – Вони можуть просто купити!»

Нат Фрідман навіть підрахував такі потенційні угоди. Якщо припустити, що буде 10 тисяч «якісних» відповідей на тиждень і $250 за відповідь, то виходить $130 млн на рік.

«Це цілком доступно для великих лабораторій ШІ та великих технологічних компаній, які вже витрачають на дані набагато більше, ніж ця сума», – додав він.

Це має величезні наслідки для безлічі інших онлайн-бізнесів, інформацію яких збирають і використовують для навчання моделей ШІ. Видавці, наприклад, хочуть отримувати мільярди доларів за свій онлайн-контент, повідомляє Semafor.

Наприклад, Аксель Спрінгер, власник Insider, є частиною коаліції, яка формується, щоб просувати виплати та законодавчі дії, також повідомляє Semafor.

Якщо GitHub, який належить Microsoft, готовий платити за навчальні дані, то це може стати стандартною галузевою практикою. Тобто Google, OpenAI, Meta, Amazon та інші гіганти індустрії будуть платити постачальникам «людського» контенту. OpenAI вже підписала ліцензійну угоду щодо контенту з Associated Press.

Друга стратегія Stack Overflow полягає у розробці власних моделей ШІ, навчених не лише на загальнодоступних даних, але й на масивах конфіденційної інформації.

Дані компанії здебільшого впорядковані у форматі запитань і відповідей, коли програмісти ставлять запитання онлайн і отримують різні відповіді, за які потім голосують інші учасники спільноти. В Stack Overflow стверджують, що мають 58 мільйонів запитань і відповідей на них. За словами Прашанта Чандрасекара, це добре підходить для навчання моделей ШІ й чат-ботів.

Питання нагадують підказки, які необхідні моделям для встановлення асоціативних зв’язків. Відповіді надають статистичні зв’язки наступного слова та векторні зв’язки, які дають їм змогу з’ясовувати синоніми тощо. Голосування «за» і «проти» підказують моделям надати певним наборам слів вищий статистичний пріоритет або ж зняти пріоритет з іншого тексту.

Перші плоди цієї праці з’явилися 27 липня, коли у компанії анонсували появу OverflowAI, який використовує генеративний штучний інтелект, щоб автоматично відповідати на запитання людей щодо програмування. Нова система, яка знаходиться в ранній тестовій версії, використовує ці 58 мільйонів даних Q&A для створення миттєвої підсумкової відповіді.

Прашант Чандрасекар каже, що нова технологія, швидше за все, буде зручнішою і комфортнішою. У минулому, коли менш досвідчені користувачі ставили основні запитання, які вже були вирішені спільнотою Stack Overflow, деякі експерти могли грубо відповісти, що змушувало людей нервувати при взаємодії на платформі. Тепер же він сподівається, що чимало людей прийдуть до Stack Overflow, щоб ставити запитання без страху.

Виклик полягає у тому, де Stack Overflow буде отримувати відповіді на майбутні запитання щодо кодування. Як же компанія змусить експертів із програмного забезпечення повернутися до своєї онлайн-спільноти?

Прашант Чандрасекар сказав, що Stack Overflow не збирається платити експертам за їхню роботу. Він стверджує, що не розуміє, чому розробники й інші технічні експерти безкоштовно діляться своїми знаннями в Інтернеті. Йдеться про демонстрацію свого досвіду, отримання підтвердження від колег й удосконалення програмного забезпечення для всіх, пояснив генеральний директор компанії.

Stack Overflow планує витратити частину грошей, які вона отримує від технологічних компаній, що платять за їхні навчальні дані, на інвестиції у нові «механізми», щоб стимулювати експертів із програмування продовжувати відповідати на запитання.

«Ми працюємо над механізмом заохочення, щоб переконатися, що ці люди отримають нагороду, навіть якщо генеративна відповідь ШІ надається, скажімо, програмісту-початківцю, який зміг вирішити свою проблему, – пояснив генеральний директор компанії. – Наразі ми обмірковуємо деталі цієї системи заохочень і будемо тестувати її з нашими користувачами протягом наступних кількох місяців».

Час має важливе значення. Поки ви читаєте ці рядки, GPT-4 і його потужні побратими зі штучним інтелектом зайняті відповідями на тисячі запитань щодо програмування – далеко від Stack Overflow.

Раніше ми писали, що генеративний ШІ може приносити світовій економіці від $2,6 до $4,4 трлн на рік.