Всередині Phi 2: маленька мовна модель Microsoft

Microsoft Research експериментує з розробкою індивідуальних моделей штучного інтелекту, які мінімізують використання ресурсів, повідомляє InfoWorld.

2023 рік став роком великих мовних моделей. Моделі GPT від OpenAI, Llama від Meta, PaLM від Google і Claude 2 від Anthropic – це великі мовні моделі, або LLM, із багатьма мільярдами параметрів, які навчаються на вмісті з Інтернету та використовуються для створення тексту й коду.

Але це не єдині технології, що розробляються. Microsoft Research досліджує альтернативний спосіб побудови генеративних моделей штучного інтелекту, який забезпечує узгоджені результати з набагато меншою кількістю параметрів – малу мовну модель, або SLM.

Чому маленькі мовні моделі?

Маленьку мовну модель набагато легше зробити переносною. Не завжди є можливість підключення до хмари. Водночас ми можемо не захотіти навчати модель на загальнодоступних даних.

Навчання LLM класу GPT за допомогою суперкомп’ютера займає місяці. Побудувавши мовну модель на меншому наборі приватних або предметно-спеціальних даних (наприклад, внутрішня кодова база банку), ми могли б створити модель, яка була б меншою та більш спеціалізованою (наприклад, генератор коду, який використовує роки внутрішніх знань та стандарти кодування команди розробників банку).

На цей час багато роботи вкладено в SLM, і результати є напрочуд хорошими. Одним із найцікавіших сімейств моделей є серія Phi від Microsoft Research.

Microsoft Research використала підхід, який корпорація називає «підручники – це все, що вам потрібно», щоб навчати Phi SLM. Ідея полягає в тому, щоб навчити модель надавати чіткі та лаконічні відповіді, використовуючи авторитетні джерела. Для останнього випуску Phi 2 навчальні дані Microsoft змішували синтетичний контент та інформацію з Інтернету.

Синтетичні дані використовуються, щоб надати моделі базові знання для підтримки базових міркувань, а також основи загальних знань, тому результати не обмежуються даними підручника та можуть ефективніше реагувати на контекст користувача. Результати говорять самі за себе. Phi 2 пройшов порівняльний тест, де показав себе іноді кращим за моделі, які є більшими та значно складнішими.

Навчання SLM із курованими даними

Microsoft Research зазначає, що якість навчальних даних є ключовою для отримання хороших результатів. Замість навчання моделі на великому масиві вебданих, який за своєю суттю є випадковим, команда, яка створює моделі Phi, курує свої навчальні дані, зосереджуючись на якості контенту. Команда також використала наявні знання з попередньої моделі Phi, щоб запустити Phi 2, прискоривши навчання.

Моделі Phi не отримують підкріпленого навчання за допомогою зворотного зв’язку людини. Керування навчальними даними робить це підкріплююче навчання непотрібним. Це також зменшує ймовірність того, що модель надасть токсичні або упереджені результати.

Синтетичні дані, які використовуються як частина навчального набору Phi, самі були згенеровані штучним інтелектом, тому їх потрібно було ретельно перевірити, щоб переконатися, що вони не містять неточностей. Перша версія Phi була розроблена для роботи як генератор коду та була навчена на існуючих базах коду з дозвільними ліцензіями. Потім їх було відібрано далі, щоб відфільтрувати код, непридатний для цілей навчання.

Phi може не мати всієї потужності Codex OpenAI, але може надати корисні поради та ідеї щодо роботи з кодом, особливо у поєднанні з пошуковим індексом, орієнтованим на код.

Підручники – це все, що вам потрібно

Варто прочитати оригінальну статтю «Підручники – це все, що вам потрібно» та follow-up, оскільки вони докладно розповідають про те, як команда моделі розробляла свої набори синтетичних навчальних даних, використовуючи GPT 3.5 для створення зразків коду та підручників.

Після того як базову модель було створено, команда налаштувала її за допомогою більш детальних даних, створивши різні налаштування для різних завдань.

Попри те, що Phi 2 має значно менше параметрів, ніж, скажімо, GPT 3.5, він все одно потребує спеціального навчального середовища. SLM використовував набір даних обсягом 1,4 трильйона токенів із 2,7 мільярдами параметрів, і навчання тривало 14 днів. Хоча для цього знадобилося 96 графічних процесорів Nvidia A100, навчання зайняло набагато менше часу та ресурсів, ніж навчання LLM, як-от GPT.

Навчання SLM цілком можливо для більшості організацій, особливо якщо ви використовуєте систему оплати за використання в загальнодоступній хмарі.

Для базових функцій чату ви можете використовувати Phi 2 як є або як частину програми на основі RAG (retrieval-augmented generation), що працює із LangChain або подібним підходом. Оскільки Phi є частиною Azure AI Studio (а незабаром Windows AI Studio), його можна використовувати як у хмарі, так і локально.

Використання SLM у ваших програмах

Квантова збірка Phi 2 важить менше ніж 1,9 ГБ, достатньо мала, щоб її можна було поставити як частину вебпрограми (ви знайдете демонстраційну програму Rust/WebAssembly у репозиторії Hugging Face). Початкова відповідь під час завантаження відбувається повільно, але після кешування SLM він досить швидко реагує. Це теж без використання GPU або NPU. Прискорювачі повинні дозволяти SLM добре працювати разом із традиційним кодом.

Важливо зазначити, що такі SLM, як Phi 2, мають свої обмеження, особливо щодо символічної довжини підказок. Не слід очікувати використання складних підказок. Однак якщо ви ретельно очистите вхідні дані та застосовуєте жорсткі обмеження до довжини рядка, ви побачите, що SLM оброблятиме більшість запитів. Наприклад, у програмі Q&A.

Інтригуючою перспективою є легкий локальний SLM, налаштований на користувальницькі дані або використовуваний як частина локальної програми RAG, де SLM забезпечує інтерфейс природної мови для пошуку. Одним із ключових моментів є те, що розмір і вимоги до ресурсів SLM роблять їх економічно привабливими для завдань, виконання яких за допомогою LLM було б занадто дорогим.

Розміщення SLM, як Phi, у звичайних робочих процесах, наприклад для швидкого надання читабельних і зрозумілих підсумків ключових даних, може виявитися досить корисним. Це альтернатива застарілим парадигмам інтерфейсу користувача, особливо при роботі з неструктурованими даними.

Такі SLM, як Phi, можуть стати одним зі способів створення контекстно-орієнтованого адаптивного обчислювального середовища, яке передбачили ще перші дослідники обчислювальної техніки.

Раніше ProIT повідомляв, що Microsoft знайшла потенційний новий матеріал для батареї завдяки ШІ.

Також ми писали, що OpenAI пропонує ЗМІ до $5 мільйонів за використання їхніх новин для навчання ChatGPT.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодну публікацію!