Дослідники: інструменти для виявлення контенту, створеного ШІ, просто не працюють

Що відбувається із суспільством, яке втрачає концепцію «правди» в епоху створених штучним інтелектом текстів, зображень, аудіо та відео? Ніхто ще не знає, але нові дослідження показують, що інструменти, створені для ідентифікації створеного ШІ контенту, просто не працюють належним чином. Про це пише Virtualization & Cloud Review.

«Доступні інструменти виявлення не є ані точними, ані надійними», – йдеться у новій дослідницькій статті під назвою «Тестування інструментів виявлення тексту, створеного ШІ».

Хоча стаття стосується лише тексту, деякі з її висновків також можуть стосуватися дипфейків аудіо/зображень/відео.

Вісім науковців, авторів цієї статті, намагалася відповісти на запитання: чи можуть наявні інструменти виявлення надійно відрізнити текст, написаний людиною, від тексту, створеного ChatGPT. Чи впливають методи машинного перекладу та техніки маскування контенту на виявлення тексту, створеного штучним інтелектом?

«Доступні інструменти виявлення здебільшого класифікують результат як написаний людиною, а не як текст, створений ШІ, – зазначено у статті. – Крім того, техніки маскування контенту значно погіршують продуктивність інструментів».

Щоб дійти цих висновків, дослідники вивчили список інструментів:

Check For AI (https://checkforai.com).
Compilatio (https://ai-detector.compilatio.net/).
Content at Scale (https://contentatscale.ai/ai-content-detector/).
Crossplag (https://crossplag.com/ai-content-detector/).
DetectGPT (https://detectgpt.ericmitchell.ai/).
Go Winston (https://gowinston.ai).
GPT Zero (https://gptzero.me/).
GPT-2 Output Detector Demo (https://openai-openai-detector.hf.space/).
OpenAI Text Classifier (https://platform.openai.com/ai-text-classifier).
PlagiarismCheck (https://plagiarismcheck.org/).
Turnitin (https://demo-ai-writing-10.turnitin.com/home/).
Writeful GPT Detector (https://x.writefull.com/gpt-detector).
Writer (https://writer.com/ai-content-detector/).
Zero GPT (https://www.zerogpt.com/).

«Інструменти виявлення тексту, створеного ШІ, справді дають збій, вони не є ані точними, ані надійними (всі вони отримали нижче 80% точності). Загалом було виявлено, що інструменти діагностують написані людиною документи як створені штучним інтелектом (хибні спрацьовування) й часто діагностують тексти, створені ШІ, як написані людиною (хибні негативні результати). Наші результати узгоджуються з раніше опублікованими дослідженнями [ ]. Загалом приблизно 20% текстів, створених штучним інтелектом, ймовірно, будуть неправильно віднесені до контенту, створеного людиною», – йдеться у статті.

Дослідники вважають, що людям важко створювати інструменти для ідентифікації створеного ШІ контенту, оскільки:

Контент, створений ШІ, стає все складнішим.
Контент, створений ШІ, можна налаштувати так, щоб уникнути виявлення.
Немає єдиної функції, яка могла б надійно ідентифікувати створений ШІ контент: більшість інструментів, які використовуються для виявлення створеного ШІ контенту, покладаються на комбінацію функцій. Однак немає єдиної з них, яка могла б надійно ідентифікувати створений ШІ контент.
Інструменти не завжди актуальні: оскільки моделі ШІ стають все складнішими, інструменти, які використовуються для виявлення створеного ШІ контенту, потрібно оновлювати. Однак це може бути проблемою, оскільки вимагає навчання інструментів на новому наборі даних контенту, створеного ШІ.

Враховуючи ці фактори, людям може бути важко створити інструменти для ідентифікації тексту, створеного штучним інтелектом, зі 100% точності та надійності.

З огляду на це деякі можливі рішення для пом’якшення ризиків, пов’язаних із контентом, створеним ШІ, включають:

Водяний знак: вимагати від розробників ШІ включити водяні знаки у свої моделі з самого початку і зробити їх прозорими та доступними для користувачів і регуляторів. Водяні знаки можуть допомогти перевірити джерело й автентичність онлайн-контенту та запобігти несанкціонованому чи зловмисному використанню тексту, створеного ШІ.
Освіта: підвищити обізнаність та грамотність серед користувачів і споживачів щодо існування та наслідків розповсюдження контенту, створеного ШІ. Це вимагатиме від засобів масової інформації, викладачів, дослідників і політиків інформувати та навчати громадськість тому, як працюють моделі ШІ, які їхні сильні сторони й обмеження, як їх можна використовувати для добрих чи злих цілей, як їх виявити або перевірити.
Регулювання: встановити та забезпечити дотримання правил і стандартів для розробки й використання тексту, створеного ШІ, вимагати від урядів, організацій і спільнот визначення й узгодження етичних і правових принципів і вказівок для моделей ШІ, таких як прозорість, підзвітність, справедливість, безпека і так далі. Регулювання може допомогти відстежувати та контролювати якість і вплив онлайн-контенту, а також запобігати або карати за неправильне використання чи зловживання контентом, створеним ШІ.

Автори нової статті: Дебора Вебер-Вульф (Університет прикладних наук HTW Берліна, Німеччина), Алла Анохіна-Наумека (Ризький технічний університет, Латвія), Соня Бєлобаба (Університет Упсали, Швеція), Томаш Фолтинек (Університет Масарика, Чехія), Жан Герреро-Діб (Університет Монтеррея, Мексика), Олуміде Попула (Університет Королеви Марії, Великобританія), Петр Шигут (Університет Масарика, Чехія) і Лорна Воддінгтон (Університет Лідса, Великобританія).

Раніше ProIT повідомляв, що технічні гіганти пропонують урядовцям зарегулювати ШІ. Чому великим гравцям це вигідно?