ChatGPT згенерував підроблені дані для підтримки наукової гіпотези

Дослідники використали технологію, яка лежить в основі чат-бота зі штучним інтелектом ChatGPT, щоб створити підроблений набір даних клінічних випробувань. Про це повідомляє Nature.

У статті, опублікованій в JAMA Ophthalmology, зазначено, що автори використовували GPT-4 (останню версію великої мовної моделі, на якій працює ChatGPT) у поєднанні з розширеним аналізом даних (ADA), моделлю, яка включає мову програмування Python і може виконувати статистичний аналіз і створювати візуалізацію даних. Дані, отримані штучним інтелектом, порівнювали результати двох хірургічних процедур і вказували (помилково), що одне лікування краще за інше.

«Наша мета полягала в тому, щоб підкреслити, що за кілька хвилин ви можете створити набір даних, який не підтверджується реальними вихідними даними, і навіть протирічить наявним доказам», – каже співавтор дослідження Джузеппе Джаннаккаре, хірург з Університету Кальярі в Італії.

Здатність ШІ створювати переконливі дані викликає занепокоєння серед дослідників, підтверджує Елізабет Бік, мікробіолог і незалежний дослідник, консультант із доброчесності, Сан-Франциско, США.

«Одна справа, коли генеративний ШІ можна використовувати для створення текстів, які не можна перевірити за допомогою програмного забезпечення для виявлення плагіату, але здатність створювати фальшиві, але реалістичні набори даних – це наступний рівень занепокоєння. Це дасть змогу будь-якому досліднику або групі дослідників створювати фальшиві вимірювання на пацієнтах, яких насправді не існує, фальшиві відповіді на анкети або генерувати великий набір даних про експерименти на тваринах», – зазначила фахівчиня.

Автори описують результати як «начебто автентичну базу даних». Але під час перевірки фахівцями дані не пройшли тест на справжність і містили ознаки того, що вони були сфабриковані.

Автори попросили GPT-4 ADA створити набір даних щодо людей із захворюванням очей під назвою кератоконус, яке спричиняє витончення рогівки та може призвести до порушення фокусування та поганого зору. Для 15-20% людей із захворюванням лікування передбачає трансплантацію рогівки за допомогою однієї з двох процедур.

Перший метод, наскрізна кератопластика, передбачає хірургічне видалення всіх пошкоджених шарів рогівки та заміну їх здоровою тканиною донора. Друга процедура, глибока передня пластинчаста кератопластика, замінює лише передній шар рогівки, залишаючи внутрішній шар недоторканим.

Автори доручили великій мовній моделі сфабрикувати дані, щоб підтвердити висновок, що пластинчаста кератопластика дає кращі результати, ніж наскрізна кератопластика. Для цього вони попросили показати статистичну різницю у тесті візуалізації, який оцінює форму рогівки та виявляє нерівності, а також різницю у тому, наскільки добре бачили учасники дослідження до та після процедур.

Дані, отримані за допомогою ШІ, охоплювали 160 учасників чоловічої статі та 140 жінок і показали, що ті, хто пройшов пластинчасту кератопластику, отримали кращі результати як у зоровому тесті, так і в тесті візуалізації, ніж ті, хто мав наскрізну кератопластику, результат, який суперечить результатам справжніх клінічних випробувань.

У звіті 2010 року про дослідження за участю 77 учасників результати пластинчастої кератопластики були подібними до результатів наскрізної кератопластики протягом 2 років після операції.

«Здається, що досить легко створити набори даних, які принаймні, на перший погляд, правдоподібні. Отже, для непідготовленого ока це виглядає як справжній набір даних», – говорить Джек Вілкінсон, біостатистик з Університету Манчестера, Великобританія.

Вілкінсон, який цікавиться методами виявлення неавтентичних даних, дослідив кілька наборів даних, створених попередніми версіями великої мовної моделі, яким, за його словами, не вистачало переконливих елементів під час ретельного вивчення, оскільки їм було важко вловити реалістичні зв’язки між змінними.

На прохання команди новин Nature Джек Вілкінсон і його колега Зевен Лу оцінили набір підроблених даних за допомогою протоколу скринінгу, призначеного для перевірки автентичності. Це виявило невідповідність статі багатьох «учасників».

Крім того, не було виявлено кореляції між передопераційними та післяопераційними вимірюваннями зору й тестами очей.

Вілкінсон і Лу також перевірили розподіл чисел у деяких стовпцях у наборі даних, щоб перевірити наявність невипадкових закономірностей. Значення тестування очей пройшли цю перевірку, але деякі з вікових значень учасників були згруповані таким чином, що не відповідало справжньому набору даних: була непропорційна кількість учасників, вікові дані яких закінчувалися на 7 або 8.

Автори дослідження визнають, що їхній набір даних має недоліки, які можна виявити при ретельному дослідженні. Але попри це, «якщо ви швидко подивитеся на набір даних, важко розпізнати згенероване походження джерела даних».

Бернд Пулверер, головний редактор EMBO Reports, погоджується, що це викликає занепокоєння.

«Насправді рецензування часто закінчується повним повторним аналізом даних і навряд чи виявить добре продумані порушення цілісності за допомогою ШІ», – говорить він, додаючи, що журналам потрібно буде оновити перевірки якості, щоб ідентифікувати синтетичні дані, створені ШІ.

Вілкінсон керує спільним проєктом із розробки статистичних і нестатистичних інструментів для оцінки потенційно проблемних досліджень.

«Подібно до того, як ШІ може бути частиною проблеми, можуть існувати рішення на основі ШІ. Можливо, ми зможемо автоматизувати деякі з цих перевірок», – каже він.

Але фахівець попереджає, що прогрес у генеративному ШІ незабаром може запропонувати способи обійти ці протоколи.

Раніше ми повідомляли, що дослідники занепокоєні: інструменти для виявлення контенту, створеного ШІ, просто не працюють.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодну публікацію!