ProIT: медіа для профі в IT
3 хв

Дослідження: в YouTube понад 13 мільярдів відео

author avatar ProIT NEWS

Оцінити обсяг конкретної інтернет-платформи досить проблематично, однак це не зупиняє дослідників. Доцент кафедри публічної політики, комунікації та інформації Массачусетського технологічного інституту, співзасновник агрегатора блогів Global Voices, а також інтернет-активіст і блогер Ітан Цукерман та його колеги підрахували, що на YouTube опубліковано понад 13 325 мільярдів відео, пише Tech News Space.

Деякі онлайн-платформи, такі як Reddit, уже багато років дають змогу збирати статистичні дані за допомогою спеціальних API. Це дозволяє дослідникам зрозуміти, наприклад, яка частка користувачів платформи цікавиться мемами чи криптовалютами, а яка – психічним благополуччям і настільними іграми. Однак цього року Reddit припинив можливість таким чином обробляти публікації.

Соціальні мережі Reddit і X дуже популярні, але все ж вони набагато менш популярні, ніж YouTube. За даними Google, Video Hosting YouTube використовують 93% підлітків-користувачів Інтернету. Далі за популярністю у цій віковій групі є TikTok і Snapchat, якими регулярно користується 63% і 60% підлітків відповідно.

Хоча YouTube має добре задокументований API, немає надійного способу отримати випадкову репрезентативну вибірку YouTube. Більшість досліджень розглядають YouTube як колекцію відео (усі відео на вибраній групі каналів користувачів) або відео, знайдені за допомогою рекомендацій. Будь-який із цих методів дасть змогу провести відповідне дослідження, але жоден із них не дозволить осягнути розмір YouTube, тобто спробувати порахувати кількість відео, опублікованих на платформі.

Щоб вирішити це завдання, дослідники звернулися до Джейсона Баумгартнера, який є творцем проєкту скрейпінгу Reddit під назвою PushShift і має великий досвід роботи із недокументованими API для збору даних.

У випадку YouTube це був інструмент під назвою InnerTube, який Джейсон використовував для створення випадкових URL-адрес YouTube і перевірки їх дійсності. URL-адреса YouTube виглядає так: https://www.youtube.com/watch?v=vXPJVwwEmiM, де значення змінюються після «watch?v=».

Перші 10 із 11 символів покликання можуть бути великими або малими літерами англійського алфавіту, цифрами від 0 до 9 і символом «_». Останній символ може мати лише одне із 16 значень.

    Джерело зображення: tubestats.org

Джерело зображення: tubestats.org

У результаті було підраховано, що існує 264 можливі URL-адреси YouTube (приблизно 18,4 трильйона покликань).

Хоча відео на YouTube багато, очевидно, що їх не так багато. Якщо ми припустимо, що на YouTube є 1 мільярд відео, і якщо ми випадково введемо URL-адреси, то зможемо отримати правильну адресу лише за одну спробу з 18,4 мільярда. Дослідники називають цей метод drunk dialing. Після певної оптимізації протягом кількох місяців вони змогли ідентифікувати 10 тисяч справді випадкових відео на платформі.

У цій роботі дослідники також виявили, що YouTube має тенденцію рекомендувати відео, які значно відрізняються від «середніх» відео на платформі. Річ у тім, що платформа рекомендує відео з не менш ніж 10 тисячами переглядів, тоді як «середнє» відео на сайті має лише 39 переглядів.

Повертаючись до drunk dialing, дослідники пропонують порівняння: якщо ви наберете 413 номерів у діапазоні 413-000-0000 – 413-999-9999, то вам доведеться спробувати 10 мільйонів можливих номерів. Якщо один зі 100 дзвінків є успішним, це означає, що 100 тисяч людей мають номер телефону 413 у зазначеному районі.

У випадку з YouTube drunk dialing перевіряв близько 32 тисяч адрес одночасно, а «потрібний» реєструвався приблизно на кожних 50 тисячах набору. У результаті дослідникам вдалося підрахувати, що обсяг YouTube становить 13 235 821 970 відео. Ця та інша статистика оновлюються на вебсайті tubestat.org раз на кілька тижнів.

Коли було визначено кількість відео на платформі, дослідники змогли підрахувати подальшу статистику. Наприклад, аналіз віку відео у випадковій вибірці може допомогти побачити, наскільки швидко розвивається YouTube.

За оцінками дослідників, лише у 2023 році на сайті було опубліковано понад 4 мільярди нових відео. Також було підраховано, що на частку відео з понад 10 тисячами переглядів припадає лише 4% від загального обсягу розміщеного на YouTube контенту, але при цьому вони становлять левову частку від загальної кількості переглядів.

Що ще важливіше, дослідникам вдалося розробити набагато надійніший метод вивчення YouTube, ніж згаданий раніше drunk dialing. Метод випадкової вибірки відео є надійним, оскільки він послідовно проходить весь адресний простір. Дослідники мають намір продовжувати працювати з YouTube й оновлювати різну статистику на платформі.

Більш докладні дані з 85-сторінкової наукової статті нещодавно були опубліковані в Journal for Quantitative Description.

У майбутньому все більше контенту на YouTube буде створено (принаймні частково) за допомогою генеративного штучного інтелекту.

Нещодавно ми повідомляли, що YouTube представив низку нових інструментів на основі ШІ, які полегшать процес створення відео й дадуть змогу охопити ширшу аудиторію на платформі. Серед ШІ-функцій є створені штучним інтелектом фото- та відеофони, пропозиції тем відео і пошук музики, а також дубляж іншими мовами.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодну публікацію!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.