Під час дослідження журналісти працювали з фахівцями з Інституту штучного інтелекту Аллена. Вони класифікували веб-сайти, використовуючи дані компанії веб-аналітики Similarweb.
Близько третини ресурсів неможливо встановити.
Дослідники ранжували 10 мільйонів веб-сайтів, що залишилися, на основі того, скільки «токенів» з’явилося на кожному з них у наборі даних. Токени – це невеликі фрагменти тексту, які використовуються для обробки інформації. Зазвичай це слово чи фраза.
У наборі даних переважали веб-сайти різних галузей, включаючи журналістику, розваги, розробку програмного забезпечення, медицину та створення контенту, що допомагає пояснити, чому цим сферам може загрожувати розвиток штучного інтелекту.
Трьома найпопулярнішими сайтами були patchs.google.com, який містить текст з патентів, виданих по всьому світу; wikipedia.org — безкоштовна онлайн-енциклопедія, та scribd.com — цифрова бібліотека, доступна лише за передплатою.
Цікаво, але до топ-200 потрапив і b-ok.org № 190 — онлайн-ринок піратських електронних книг. Також з’ясувалося, що штучний інтелект використовує інші ресурси, що порушують авторські права.
Серед використовуваних ШІ сайтів є українські новинні ЗМІ.