Кажется, шутка о том, что «все, что попадает в интернет, остается там навсегда», больше не так актуальна. Исследование, опубликованное аналитиками Pew Research Center, и процитированное газетой The Independent, развенчало миф о том, что интернет обладает «вечной памятью».
Специалисты выяснили, что целых 38% сайтов, существовавших в 2013 году, больше не найти в сети. И это касается не только старых страниц — уже 8% веб-ресурсов, которые были активны в 2023 году, исчезли в первой половине 2024 года.
Например, 21% правительственных сайтов содержат нерабочие ссылки, которые никуда не ведут. У «Википедии» с ее внушительным объемом информации ситуация тоже не самая радужная — 54% статей содержат ссылки, которые уже не существуют. Даже на новостных порталах не все так стабильно: 23% из них пестрят так называемыми «мертвыми» ссылками.
Не обошли стороной эту проблему и социальные сети. В X (бывший Twitter) каждый пятый пост исчезает спустя несколько месяцев после публикации. Еще более тревожная статистика касается новых частных аккаунтов: 60% из них удаляются в течение первого года существования.
Для анализа использовались данные из Common Crawl — открытого репозитория, который занимается архивированием веб-страниц. Это гигантская база, содержащая миллиарды веб-страниц, доступных для общественного использования. Специалисты проанализировали более миллиона веб-страниц, чтобы понять, какие из них все еще работают, а какие уже отправились в «цифровое небытие».
В итоге исследование показало, что четверть всех страниц, собранных с 2013 по 2023 год, уже не доступны. При этом 16% исчезнувших ссылок принадлежали веб-сайтам, которые продолжают функционировать, а 9% приходились на сайты, которые просто перестали существовать.
Эксперты всерьез обеспокоены этой тенденцией. Еще одно исследование, проведенное в этом году, показало, что почти половина (46,9%) всего трафика в интернете генерируется ботами. Эти программы могут создавать и распространять самую разнообразную и часто недостоверную информацию, что делает интернет все менее надежным источником.
В эпоху цифрового хаоса, когда интернет все больше заполняется ложными данными, искусственные интеллект-системы и нейросети сталкиваются с настоящей проблемой. Для их обучения требуются огромные массивы информации, однако, когда в этот поток попадает недостоверный контент, ИИ могут выдавать ошибки и создавать совершенно вымышленные данные. Примером этого стал случай с поисковым ИИ от Google, который предложил людям добавлять клей в пиццу. Как выяснилось позже, программа неправильно интерпретировала саркастическое сообщение пользователя Reddit и выдвинула его на первые позиции поисковой выдачи, принимая его за реальный совет.
Такое исчезновение достоверных данных из интернета не только вредит пользователям, но и тормозит развитие искусственного интеллекта. В то время как новые сведения становятся все более ненадежными, старую, проверенную информацию становится все сложнее отыскать. Это создает опасный прецедент, когда доверие к интернет-ресурсам и системам ИИ снижается, а доступ к знаниям становится проблематичным как для людей, так и для самих технологий.
Комментарии
Пожалуйста, авторизуйтесь, чтобы оставить комментарий.