Google jest dziś jedyną wyszukiwarką, która może indeksować treści z serwisu Reddit, co sprawia, że jedno z najbardziej wartościowych źródeł treści generowanych przez użytkowników jest dostępne wyłącznie za pośrednictwem dominującej wyszukiwarki internetowej. Inne popularne usługi, takie jak Bing, DuckDuckGo, Mojeek czy Qwant, nie wyświetlają już pełnych wyników — to znaczący cios dla ich użytkowników i samych firm.
Osoby korzystające z alternatywnych wyszukiwarek i próbujące wyszukiwać treści z Reddit za pomocą „site:reddit.com” nie widzą wyników z ostatniego tygodnia. DuckDuckGo zwraca jedynie kilka linków bez żadnych dodatkowych danych, natomiast Mojeek całkowicie stracił możliwość indeksowania Reddit. Starsze wyniki wciąż są dostępne, jednak nowe treści są zarezerwowane wyłącznie dla Google.
Google używa treści z serwisu Reddit do szkolenia swoich modeli AI
Wszystko jest wynikiem wielomilionowej umowy (opiewa ona na 60 mln dolarów) pomiędzy Google a Reddit, która pozwala gigantowi na indeksowanie i wykorzystywanie treści z Reddit do trenowania swoich modeli AI. Umowa ta budzi kontrowersje w kontekście rosnącej krytyki dotyczącej jakości odpowiedzi Google oraz monopolu firmy na rynku wyszukiwarek internetowych.
„Reddit zabija wszystko poza Google”, powiedział Colin Hayhurst, CEO Mojeek, który bezskutecznie próbował skontaktować się z Reddit w celu rozwiązania problemu. Hayhurst podkreśla, że nigdy wcześniej nie spotkał się z sytuacją, w której nie otrzymałby odpowiedzi.
Sytuacja ta wpisuje się w szerszy trend wśród stron internetowych aktualizujących swoje ustawienia w celu blokowania botów wykorzystywanych przez firmy AI do scrapowania danych. Robots.txt to plik tekstowy instruujący boty, czy mają dostęp do strony. Witryny internetowe mogą w ten sposób zezwolić na dostęp Googlebotowi, jednocześnie blokując inne boty.
Reddit aktualizuje plik robots.txt
Reddit, który już wcześniej podejmował kroki w celu ograniczenia dostępu do swoich danych, zaktualizował swój plik robots.txt, aby wykluczyć wszystkie boty. Obecnie, plik ten zawiera prostą instrukcję: „User-agent: * Disallow: /”, co oznacza, że żaden bot nie powinien scrapować strony.
Reddit twierdzi, że dąży do ochrony treści tworzonych przez użytkowników przed niewłaściwym wykorzystaniem, szczególnie przez komercyjne podmioty. Serwis wyraził jednocześnie gotowość do współpracy z „uczciwymi”, takimi jak badacze i organizacje non-profit, ale podkreślił, że komercyjne wykorzystanie danych Reddit wymaga zgody lub opłaty.
Google stało się więc jedyną wyszukiwarką oferującą użytkownikom dostęp do treści serwisu Reddit, co w dłuższej perspektywie może obniżać konkurencyjność mniejszych wyszukiwarek.
„To część szerszego trendu, który nas bardzo niepokoi. Internet jest stopniowo niszczony i eroduje. Ta sytuacja na pewno nie pomaga mniejszym graczom — komentuje Hayhurst.
Źródło: 404 Media
Miłośnik nowoczesnych technologii, głównie nowych rozwiązań IT. Redaktor w czasopismach Gambler, Enter, PC Kurier, Telecom Forum, Secret Service, Click!, Komputer Świat Gry, Play, GameRanking. Wiele lat spędził w branży tłumaczeniowej – głównie gier i programów użytkowych. W wolnych chwilach lata szybowcem, jeździ na rowerze i pochłania duże ilości książek.