Reddit

Dziś wyłącznie Google może indeksować treści z serwisu Reddit

Google jest dziś jedyną wyszukiwarką, która może indeksować treści z serwisu Reddit, co sprawia, że jedno z najbardziej wartościowych źródeł treści generowanych przez użytkowników jest dostępne wyłącznie za pośrednictwem dominującej wyszukiwarki internetowej. Inne popularne usługi, takie jak Bing, DuckDuckGo, Mojeek czy Qwant, nie wyświetlają już pełnych wyników — to znaczący cios dla ich użytkowników i samych firm.

Osoby korzystające z alternatywnych wyszukiwarek i próbujące wyszukiwać treści z Reddit za pomocą „site:reddit.com” nie widzą wyników z ostatniego tygodnia. DuckDuckGo zwraca jedynie kilka linków bez żadnych dodatkowych danych, natomiast Mojeek całkowicie stracił możliwość indeksowania Reddit. Starsze wyniki wciąż są dostępne, jednak nowe treści są zarezerwowane wyłącznie dla Google.

Google Cloud

Google używa treści z serwisu Reddit do szkolenia swoich modeli AI

Wszystko jest wynikiem wielomilionowej umowy (opiewa ona na 60 mln dolarów) pomiędzy Google a Reddit, która pozwala gigantowi na indeksowanie i wykorzystywanie treści z Reddit do trenowania swoich modeli AI. Umowa ta budzi kontrowersje w kontekście rosnącej krytyki dotyczącej jakości odpowiedzi Google oraz monopolu firmy na rynku wyszukiwarek internetowych.

„Reddit zabija wszystko poza Google”, powiedział Colin Hayhurst, CEO Mojeek, który bezskutecznie próbował skontaktować się z Reddit w celu rozwiązania problemu. Hayhurst podkreśla, że nigdy wcześniej nie spotkał się z sytuacją, w której nie otrzymałby odpowiedzi.

Gemini Google

Sytuacja ta wpisuje się w szerszy trend wśród stron internetowych aktualizujących swoje ustawienia w celu blokowania botów wykorzystywanych przez firmy AI do scrapowania danych. Robots.txt to plik tekstowy instruujący boty, czy mają dostęp do strony. Witryny internetowe mogą w ten sposób zezwolić na dostęp Googlebotowi, jednocześnie blokując inne boty.

Reddit aktualizuje plik robots.txt

Reddit, który już wcześniej podejmował kroki w celu ograniczenia dostępu do swoich danych, zaktualizował swój plik robots.txt, aby wykluczyć wszystkie boty. Obecnie, plik ten zawiera prostą instrukcję: „User-agent: * Disallow: /”, co oznacza, że żaden bot nie powinien scrapować strony.

Awaria Reddit

Reddit twierdzi, że dąży do ochrony treści tworzonych przez użytkowników przed niewłaściwym wykorzystaniem, szczególnie przez komercyjne podmioty. Serwis wyraził jednocześnie gotowość do współpracy z „uczciwymi”, takimi jak badacze i organizacje non-profit, ale podkreślił, że komercyjne wykorzystanie danych Reddit wymaga zgody lub opłaty.

Google stało się więc jedyną wyszukiwarką oferującą użytkownikom dostęp do treści serwisu Reddit, co w dłuższej perspektywie może obniżać konkurencyjność mniejszych wyszukiwarek.

„To część szerszego trendu, który nas bardzo niepokoi. Internet jest stopniowo niszczony i eroduje. Ta sytuacja na pewno nie pomaga mniejszym graczom — komentuje Hayhurst.

Źródło: 404 Media

Share this article
Shareable URL
Prev Post

KnowBe4, firma zajmująca się bezpieczeństwem IT, zatrudniła północnokoreańskiego hakera jako programistę

Next Post

OpenAI testuje prototyp wyszukiwarki SearchGPT

0 0 votes
Article Rating
Powiadomienia
Powiadom o
0 komentarzy
Inline Feedbacks
View all comments
Read next

Eksperyment S.P.A.M.

McAfee opublikowało wyniki eksperymentu S.P.A.M. (Spammed Persistently All Month – „atakowani spamem…
0
Would love your thoughts, please comment.x