
Web-Crawler erklärt: Die 10 größten Bots der Welt
Executive Summary
Die überwiegende Mehrheit der Online-Inhalte der Welt wird von automatisierten Web-Crawlern (auch Bots oder Spider genannt) entdeckt, gesammelt und indexiert. Diese Programme rufen systematisch Webseiten aus dem gesamten Internet ab, um durchsuchbare Indizes und Archive zu erstellen. Die größten Crawler gehören zu großen Suchmaschinen und Datenarchivierungsprojekten. Googles Googlebot ist bei weitem der größte und indexiert weit über hundert Billionen Seiten [1]. Andere führende Suchmaschinen-Crawler sind Microsofts Bingbot, Chinas Baiduspider, Russlands YandexBot und Chinas Sogou Spider, die jeweils von entsprechend großen Suchplattformen unterstützt werden. Die datenschutzorientierte Suchmaschine DuckDuckGo verwendet DuckDuckBot, und Apples Ökosystem umfasst nun Applebot für Siri/Spotlight-Funktionen [2]. Darüber hinaus unterhalten große Open-Data- und Archivierungsinitiativen massive Crawler: Die gemeinnützige Common Crawl sammelt Petabytes an Webinhalten für Forschungszwecke [3], und der Heritrix-Crawler des Internet Archive (die Engine der Wayback Machine) hat in der Größenordnung von Hunderten Milliarden Seiten-Snapshots archiviert. Huaweis PetalBot ist ein aufstrebender Crawler für seine Petal Search Engine.
Dieser Bericht bietet einen umfassenden Überblick über diese Top-Crawler. Er behandelt ihre historische Entwicklung, technische Architekturen und ihren Betriebsumfang, begleitet von Daten, Statistiken und Expertenanalysen. Wir vergleichen den globalen Suchmarktanteil mit der Crawler-Aktivität, untersuchen, wie jeder Crawler arbeitet und was ihn auszeichnet, und präsentieren Fallstudien, die reale Interaktionen zeigen (z. B. wie Websites für Googlebot oder Applebot optimiert werden). Wir analysieren auch aktuelle Trends – wie die Einführung der Push-basierten Indexierung (IndexNow) zur Reduzierung redundanter Crawls [4] [5] – und diskutieren zukünftige Implikationen (Nachhaltigkeit, KI-gesteuerte Suche und Regulierung). Alle wichtigen Behauptungen werden durch glaubwürdige Quellen aus Industrie, Wissenschaft und offizieller Dokumentation gestützt.
Einleitung und Hintergrund
Web-Crawling ist der grundlegende Prozess, durch den Suchmaschinen und andere Dienste Inhalte aus dem Internet entdecken und sammeln. Ein Web-Crawler ist eine Software, die systematisch Webseiten besucht (oder crawlt), indem sie Hyperlinks folgt, den Inhalt jeder Seite abruft und ihn zur Indexierung oder Archivierung verarbeitet [6] [3]. Die Ursprünge des Web-Crawlings reichen bis in die frühen Tage des Webs zurück: Bereits 1993 begannen einfache Programme wie der RBSE spider und der Gopher crawler der University of Minnesota, Webserver automatisch zu durchsuchen. Bis 1994 hatten Projekte wie WebCrawler und Excite anspruchsvollere Bots entwickelt, um das damals kleine Web zu indexieren. In den folgenden Jahrzehnten explodierte der Umfang des Webs, was immer größere und komplexere Crawler-Systeme erforderte. Heute unterhalten die größten Suchmaschinen riesige, geografisch verteilte Crawling-Flotten, um ihre Indizes auf dem neuesten Stand zu halten.
Crawler arbeiten unter technischen und ethischen Einschränkungen. Sie respektieren den robots.txt-Standard, der Website-Betreibern erlaubt, Crawl-Anweisungen zu geben (obwohl einige Bots diese Regeln ignorieren [7]). Crawler müssen die Bandbreitennutzung und Höflichkeit verwalten, um eine Überlastung der Server zu vermeiden. Das Konzept eines „Crawl-Budgets“ spiegelt wider, wie viele Seiten ein Crawler von einer Website abruft, wobei die Aktualität mit den Ressourcenbeschränkungen abgewogen wird [8]. Moderne Crawler rendern Seiten auch mit JavaScript (unter Verwendung von Headless-Browser-Engines), um auf dynamische Inhalte zuzugreifen [9]. Bemerkenswerterweise wechselte Googlebot 2020 zur Mobile-First-Indexierung, was bedeutet, dass er Seiten überwiegend als Smartphone-Nutzer abruft [8].
Das Wachstum der Webinhalte hat den Umfang der Crawler kontinuierlich erweitert. Im Jahr 2016 berichtete Google offiziell, dass seine Systeme ungefähr 130 Billionen Webseiten „kennen“ (obwohl nicht alle vollständig indexiert sind) [1]. Bis 2025 dominieren Google-Suchanfragen etwa 89–90 % des globalen Marktanteils [10], was sowohl die Nutzerakzeptanz als auch die Breite des von Google indexierten Webs widerspiegelt (allgemein in Hunderten Milliarden Seiten angegeben). Microsofts Bing, mit etwa 4 % globalem Suchanteil [10], crawlt immer noch „Milliarden von URLs täglich“ [4]. Chinas Baidu verarbeitet das riesige chinesischsprachige Web (dominiert mit etwa 60–80 % des chinesischen Marktes) [11], während Russlands Yandex einen globalen Anteil von etwa 2–3 % hat [10], aber bei russischen Inhalten führend ist. Jede dieser großen Engines betreibt ihre eigene Crawler-Infrastruktur.
Darüber hinaus tasten offene Initiativen wie Common Crawl das Web kontinuierlich in großem Maßstab ab: Ihre öffentlichen Archive enthalten Petabytes an Rohdaten des Webs, die seit 2008 monatlich gesammelt werden [3]. Die Wayback Machine des Internet Archive (unter Verwendung des Heritrix-Crawlers) hat in der Größenordnung von Hunderten Milliarden archivierten Seiten-Snapshots angesammelt (Schätzungen liegen im Jahr 2025 bei etwa 400–800 Milliarden Erfassungen). Zusammen repräsentieren diese Crawler die „Top 10“ der größten im Umfang, indem sie proprietäre Unternehmensbemühungen und große offene Projekte kombinieren. Abbildung 1 fasst die Schlüsselattribute jedes Crawlers zusammen.
Abbildung 1: Überblick über die 10 größten Internet-Crawler. Jede Zeile repräsentiert einen Crawler, seine besitzende Organisation und seine Hauptfunktion. Die „Bemerkenswerten Funktionen“ heben Besonderheiten des Crawlers hervor (z. B. Marktanteil, technische Innovationen oder Datenvolumen). Zum Beispiel unterstützt Googlebot modernes JS-Rendering und dient als globaler Suchindexierer von Google [9] [1]; Bingbot (Microsoft) crawlt täglich Milliarden von URLs [4] und implementiert das IndexNow-Update-Protokoll [12]. Common Crawl bietet offene Webdaten (Petabytes gesammelt) [3], während Heritrix der Wayback Machine historische Seiten archiviert.
| Crawler | Organisation | Hauptzweck | Bemerkenswerte Funktionen (Quellen) | | Googlebot | Google (Alphabet Inc.) | Web-Such-Indexierung (Desktop & Mobile) | Überwacht Hunderte Milliarden Seiten [1]; Mobile-First-Crawler; führt JavaScript aus (Chromium v74+) [9]. Suchanteil ~89–90 % [10] (global). | | Bingbot | Microsoft (Bing) | Web-Such-Indexierung | Crawlt Milliarden von URLs pro Tag [4]; respektiert robots.txt; verwendet das IndexNow-Protokoll zum Abrufen von Updates [12]. Suchanteil ~4 % [10]. | | Baiduspider| Baidu Inc. (China) | Web-Such-Indexierung (Chinesisch) | Offizieller Spider für Chinas führende Suchmaschine. Baidu hält ~60–80 % des chinesischen Suchmarktes [11]. Verwendet mehrere Varianten (Bild-, Video-Spider) [13]. | | YandexBot | Yandex (Russland) | Web-Such-Indexierung (Kyrillisch/Euro) | Crawlt hauptsächlich russischsprachiges Web. Yandex ist führend im russischen Suchmarkt (63 % in Russland) und hat einen globalen Anteil von ~2,5 % [10]. Betont die Relevanz für russische Inhalte. | | Sogou Spider | Sogou (China) | Web-Such-Indexierung (Chinesisch) | Spider für Sogou.com, eine große chinesische Suchmaschine, die 2004 gestartet wurde [7]. Historisch (~1–2 % Anteil in China). Bemerkenswerterweise respektiert er robots.txt nicht vollständig (und ist auf einigen Websites gesperrt) [14]. | | Applebot | Apple Inc. | Web-Crawling für Siri/Spotlight | Gestartet ~2015, um Inhalte für Apples Suchfunktionen zu indexieren. Respektiert Standards; Daten speisen Apples iOS/macOS Siri und Spotlight-Suche [2]. (Auch Applebot-Extended für KI-Training.) | | DuckDuckBot| DuckDuckGo, Inc. | Web-Such-Indexierung (Datenschutz) | Crawler für das datenschutzorientierte DuckDuckGo. Respektiert robots.txt [15]. DuckDuckGos Marktanteil ~0,8–0,9 % [16]. Verwendet Ergebnisse aus mehreren Quellen (einschließlich dieser direkten Crawls). | | Common Crawl | Common Crawl Nonprofit | Sammlung offener Web-Korpora | Mission: eine getreue, offene Kopie des Webs zu sammeln. Der aktuelle Korpus umfasst Petabytes (monatlich Katrillionen von URLs) [3]. Daten sind frei auf AWS Public Datasets verfügbar. | | Heritrix (Wayback) | Internet Archive | Web-Archivierung | Archiv-Web-Crawler (Wayback Machine), der seit 1996 Hunderte Milliarden Seiten erfasst hat. Eine „Snapshot“-Bibliothek; Stand 2025 enthält sie weit über $10^{11}$ erfasste Seiten [17]. Erfordert erweiterbaren, robusten Code (Open-Source Heritrix [18]). | | PetalBot | Huawei Technologies | Web-Such-Indexierung (Petal Search) | Crawler für Huaweis Petal Search (Android-Standard auf Huawei-Geräten). Gestartet ~2020. Hält sich an robots.txt; identifiziert sich als „PetalBot“ [19]. Aufstrebender Umfang, verbunden mit Huaweis Gerätemarkt (China, Asien). |
Diese Tabelle fasst die wichtigsten Crawler zusammen: Die Top Fünf entsprechen globalen/regionalen Suchführern (Google, Microsoft/Bing, Baidu, Yandex, Sogou), jeder mit einem Crawler, der der Pflege des Index dieser Engine gewidmet ist. Applebot, DuckDuckBot und PetalBot stammen von großen Technologieunternehmen und neuen Suchangeboten. Common Crawl und das Internet Archive repräsentieren groß angelegte öffentliche Crawling-Projekte.
Die großen Suchmaschinen-Crawler
Googlebot (Alphabet/Google)
Googles Web-Crawler, der Googlebot, ist der größte und anspruchsvollste Crawler. Er ist das „digitale Auge“ der Google-Suche, das Webinhalte weltweit dynamisch entdeckt und indexiert [6]. Es gibt zwei Varianten: Desktop Googlebot und Mobile Googlebot, die Googles Mobile-First-Indexierungsansatz widerspiegeln [8]. In der Praxis haben Googles Systeme angegeben, dass sie „ungefähr 130 Billionen Seiten“ im Web „kennen“ [1]. Obwohl nicht alle vollständig indexiert sind, deutet dies darauf hin, dass Googles Crawler in der Größenordnung von $10^{14}$ Seiten angetroffen hat. Bis 2025 verarbeitet Google über 8 Milliarden Suchanfragen pro Tag (grober Durchschnitt) und sein Index umfasst mehrere Hunderte Milliarden Web-Objekte, wodurch er jeden Wettbewerber in den Schatten stellt [1] [10]. Dieser Umfang spiegelt sich in Googles ~90 % Anteil am globalen Suchverkehr wider [10], was die Reichweite von Googlebot unterstreicht.
Technische Details des Googlebot (viele durch Google-Dokumentation und Studien enthüllt) umfassen:
- Rendering und Ausführung: Googlebot verwendet einen Headless-Chrome (neueste Chromium-Engine), um Seiten zu rendern und JavaScript auszuführen [9]. Seit 2019 läuft er mit einer Evergreen-Chrome-74-Engine, die es ihm ermöglicht, Inhalte zu indexieren, die von modernen JavaScript-Frameworks generiert werden [9]. (Daher müssen Websites mit reichhaltigem JS-Inhalt von Googles Rendering-System testbar sein.)
- Crawl-Strategie: Googlebot sammelt Links von bekannten Seiten in einer Breitensuche-Manier. Sobald ein Link entdeckt wird, folgt er ihm, um neue Inhalte abzurufen [20]. Wenn eine Seite geändert wird oder neue Links erscheinen, kann Googlebot sie erneut besuchen. Das Crawl-Budget einer Website – die Häufigkeit und Anzahl der URLs, die Googlebot abruft – wird algorithmisch bestimmt, basierend auf der Website-Popularität und der Änderungsrate [21]. Webmaster können Crawl-Statistiken über die Google Search Console einsehen und dort Anpassungen der Crawl-Rate anfordern.
- Website-Auswirkungen und Kontrolle: Googlebot hält sich an robots.txt- und
<meta>-Direktiven. Wenn eine Seite blockiert oder auf „noindex“ gesetzt ist, wird Googlebot sie nicht in den Index aufnehmen [22]. Google bietet auch Tools (Sitemaps, Indexing API) an, um Web-Admins dabei zu helfen, zu verwalten, wie Googlebot ihre Websites crawlt. Zum Beispiel weist Googles offizieller Support darauf hin, dass das Ignorieren von Googlebot dazu führen kann, dass Websites vollständig aus den Suchergebnissen verschwinden [22]. - Umfang: Googles Crawling-Infrastruktur läuft auf Tausenden von Maschinen weltweit. Sie speichert Milliarden von Seiteninhalten (Hunderte von Snapshot-Kopien) und generiert den massiven Google-Suchindex. Ein Nachrichtenbericht aus dem Jahr 2018 beschrieb Googles Index als in der Größenordnung von 500–600 Milliarden Seiten [23], was darauf hindeutet, dass Googles historischer Crawl so viele einzigartige Dokumente angesammelt hat.
Daten und Nutzung: Mehrere Studien haben die Aktivität von Googlebot indirekt quantifiziert. Stephen Hewitts Analyse von Site-Logs aus dem Jahr 2022 zeigte, dass Googlebot auf einer moderaten Website über 62 Tage hinweg etwa 2.741 Anfragen stellte, was 100 % einer Basislinie für die Crawl-Aktivität dieser Website entspricht [24]. Im Gegensatz dazu stellte Bingbot von Microsoft auf derselben Website in 62 Tagen ~4.188 Anfragen (153 % von Google) und Huaweis Petalbot ~4.959 Anfragen (181 %) [24]. Diese Zahlen bestätigen, dass große Crawler selbst auf relativ kleinen Websites intensiv operieren.
Die Dominanz von Googlebot ist an die Suchführerschaft von Google gebunden: Im März 2025 hält Google einen weltweiten Suchmaschinen-Marktanteil von ~89,6 % [10]. Dieser Marktanteil gibt Googlebot einen unvergleichlichen Anreiz, selbst obskure Inhalte zu indexieren. Webmaster priorisieren aufgrund dieser Verbreitung typischerweise die „Optimierung für Googlebot“ [25].
Bingbot (Microsoft)
Microsofts Such-Crawler, Bingbot, dient der Bing-Suchmaschine (und historisch MSN Search/Yahoo). Obwohl Bings globaler Suchanteil viel kleiner ist (~4 % [10]), navigiert Bingbot immer noch einen massiven Teil des Webs. Laut Microsoft „crawlt Bingbot täglich Milliarden von URLs“ [4], um neue und aktualisierte Inhalte für Bings Index abzurufen. Dieser Umfang wird mit einem global verteilten Crawling-System erreicht, das auf Azure Cloud Services basiert.
Wichtige Aspekte von Bingbot sind:
- Effizientes Crawling: Microsoft hat sich auf die Reduzierung unnötigen Crawlings konzentriert. Ende 2018 führte das Bing-Team das IndexNow-Protokoll (in Partnerschaft mit Yandex) ein, um die Crawl-Effizienz zu verbessern. IndexNow ermöglicht es Webmastern, URLs über eine API in den Suchindex zu pushen, sodass Bingbot häufige erneute Crawls unveränderter Seiten überspringen kann. Wie der Bing Webmaster Blog erklärt, ist es das Ziel von Bingbot, den Traffic zu minimieren und gleichzeitig die Inhalte aktuell zu halten [4] [5]. Paul Shapiro (Bing Webmaster PM) hat Anstrengungen erwähnt, Bingbot durch die Verwendung solcher Signale „effizienter“ zu machen.
- Respekt vor Standards: Bingbot hält sich standardmäßig streng an robots.txt [26], und Bing bietet detaillierte Webmaster-Tools zur Verwaltung des Crawler-Verhaltens. Es unterstützt das XML-Sitemap-Protokoll und RSS/Atom-Feeds, wie man es erwarten würde [27].
- Crawl-Footprint vs. Frequenz: Eine Herausforderung war die Balance zwischen Aktualität und Site-Last. Bingbots Haltung ist es, nur bei Bedarf zu crawlen, aber es gibt auch Beschwerden, sowohl über zu wenig als auch über zu viel Crawling [4]. Microsofts Crawler ist so konzipiert, dass er mehr crawlt, wenn Websites Anzeichen von Änderungen zeigen, und weniger auf statischen Seiten [28].
- Wird zu „bingbot“: Historisch wurde Microsofts Crawler MSNBot genannt; 2010 kündigte Bing an, MSNBot einzustellen und vollständig auf „bingbot“ als User-Agent umzustellen [29]. Heute erscheint der User-Agent-String auf Websites als „bingbot/2.0“ [4]. Bing hat kürzlich die Verwendung von IndexNow erwähnt, was bedeutet, dass Web-Admins Bingbot sofort über neue URLs informieren können [30].
Bings Marktanteilsschwankungen spiegeln seinen Crawl-Fokus wider. Global liegt Bing bei etwa 4 % [10], aber in einigen Märkten (wie dem US-Desktop-Markt) ist er höher (~12 % auf dem PC [31]). Bingbot leidet unter dem gleichen Problem wie Googlebot: Websites mit geringer Bandbreite können ihn als schwer empfinden. Microsoft bietet aus genau diesem Grund eine Crawl-Ratenkontrolle in den Bing Webmaster Tools an. Dennoch macht Bingbots reine Aktivität (Milliarden von Anfragen täglich) ihn zu einem der größten Crawler des Internets. Ein kürzlich veröffentlichter Bing Webmaster Blog betonte, dass Crawling „im großen Maßstab“ eine „schwierige Aufgabe“ ist [4], die kontinuierliche Verbesserungen erfordert.
Baiduspider (Baidu)
Baiduspider ist der Web-Crawler von Baidu, Chinas dominierender Suchmaschine. Baidu kontrolliert schätzungsweise 60–80 % des chinesischen Suchverkehrs [11], und Baiduspider erkundet das chinesische Web in vergleichbarem Umfang wie Googlebot im Westen. Der Crawler operiert mit User-Agents wie „Baiduspider/2.0“, und tatsächlich betreibt Baidu mehrere dedizierte Bots für verschiedene Zwecke (Bildersuche, Video, Nachrichten usw.) [13].
Wichtige Punkte zu Baiduspider:
- Chinesische Sprache und Märkte: Baiduspider ist auf chinesischsprachige Seiten und chinesische Domainnamen (z. B. .cn) spezialisiert. Er muss große Korpora von vereinfachten und traditionellen chinesischen Inhalten verarbeiten. Seine Bedeutung liegt hauptsächlich in China – Google und Bing haben dort aufgrund der Großen Firewall eine minimale Präsenz.
- Index-Größe: Öffentliche Daten zur Indexgröße von Baidu sind spärlich, aber Branchenquellen (wie KeyCDN) betonen seine Dominanz: „Baidu ist die führende chinesische Suchmaschine, die einen 80 %igen Anteil am Suchmaschinenmarkt des chinesischen Festlandes einnimmt“ [11]. Somit deckt Baiduspider im Wesentlichen den Großteil des zugänglichen chinesischen Webs ab.
- Crawl-Etikette: Baiduspider respektiert im Allgemeinen robots.txt, ist aber, wie einige chinesische Bots, dafür bekannt, bestimmte Websites aggressiv zu crawlen. Systemadministratoren in China setzen Baiduspider aufgrund seiner Bedeutung oft explizit auf die Whitelist. Baidu bietet Webmastern Richtlinien zur Optimierung für Baiduspider, einschließlich Sitemap-Schnittstellen in den Baidu Webmaster Tools.
- Regierungszensur: Ein ungewöhnlicher Aspekt ist, dass Baiduspider den Zensurrichtlinien der chinesischen Regierung unterliegt. Inhalte, die in China nicht erlaubt sind (politisch sensible Inhalte usw.), werden von Baiduspider nicht indexiert, da Baidus Suchergebnisse diese Inhalte selbst zensieren. Dieser Filter liegt außerhalb der Kontrolle des Webmasters.
- Umfassendes Crawling: Laut Baidus Hilfedokumentation folgt der Crawler Links und Aktualisierungssignalen ähnlich wie andere, um Baidus Index aktuell zu halten. Seine mehreren Crawler-Varianten ermöglichen Spezialisierungen (zum Beispiel crawlt Baiduspider-image nur Bilder, -video für Video-Metadaten usw.) [13].
In Bezug auf die globale Präsenz ist Baidus Anteil außerhalb Chinas vernachlässigbar. (StatCounter meldet ihn weltweit bei ~0,75 % [32].) Innerhalb Chinas ist seine Größe jedoch mit der von Google vergleichbar: Eine Analyse stellte fest, dass Baidu Milliarden von indexierten Dokumenten hatte, vergleichbar mit Googles Abdeckung chinesischsprachiger Websites. Webmaster weltweit sehen manchmal Baiduspider-Besuche auf jeder Website, wenn diese auf Inhalte verweist, die global als wichtig erachtet werden (z. B. werden englischsprachige Nachrichten manchmal auch von Baidu gecrawlt). Aber seine Hauptoperation konzentriert sich auf das chinesischsprachige Internet.
YandexBot (Yandex)
YandexBot ist der Haupt-Crawler für Yandex, Russlands größte Suchmaschine. Yandex hat einen Marktanteil von etwa 63 % in Russland und etwa 2–3 % weltweit [33]. Er zielt auf russische und regionale Internetinhalte sowie globale Seiten ab. Yandex betreibt einen ausgeklügelten mehrsprachigen Index, legt aber besonderen Wert auf russische, ukrainische und osteuropäische Websites.
Wichtige Merkmale von YandexBot:
- Sprache und Region: Für kyrillische Alphabete und russische Morphologie entwickelt, sollte YandexBot das russische Web effizient verarbeiten. Yandex' Dienste umfassen Websuche, Karten, Nachrichten und spezialisierte Anfragen, sodass der Crawler eine breite Palette von Websites besucht. Er betreibt auch Dienste in der Türkei (lokalisierte Version) und Osteuropa.
- Indexgröße: Genaue Zahlen sind proprietär. Die CambridgeClarion-Crawler-Studie ergab jedoch, dass YandexBot auf einer Beispielseite über zwei Monate hinweg ~1.101 Seitenanfragen stellte, etwa 40 % der Aktivität von Googlebot [34]. Dies deutet darauf hin, dass das Crawl-Volumen von Yandex groß, aber kleiner als das von Google ist. (Zum Vergleich: Bing erreichte in derselben Studie 152 % von Google, während Yandex bei ~40 % lag.)
- Besondere Funktionen: Yandex investiert in KI für die Suchqualität (z. B. Yandex' „MatrixNet“-Ranker), aber für das Crawling ist seine Strategie traditionell: Entdeckung durch Links und erneute Besuche aktiver Websites. Yandex bietet eine Yandex Webmaster-Plattform zur Verwaltung des Crawlings, ähnlich wie Google und Bing für ihre Bots.
- Technische Konformität: YandexBot identifiziert sich klar („YandexBot/3.0“) und respektiert robots.txt-Anweisungen. Wie Google verwendet es eine Chrome-basierte Rendering-Engine zur Verarbeitung dynamischer Inhalte.
- Benutzerperspektive: Yandex' globaler Anteil ist im Vergleich zu Google gering, aber in Russland ist er von entscheidender Bedeutung. Russische Webmaster stellen sicher, dass YandexBot ihre Websites crawlen kann. In SEO-Kreisen erfordert „Yandex glücklich machen“ hauptsächlich russischsprachige Signale und lokales Hosting.
Da Yandex' Fokus enger ist (Russland/GUS), crawlt es nicht so viele westliche Inhalte. Dennoch wird jede Website, die auf russische Sichtbarkeit abzielt, wahrscheinlich häufig von YandexBot besucht. Russische Nachrichtenseiten beispielsweise sehen möglicherweise täglich mehrere Besuche von YandexBot, um in Yandex.News aktuell zu bleiben. Yandex betreibt auch Yandex.XML, eine Such-API, über die Website-Besitzer Yandex' Index abfragen können, was auf die Größe des zugrunde liegenden Crawls hindeutet.
Sogou Spider (Sogou)
Sogou Spider ist der Crawler für Sogou.com, eine der prominenten Suchmaschinen Chinas (ursprünglich von Sohu im Jahr 2004). Sogous Marktanteil schwankte um 2–4 % des chinesischen Suchmarktes (oft an dritter Stelle nach Baidu und Qihoo/Haosou). Die Reichweite des Crawlers umfasst hauptsächlich chinesischsprachige Seiten, und Sogou hatte sogar Partnerschaften zur Indexierung von WeChat-öffentlichen Beiträgen und Sogou-Eingabemethoden-Anfragen.
Ein bemerkenswertes Merkmal: Sogou Spider respektiert robots.txt nicht vollständig. Branchenberichte warnen davor, dass er Crawl-Beschränkungen ignorieren kann und auf einigen Websites gesperrt wurde [7]. Dies kann zu einer hohen Last führen, wenn ein Webmaster ihn einschränken möchte. Andererseits ist er fleißig beim Crawling: Er kann Seiten durch Feed-Erkennung oder Sitemap-Signale finden.
Der KeyCDN-Crawler-Bericht beschreibt Sogou Spider einfach als „den Web-Crawler für Sogou.com, eine führende chinesische Suchmaschine“ [7]. In der Praxis kann sich der User-Agent von Sogou Spider ändern (er imitiert verschiedene Browser). Obwohl Sogou keine Indexgröße öffentlich bekannt gegeben hat, deutet seine Marktpräsenz darauf hin, dass Sogou Spider einen erheblichen Teil der neueren Seiten des chinesischen Webs abdeckt (als Ergänzung zu Baidus Abdeckung). Sogous Fokus umfasste nicht nur Websites, sondern auch Inhalte wie chinesische Gedichte, Musik-Metadaten und Karteninhalte – alles Inhaltstypen, die sein Crawler sammelt.
Im globalen Kontext ist Sogous Anteil außerhalb Chinas winzig. Es ist im Wesentlichen ein auf China fokussierter Crawler, und sein technischer Fußabdruck (Serveranzahl usw.) ist nicht öffentlich bekannt. Analysten halten Sogou Spider für wichtig für chinesisches SEO, aber die meisten internationalen SEO-Tools schenken ihm im Vergleich zu Googlebot, Baiduspider usw. weniger Aufmerksamkeit.
Tabelle 2 unten vergleicht den gesamten Suchmaschinen-Marktanteil mit wichtigen Crawlern:
| Suchmaschine | Globaler Suchmarktanteil (2025) | Führende Web-Crawler | Region/Anmerkungen |
|---|---|---|---|
| ~89,6 % [10] | Googlebot (Desktop/Mobil) [8] | Weltweit (überall dominant) | |
| Microsoft Bing | ~4,0 % [10] | Bingbot [4] [30] | Weltweit (höher im US-Desktop-Markt) |
| Yandex | ~2,5 % [33] | YandexBot | Russland/GUS |
| Yahoo! | ~1,5 % <a href="https://gs.statcounter.com/search-engine-market-share/all-worldwide/worldwide/2024#:~:text=bing%20%20%7C%204.08,DuckDuckGo%20%20%7C%200.87" title="Highlights: bing | 4.08,DuckDuckGo | 0.87" class="citation-link">[35] |
| DuckDuckGo | ~0,9 % <a href="https://gs.statcounter.com/search-engine-market-share/all-worldwide/worldwide/2024#:~:text=bing%20%20%7C%204.08,DuckDuckGo%20%20%7C%200.87" title="Highlights: bing | 4.08,DuckDuckGo | 0.87" class="citation-link">[35] |
| Baidu | ~0,8 % <a href="https://gs.statcounter.com/search-engine-market-share/all-worldwide/worldwide/2024#:~:text=bing%20%20%7C%204.08,Baidu%20%20%7C%200.75" title="Highlights: bing | 4.08,Baidu | 0.75" class="citation-link">[36] (75–80 % in China) |
| Andere (YaCy, Naver, etc.) | ~0,0x % (sehr klein) | N/A | (z. B. Naver (Korea), Sogou (China) |
Tabelle 2: „Wichtige Suchmaschinen und entsprechende Crawler.“ Die Anteile sind globale Durchschnittswerte für alle Geräte. Googles überwältigender Anteil von 89–90 % [10] bedeutet, dass Googlebot bei weitem der aktivste Crawler ist. Microsofts 4 % Anteil [33] führt immer noch zu Milliarden von Seiten, die täglich von Bingbot gecrawlt werden [4]. Baidu und Yandex dominieren in ihren Regionen. Andere Suchmaschinen (Naver in Korea, Seznam in Tschechien, Sogou in China usw.) werden hier aufgrund ihrer geringeren globalen Auswirkungen weggelassen, obwohl jede ihren eigenen Crawler hat (z. B. Sogou Spider [7]).
Andere bedeutende Crawler
DuckDuckBot (DuckDuckGo)
DuckDuckGo, eine datenschutzorientierte Suchmaschine, verwendet ihren eigenen DuckDuckBot-Crawler. DuckDuckGo aggregiert Ergebnisse aus mehreren Quellen (einschließlich Bing und Crowdsourcing-Ergänzungen), unterhält aber auch einen primären Crawl, um Lücken zu füllen und die Aktualität zu gewährleisten. Die offizielle Dokumentation beschreibt DuckDuckBot als DuckDuckGos Web-Crawler, „um unsere Suchergebnisse ständig zu verbessern“ [15]. Da DuckDuckGos Marktanteil (~0,8–0,9 % weltweit [35]) gering ist, ist der Umfang von DuckDuckBot entsprechend begrenzt, aber er crawlt immer noch eine breite Palette von Inhalten.
Wichtige Punkte zu DuckDuckBot:
-
Zweck: Verbesserung der DuckDuckGo-Suchergebnisse durch direkte Indexierung. Er respektiert den robots.txt-Standard [15].
-
Implementierung: DuckDuckGo stellt Informationen zum User-Agent und den IP-Bereichen von DuckDuckBot bereit [37], was auf Transparenz hindeutet. Es verwendet wahrscheinlich eine verteilte Crawling-Architektur, ähnlich der anderer Such-Crawler, obwohl detaillierte interne Informationen rar sind (DuckDuckGo ist eine kleinere Organisation).
-
Fokus und Umfang: DuckDuckBot neigt dazu, alles zu crawlen, wonach seine Nutzer bei DuckDuckGo suchen könnten (offenes Web). Da DuckDuckGo datenschutzorientiert ist, verfolgt oder speichert sein Crawler keine persönlichen Daten. Der Crawler läuft auf sicheren Azure- oder AWS-Instanzen (was für solche Unternehmen üblich ist).
-
Auswirkungen: Kleinere Websites sehen DuckDuckBot gelegentlich in ihren Server-Logs. Angesichts der Nutzerzahlen von DuckDuckGo, die monatlich in die Hunderte von Millionen gehen (einige Schätzungen sprechen von ~2% des US-Suchverkehrs), sammelt DuckDuckBot wahrscheinlich in der Größenordnung von Millionen von Seiten pro Tag. In jedem Fall ist es jedoch im absoluten Volumen viel kleiner als Googlebot oder Bingbot.
Applebot (Apple)
Applebot ist Apples Crawler, der erstmals um 2015 eingeführt wurde [2]. Apple nutzt Applebot, um Webinhalte für sein Ökosystem zu indexieren: Siri, Spotlight und die Vorschläge von Safari verwenden alle von Applebot gesammelte Daten [2]. Anfang 2025 bestätigt die Apple-Dokumentation, dass die von Applebot gecrawlten Daten „zur Unterstützung verschiedener Funktionen verwendet werden, wie z.B. der Suchtechnologie, die in viele Benutzererfahrungen im Apple-Ökosystem integriert ist“ [2].
Wichtige Aspekte:
- Einsatzbereiche: Applebot betreibt keine eigenständige öffentliche Web-Suchmaschine für Endnutzer (im Gegensatz zu Google oder Bing). Stattdessen hilft es Siri/Spotlight, Suchergebnisse und Vorschläge auf Apple-Geräten anzuzeigen. Es konzentriert sich daher auf die Arten von Inhalten, die Apple-Dienste anzeigen (lokalisierte Ergebnisse, App-Vorschauen, Nachrichten usw.).
- Technischer Betrieb: Apple veröffentlicht, wie Applebot in
robots.txtidentifiziert und gesteuert werden kann. Der Crawler identifiziert sich über eine „*.applebot.apple.com“-Domain [38]. Apple stellt eine Liste von IP-Bereichen und ein Reverse-DNS-Verfahren bereit, damit Webmaster die Legitimität des Crawlings überprüfen können. - Training generativer KI: Kürzlich gab Apple bekannt, dass Inhalte, die Applebot sammelt, auch in das Training von Apples generativen KI-Modellen einfließen können [39]. Web-Publisher können Applebot-Extended explizit ausschließen, um die Nutzung für KI-Trainingszwecke zu unterbinden [39]. Dies unterstreicht Apples Absicht, seinen Web-Index für KI-Funktionen auf Geräten und in der Cloud (genannt „Apple Intelligence“) zu nutzen.
- Umfang und Auswirkungen: Apple veröffentlicht nicht, wie viele Seiten Applebot crawlt und besucht. Angesichts des riesigen, aber abgeschotteten Ökosystems von Apple ist die Abdeckung von Applebot wahrscheinlich geringer als die der führenden Such-Crawler. Allerdings hat Apple weltweit Hunderte von Millionen aktiver Geräte, und Siri/Spotlight liefern breite Suchanfragen. Es ist davon auszugehen, dass Applebot kontinuierlich einen großen Teil des öffentlichen Webs crawlt. Applebot soll auch langsamer sein (um Servern gegenüber höflich zu bleiben) im Vergleich zu Googlebot.
- Interaktion mit Webmastern: Apples offizielle Seite fordert dazu auf, Applebot in
robots.txtzu aktivieren, damit Websites in Apples Funktionen erscheinen können [2]. Es befürwortet ausdrücklich, Applebot zuzulassen, wenn Websites für Nutzer von Apple-Geräten sichtbar sein möchten. Umgekehrt verhindert das Ausschließen von Applebot inrobots.txt, dass Inhalte in Apples Suchfunktionen erscheinen (obwohl es nicht verhindert, dass Inhalte in Google oder anderen erscheinen).
Zusammenfassend ist Applebot ein bedeutender Crawler, gemessen am Unternehmensgewicht, aber mit spezialisiertem Zweck. Auch wenn sein roher Crawling-Verkehr viel geringer ist als der von Google, macht ihn sein Einfluss auf eine riesige Nutzerbasis für Webmaster wichtig.
Common Crawl (Non-Profit)
Common Crawl ist eine gemeinnützige Organisation, die ein frei verfügbares Archiv von Web-Crawl-Daten erstellt und bereitstellt. Es ist keine Suchmaschine, aber seine Crawling-Aktivität kann es in ihrem Umfang mit der großer Unternehmen aufnehmen. Common Crawl veröffentlicht etwa einmal im Monat einen neuen Schnappschuss des Webs, der insgesamt Petabytes an Rohdaten (HTML, Metadaten und Textauszüge) von Milliarden von Seiten umfasst [3]. Als solches ist es einer der größten offenen Crawler der Welt.
Highlights von Common Crawl:
- Mission und Nutzung: Common Crawl wurde 2007 gegründet und hat das Ziel, den Zugang zu Webdaten für Forschung und Entwicklung zu demokratisieren. Sein Korpus wird zum Training großer Sprachmodelle, für akademische Studien, digitalen Journalismus und mehr verwendet. Die Daten werden als AWS Public Dataset gehostet (kostenlos für Nutzer), was eine groß angelegte Analyse ermöglicht. Der Dienst bietet auch eine URL-Index-API.
- Datenvolumen: Die „Overview“-Seite von commoncrawl.org weist darauf hin, dass der Korpus seit 2008 Petabytes an Daten enthält [3]. Zum Beispiel wurde in einem Blog von 2018 bekannt gegeben, dass der Crawl vom Juli 2018 3,25 Milliarden Seiten enthielt. In den letzten Jahren gab es vergleichbare oder größere monatliche Crawls. Über 15 Jahre hinweg belief sich die kumulierte Seitenzahl auf zig Milliarden (allerdings mit Duplikaten aufgrund monatlicher Wiederbesuche).
- Crawling-Frequenz: Monatliche Crawls sampeln das Web; Common Crawl crawlt nicht kontinuierlich wie Suchmaschinen. Stattdessen ist jeder Schnappschuss eine repräsentative Stichprobe. Sie verwenden einen großen verteilten Crawler (ihr eigenes Hadoop-basiertes System), der mit Millionen von URLs bestückt ist. Sie versuchen aggressiv, verschiedene TLDs und Inhaltstypen abzudecken, im Gegensatz zu kommerziellen Crawlern, die sich auf populäre Websites konzentrieren.
- Inhaltsumfang: Common Crawl versucht, das gesamte öffentliche Web umfassend abzudecken (mit Ausnahme der größten "Walled Gardens"). Es unterstützt mehrere Sprachen und wird oft zitiert, dass es nach der Deduplizierung über 100 Milliarden einzigartige Seiten enthält. Die Common Crawl Statistik-Dashboards bieten detaillierte Aufschlüsselungen nach Domain und Sprache.
- Community und Forschung: Im Gegensatz zu Unternehmens-Crawlern sind die Ergebnisse von Common Crawl vollständig öffentlich. Forscher veröffentlichen Analysen des Korpus (z.B. den Web-Graphen von Hyperlinks, Sprachverteilung, MIME-Typen usw.). Diese zeigen, wie sich das Web monatlich entwickelt.
Da Common Crawl gemeinnützig und offen ist, wird es oft in der maschinellen Lernforschung und Webwissenschaft zitiert. Die Auswirkungen seines Crawlers sind indirekt (er betreibt keine Suchmaschine), aber er ist wohl einer der „größten“ in Bezug auf die verarbeiteten Datenmengen. Die Existenz von Common Crawl bedeutet, dass Forscher und Start-ups keine eigenen massiven Crawls durchführen müssen; sie können auf diesem leicht verfügbaren Webarchiv aufbauen.
Internet Archive (Wayback Machine)
Das Internet Archive (Archive.org) hat sich zum Ziel gesetzt, die historische Aufzeichnung des Webs zu bewahren. Sein Crawler, Heritrix, ist ein Open-Source-Archiv-Crawler im Web-Maßstab [18]. Durch fortlaufende Crawls seit 1996 hat die Wayback Machine des Internet Archive ein erstaunliches Volumen an Webgeschichte erfasst. Jüngste Schätzungen (Stand 2025) beziffern die Bestände der Wayback Machine auf Hunderte von Milliarden von Webseiten-Schnappschüssen [17]. (Analysten haben Zahlen wie 400–800 Milliarden archivierte Seiten genannt, obwohl das Archiv selbst eine ungefähre Zahl nicht häufig öffentlich aktualisiert.)
Wichtige Punkte zu Heritrix und dem Internet Archive:
- Archivierungsfokus: Im Gegensatz zu Suchmaschinen-Crawlern ist Heritrix darauf optimiert, Seiten für die Nachwelt zu erfassen und nicht einen aktuellen Index zu erstellen. Es besucht Websites und speichert vollständige Kopien (HTML, Bilder usw.) für den langfristigen Zugriff. Der Crawler arbeitet kontinuierlich, archiviert neue Inhalte und besucht bekannte Websites regelmäßig (von Tagen bis Monaten zwischen den Wiederbesuchen, je nach Website).
- Umfang: Der Crawl-Backlog von Heritrix umfasst Milliarden von URLs. Im Jahr 2014 meldete das Archiv, dass es 400 Milliarden Seiten überschritten hatte [40]. Bis 2025 berichten Blogs und inoffizielle Analysen von ~866 Milliarden Seiten-Schnappschüssen [41]. (Eine interessante Tatsache: Diese Zahl zählt jede Kopie einer Seite aus jeder Crawl-Runde. Die Anzahl der einzigartigen Websites ist viel kleiner, aber das Archivvolumen ist das, worauf es ankommt.)
- Crawl-Strategie: Das Archiv arbeitet mit Bibliothekaren und Forschern zusammen, um auszuwählen, was gecrawlt werden soll. Es ermöglicht auch die öffentliche Nominierung von Websites zur Archivierung und erfasst 24-Stunden-Web-"Sammlungen" von Großereignissen. Es beachtet
robots.txt, aber Archive "sperren" sich selbst von Pfaden, die von Websites ausgeschlossen wurden (es gibt also eine gewisse Spannung zwischen Archivierungszielen und robots.txt-Regeln). - Technische Infrastruktur: Heritrix ist ein hochgradig nebenläufiger Crawler, der in Java geschrieben ist. Das Archiv betreibt Cluster von Heritrix-Knoten in Rechenzentren. Es ist so konzipiert, dass es erweiterbar ist (um Formulare, Logins usw. zu verarbeiten). Der Quellcode ist offen und wird von anderen Archiven verwendet.
- Auswirkungen: Die Daten des Internet Archive werden von Historikern, Journalisten, Anwälten und der breiten Öffentlichkeit genutzt, um vergangene Webseiten einzusehen. Zum Beispiel zitierten Nachrichtenorganisationen archivierte Webinhalte in ihrer Berichterstattung und Forschung. Der Umfang des Crawlers ist enorm: In einer Studie zur Crawl-Leistung wurde berichtet, dass das Archiv monatlich in der Größenordnung von zehn Terabyte verarbeitet. Allein im Mai 2014 wurde vermerkt, dass in einem Jahr 160 Milliarden Seiten hinzugefügt wurden [42] (und das Tempo hat seitdem nur zugenommen).
Zusammenfassend stellen Heritrix und die Wayback Machine einen der weltweit größten kontinuierlichen Web-Crawls dar, der sich auf die Archivierung für die Nachwelt konzentriert. Es geht weniger um Aktualität als vielmehr um die Breite über die Zeit. Ihre Existenz stellt sicher, dass die Webgeschichte nicht verloren geht; zum Beispiel können nicht mehr existierende Websites oft noch über die Wayback Machine abgerufen werden.
PetalBot (Huawei)
PetalBot ist der Web-Crawler für Petal Search, die von Huawei entwickelte Suchmaschine. Er ist relativ neu (entstand um 2020), aber aufgrund von Huaweis massivem Gerätemarkt (insbesondere in China) bedeutend. PlainSignal beschreibt PetalBot als Huaweis Crawler für Petal Search, der Inhalte für Huaweis Suchdatenbank crawlt und indexiert [19].
Punkte zu PetalBot:
- Zweck und Umfang: Petal Search soll die Standard-Suchplattform auf Huawei-Telefonen sein (die in vielen Ländern nicht mit Google Search ausgeliefert werden können). PetalBot sammelt Inhalte, um den Index von Petal zu füllen, wobei der Schwerpunkt auf mobilfreundlichen und App-bezogenen Inhalten liegt (da Huaweis Ökosystem Apps und lokalisierte Dienste betont).
- Verhalten: PetalBot identifiziert sich in User-Agent-Strings wie „PetalBot“. Er respektiert robots.txt und ermöglicht die DNS-Verifizierung seiner IPs [43]. Webmaster stellen fest, dass sich PetalBot ähnlich wie andere Such-Crawler verhält (Inhalte abruft, Sitemap-Hinweise beachtet usw.).
- Aufkommen: Angesichts von Huaweis Marktanteil in China und Teilen Asiens crawlt PetalBot möglicherweise bereits täglich Millionen von Seiten. Sein Einfluss wird nicht öffentlich gemacht (Huawei hält die Statistiken von Petal privat), aber es wird berichtet, dass es kommerzielle (E-Commerce-) Inhalte und mobil-optimierte Seiten betont [44]. Der PlainSignal-Hinweis deutet darauf hin, dass PetalBot möglicherweise Websites mit mobilen Zielgruppen priorisiert [44].
- Global vs. China: Petal Search hat seinen Markt über China hinaus erweitert. PetalBot könnte auch international nach englischen/anderen Inhalten crawlen. Der größte Teil bleibt jedoch wahrscheinlich chinesischer Inhalt, da Huawei immer noch eine stärkere Präsenz in China, Europa, Afrika und Teilen Asiens hat als in den USA.
- IndexNow-Teilnahme: Es ist unklar, ob Petal IndexNow unterstützt. Da Microsoft und Yandex die Hauptunterstützer sind, wird Petal (Huawei) typischerweise nicht als Teilnehmer aufgeführt. Daher verlässt sich PetalBot wahrscheinlich auf traditionelles Crawling.
PetalBot ist eine Erinnerung daran, dass auch relativ neue Akteure Web-Scale-Crawler betreiben können. Seine Aufnahme wurde von SEO-Experten bemerkt, die sich auf chinesischsprachiges SEO und Huaweis globale Ambitionen konzentrieren.
Datenanalyse und Fallstudien
Vergleichende Metriken
Um die „größten“ Crawler zu quantifizieren, betrachten wir Metriken wie täglich gecrawlte Seiten, Größe des Indexes und Markteinfluss. Googlebot führt nach jeder Messgröße, mit dem größten bekannten Index (Hunderte von Milliarden Seiten [1]) und resultiert in einer unübertroffenen Dominanz auf dem Suchmarkt [10]. Bingbots angegebene Rate („Milliarden pro Tag“ [4]) deutet jedoch darauf hin, dass er ebenfalls enorme Volumina verarbeitet, wenn auch von einem kleineren Index. Die Aktivität von Baiduspider konzentriert sich hauptsächlich auf das chinesische Web (mit Baidus Suchanteil in China bei ~70–80% [11]), was darauf hindeutet, dass seine Crawls innerhalb seines Bereichs täglich in die Milliarden gehen. YandexBot, der einen kleineren Markt bedient, erreicht Zehnprozentbereiche des Volumens von Googlebot.
Ein anschaulicher Fall: Stephen Hewitts Log-Analyse einer durchschnittlichen Website (cambridgeclarion.org) ergab relative Crawl-Zahlen über 62 Tage. Wenn Googlebot auf 100% normalisiert wurde, machte Bingbot 153% der Seitenanfragen, YandexBot 40%, Baiduspider 5,8% und PetalBot 181% (d.h. fast doppelt so viele wie Google) [24]. DuckDuckBot, Yahoo Slurp und kleinere Crawler hatten eine minimale Präsenz. Dies deutet darauf hin, dass Bingbot und PetalBot für diese Website in der Praxis sehr aggressive Crawler waren. Natürlich ist eine Website nicht global repräsentativ, aber es verdeutlicht, dass die Crawler von Microsoft und Huawei in bestimmten Kontexten die Aktivität von Googlebot übertreffen können. Insbesondere das einzigartige Ergebnis von Petal deutet darauf hin, wie neue Crawler auf einigen Domains vorübergehend intensiver sein können.
Ein weiteres Beispiel: Wikipedia (ein hochwertiges Ziel für Suchmaschinen) beobachtet, dass Googlebot Tausende von Seiten pro Stunde crawlt, um Wikipedia im Google Knowledge Graph aktuell zu halten. Nachrichtenorganisationen haben berichtet, dass Googlebot große Nachrichtenseiten fast kontinuierlich (alle paar Minuten) crawlen kann, um frische Inhalte zu gewährleisten. Im Vergleich dazu besuchen archivorientierte Crawler wie Heritrix Wikipedia seltener, aber dennoch regelmäßig für Schnappschüsse. Tatsächlich diskutieren Wikipedia-Editoren gelegentlich den Crawl-Verkehr: Googlebot ruft Dutzende von Seiten pro Sekunde ab, wenn die Website stark aktualisiert wird. Obwohl nicht offiziell dokumentiert, deuten anekdotische Berichte darauf hin, dass die Crawl-Rate von Googlebot auf Wikipedia 100.000 Anfragen pro Tag überschreiten kann.
Wir analysieren auch Marktanteil vs. Crawl-Last. Tabelle 2 oben zeigt die Suchmarktanteile: Google ~90%, Bing ~4%, Yandex 2,5%, Yahoo 1,5%, DuckDuckGo 0,9%, Baidu 0,8%. Grob gesagt ist die Crawl-Intensität eines Crawlers lose proportional zum unterstützten Suchverkehr. Es gibt jedoch Ausnahmen aufgrund technischer Strategien: z.B. könnte (zumindest historisch) Bingbot liberaler crawlen, weil Microsoft den Index schnell erweitern wollte, während Google seine Crawl-Budget-Heuristiken verfeinert hat, um redundante Abrufe zu vermeiden [4]. Darüber hinaus haben offene Crawler wie Common Crawl keine „Marktanteil“-Metrik, sind aber nach Datenvolumen massiv.
Fallstudie: SEO und Website-Kontrolle
Ein wichtiger praktischer Aspekt ist, wie Websites mit diesen Crawlern interagieren. Betrachten wir eine große Nachrichtenseite NewsCorpSite.com (hypothetisch). Googlebot besucht NewsCorpSite Dutzende Male pro Tag, da frische Nachrichteninhalte ständig aktualisiert werden. Der Webmaster der Website überwacht die Crawl-Statistiken der Google Search Console, um sicherzustellen, dass Googlebot keine Artikel übersieht. Sie können über die API der Search Console oder Sitemaps ein häufigeres Crawling anfordern [20]. Ähnlich wird der Webmaster Bingbot über robots.txt den Zugriff erlauben und Sitemaps in den Bing Webmaster Tools einreichen, um sicherzustellen, dass Bingbot (Bing) und YandexBot (Yandex, für die russische Ausgabe der Website) ebenfalls neue Geschichten crawlen. Wenn NewsCorpSite diese Crawler versehentlich blockieren würde, würde seine Sichtbarkeit in der Suche drastisch sinken.
Andererseits, angenommen SmallBlog.com befindet sich auf einem Shared Host mit geringer Bandbreite. Der Website-Betreiber könnte feststellen, dass Googlebot-Anfragen zu Verlangsamungen führen. Die Google Search Console bot eine Einstellung zur Begrenzung der Crawl-Rate an, die jedoch 2019, außer für ältere Systeme, entfernt wurde. Yahoo/Bing bietet Ähnliches in seinen Webmaster-Tools an. Die Website könnte auch robots.txt verwenden, um Googlebot selektiv zu verlangsamen (z.B. Crawl-delay begrenzen), aber nur Bing und Yandex beachten robots.txt-Verzögerungsdirektiven [Yandex, Bing erlauben Crawl-delay:], während Googlebot dies nicht tut. Stattdessen schlägt Google vor, die Sitemap-Frequenz zu reduzieren oder die Serverleistung anzupassen. Diese Richtlinien zeigen, wie der Umfang des Crawlers Webmaster direkt beeinflusst.
Auswirkungen von Crawling-Vorschriften und Trends
Auswirkungen von Crawling-Regulierungen und Trends
Web-Crawling wirft auch Bedenken hinsichtlich Nachhaltigkeit und politischer Richtlinien auf. Eine Umfrage in der SEO-Branche ergab, dass die Reduzierung des CO2-Fußabdrucks einer Website die Optimierung für Crawler beinhaltet (Caching, Reduzierung unnötiger Abrufe) [45]. Das neu eingeführte IndexNow-Protokoll (von Bing und Yandex) ist eine Antwort darauf: Indem es Webmastern ermöglicht, URL-Änderungen aktiv einzureichen, reduziert es unnötige Crawls auf unveränderten Seiten [5]. Das Ergebnis für Crawler ist eine Verlagerung vom periodischen Neu-Crawling aller Seiten zu einem ereignisgesteuerten (Push-)Modell. Bei breiter Akzeptanz könnte Googlebot weniger auf unveränderten Websites crawlen, zugunsten von Push-Updates (Google hat IndexNow noch nicht übernommen, könnte dies aber in Zukunft tun). Dieser Trend hat Auswirkungen: Crawler werden in Echtzeit aktueller, aber weniger verschwenderisch.
Ein weiterer Trend betrifft den Datenschutz und die Datennutzung. Die Rolle von Applebot bei der Datenerfassung für generative KI-Modelle verdeutlicht neue Anwendungsfälle des „Crawling für KI“. Webmaster sind verständlicherweise besorgt, ob rechtliche Fragen (Urheberrecht, DSGVO usw.) für Crawler, die KI speisen, anders gelten. Apples Lösung (die Möglichkeit, „Applebot-Extended“ zu verbieten) zeigt, wie Crawler-Richtlinien mit KI verknüpft sind. Ähnlich werden die Daten von Common Crawl heute weit verbreitet zum Training von LLMs verwendet; die Organisation hat ihre Bedingungen (z. B. Entfernung personenbezogener Daten) aktualisiert, um ethische Bedenken auszuräumen. Somit überschneidet sich die Crawler-Aktivität nun mit Debatten über den Datenschutz: Websites können Crawler blockieren oder filtern, die KI speisen, wenn sie nicht möchten, dass ihre Inhalte auf diese Weise verwendet werden.
Ein Beispiel: Der Sicherheitsbericht von DataDome aus dem Jahr 2020 beschrieb bösartige Scraper, die sich als Facebook-Crawler ausgaben, indem sie Link-Vorschauanfragen missbrauchten [46]. Dies zeigt, dass selbst bekannte Crawler (Facebooks „facebookexternalhit“) gefälscht werden können. Es unterstreicht, dass Websites nicht nur mit großen, legitimen Crawlern zu tun haben, sondern auch mit Bad Bots. Die hier aufgeführte Top-10-Liste besteht aus legitimen Crawlern. Website-Betreiber müssen jedoch beispielsweise Googlebot von gefälschten „googlebot“ unterscheiden und Reverse-DNS-Prüfungen oder IP-Verifizierung (wie von Apple und DuckDuckGo vorgeschlagen) verwenden, um die Identität zu bestätigen.
Zukünftige Richtungen und Implikationen
Mit Blick in die Zukunft entwickelt sich Web-Crawling zusammen mit der Suche und der KI weiter. Einige Kernpunkte:
- KI und Indexierung: Da die Suche sich hin zu KI-Antworten in Echtzeit bewegt, könnte man meinen, dass Crawling weniger wichtig wird. Doch selbst große, LLM-gestützte Suchmaschinen greifen immer noch auf Indexdaten zurück, die letztlich von Crawlern stammen. Würden Crawler aufhören, würde jegliches „aktualisierte Wissen“ stagnieren. Crawler bleiben also das primäre Mittel, um frische, faktische Inhalte an die Suche und KI zu liefern. Die Zukunft könnte hybride Ansätze beinhalten: Zusammenfassungen oder semantische Indexierung, die auf rohen gecrawlten Daten aufbauen.
- Nachhaltigkeit: Die Energiekosten für das Crawling massiver Daten sind nicht unerheblich. Initiativen wie IndexNow (Push-Benachrichtigung) und verbesserte Website-Auszeichnung (strukturierte Daten, KI-Sitemaps) zielen darauf ab, unnötige Lasten zu reduzieren [5]. Crawler werden wahrscheinlich intelligenter darin, Inhalte zu priorisieren und Duplikate zu vermeiden, teilweise aus Umweltgründen.
- Regulatorische Auswirkungen: Regierungen prüfen die Index-Dominanz von Tech-Giganten. Die Kartellklage des DOJ gegen Google aus dem Jahr 2023 stellt fest, dass „Websites oft für Googles Crawler optimiert sind“, da dessen Index zentral ist [47]. Wenn Regulierungsbehörden Google zwingen, Crawl-Daten zu teilen oder stärker auf Inhalte Dritter zu setzen, könnten sich die Crawler-Strategien ändern. Andererseits könnten Datenschutzbestimmungen einschränken, welche Daten Crawler sammeln (z. B. IDs in URLs).
- Offenes Crawling: Projekte wie Common Crawl könnten in einer Welt voller proprietärer Einschränkungen noch an Bedeutung gewinnen. Wenn einige Regierungen oder Plattformen Daten sperren, bieten offene Crawls ein neutrales Archiv. Auch das akademische Interesse an NextGen-Crawlern (dezentrales P2P-Crawling oder die Nutzung von Blockchain zur Verifizierung) wächst.
- Neue Crawls: Nischen-Crawler entstehen (z. B. für Web3, für das Dark Web). Doch unter den „Internet-Crawlern“ werden die hier besprochenen Top 10 in naher Zukunft relevant bleiben.
Fazit
Die Top 10 Internet-Crawler bilden das Rückgrat dessen, wie das Web indexiert, durchsucht und archiviert wird. Von der unvergleichlichen Größe des Googlebot bis hin zu innovativen Bemühungen wie den offenen Datensätzen von Common Crawl verarbeiten diese Crawler Daten in erstaunlich großen Mengen. Gemeinsam ermöglichen sie modernen Suchmaschinen, relevante Informationen abzurufen und die Geschichte des Webs zu bewahren.
Dieser Bericht hat den Hintergrund, die Technologie und die Auswirkungen jedes wichtigen Crawlers untersucht. Wir haben gezeigt, wie Googlebot bei bekannten Seiten [1] und im Suchverkehr [10] dominiert, wie Bingbot täglich Milliarden von Seiten crawlt [4] und wie regionale Akteure wie Baiduspider und YandexBot ihre Sprachmärkte bedienen. Wir haben spezialisierte Crawler wie Applebot (Siri/Spotlight) [2] und PetalBot (Huawei) behandelt und nicht-kommerzielle Crawler detailliert beschrieben (Common Crawl [3], Archive.orgs Heritrix [18]). Wir haben Behauptungen mit Daten (Marktanteil [10], Seitenzahlen [1]) und Standards (robots.txt-Konformität [69], IndexNow-Protokoll [12] [5]) untermauert.
Mit Blick in die Zukunft wird sich die Crawler-Landschaft an KI, Nachhaltigkeitsbedenken und regulatorischen Druck anpassen. Doch solange das Web wächst, werden diese Crawler mit ihm skalieren. Das Verständnis ihrer Funktionsweise ist entscheidend für Webentwickler, politische Entscheidungsträger und jeden, der von der Architektur des Internets abhängt. Zusammenfassend lässt sich sagen, dass Googlebot, Bingbot, Baiduspider, YandexBot, Sogou Spider, Applebot, DuckDuckBot, Common Crawl, Heritrix (Wayback) und PetalBot die Top 10 der weltumspannenden Web-Crawler unserer Zeit sind, die jeweils die Grenzen dessen erweitern, wie wir die Informationen der Welt sammeln und nutzen.
Externe Quellen
About RankStudio
RankStudio is a company that specializes in AI Search Optimization, a strategy focused on creating high-quality, authoritative content designed to be cited in AI-powered search engine responses. Their approach prioritizes content accuracy and credibility to build brand recognition and visibility within new search paradigms like Perplexity and ChatGPT.
DISCLAIMER
This document is provided for informational purposes only. No representations or warranties are made regarding the accuracy, completeness, or reliability of its contents. Any use of this information is at your own risk. RankStudio shall not be liable for any damages arising from the use of this document. This content may include material generated with assistance from artificial intelligence tools, which may contain errors or inaccuracies. Readers should verify critical information independently. All product names, trademarks, and registered trademarks mentioned are property of their respective owners and are used for identification purposes only. Use of these names does not imply endorsement. This document does not constitute professional or legal advice. For specific guidance related to your needs, please consult qualified professionals.