News: Problem bei der Anmeldung? Bitte Mail über das Kontaktformular ganz unten! | garten-pur unterstützen mit einer Spende oder über das Partnerprogramm!

Manche Crawler sind nicht fein! (Gelesen 42135 mal)

Hier kannst du Beiträge testen und technische Fragen loswerden!

Moderatoren: kolbe, msu, Nina

Antworten
Borker
Beiträge: 1153
Registriert: 30. Apr 2022, 15:00
Kontaktdaten:

Re: Manche Crawler sind nicht fein!

Borker » Antwort #15 am:

Ich hab mal die KI gefragt was Google Other ist


"🕵️‍♂️ GoogleOther ist kein Mensch, sondern ein spezieller Web-Crawler von Google. Er wurde entwickelt, um ergänzende Crawling-Aufgaben zu übernehmen, die außerhalb des Hauptzwecks von Googlebot liegen.

🔍 Was ist GoogleOther?
Ein zusätzlicher Crawler: GoogleOther ist ein Bot, der öffentlich zugängliche Webseiten durchsucht – ähnlich wie Googlebot, aber für andere Zwecke.

Einsatzbereiche:

Forschung und Entwicklung bei Google

Datenbeschaffung für neue Produkte und Features

Einmalige oder bedarfsorientierte Crawls

🧠 Technische Eigenschaften
Nutzt dieselbe Infrastruktur wie Googlebot

Hält sich an die gleichen Regeln (z. B. robots.txt)

Hat eigene User-Agent-Namen wie GoogleOther, GoogleOther-Image, GoogleOther-Video

🎯 Warum gibt es GoogleOther?
Da das Internet immer größer und komplexer wird, braucht Google spezialisierte Bots, um die Last zu verteilen. GoogleOther hilft dabei, die Hauptaufgaben von Googlebot zu entlasten und gleichzeitig neue Inhalte effizient zu erfassen.

Wenn du ihn in deinen Server-Logs siehst, ist das ein Zeichen dafür, dass Google deine Seite für spezielle Zwecke besucht hat – aber keine Sorge, er ist genauso freundlich wie Googlebot 😄

Willst du wissen, wie du deine Seite für solche Crawler optimieren kannst?





Auf einer Seite bearbeiten
was ist ein Web Crawler ?
🕷️ Ein Web-Crawler – auch bekannt als Spider oder Bot – ist ein automatisiertes Programm, das das Internet durchforstet, um Informationen von Webseiten zu sammeln und zu analysieren.

🔍 Was macht ein Web-Crawler?
Durchsucht Webseiten: Er besucht Seiten im Internet, folgt Links und „krabbelt“ so von einer Seite zur nächsten.

Sammelt Inhalte: Texte, Bilder, Videos und Metadaten werden erfasst.

Indexiert Daten: Die gesammelten Informationen werden gespeichert und strukturiert, damit sie später z. B. in Suchmaschinen angezeigt werden können2.

🧠 Wer nutzt Web-Crawler?
Suchmaschinen wie Google, Bing oder DuckDuckGo, um Webseiten für die Suche zu erfassen.

KI-Modelle wie bei OpenAI oder Meta, um Inhalte für das Training zu sammeln.

Unternehmen, die ihre eigenen Webseiten analysieren oder Wettbewerbsbeobachtung betreiben.

📚 Beispiel: Googlebot
Der bekannteste Web-Crawler ist der Googlebot. Er sorgt dafür, dass neue oder aktualisierte Seiten in den Google-Suchergebnissen auftauchen. Wenn du z. B. eine neue Webseite veröffentlichst, wird sie erst durch einen Crawler „entdeckt“ und dann indexiert.

🛡️ Kontrolle über Crawler
Webseitenbetreiber können steuern, ob und wie Crawler ihre Seiten besuchen:

robots.txt: Eine Datei, die Crawler anweist, bestimmte Seiten zu ignorieren.

Meta-Tags wie noindex oder nofollow, um Inhalte auszuschließen.

Wenn du willst, zeige ich dir, wie du deine eigene Website für Crawler optimieren oder schützen kannst.
"

Worauf kann den der Crawler zugreifen ? Auch auf Gartenmenschen ?
Wenns eine Suchmaschine ist und kein Mensch warum ist sie nur zu bestimmten Zeiten hier und nicht ständig ?
Benutzeravatar
sempervirens
Beiträge: 4858
Registriert: 12. Dez 2023, 08:58
Region: Mittelgebirge
Höhe über NHN: 270
Winterhärtezone: 7b: -14,9 °C bis -12,3 °C

Re: Manche Crawler sind nicht fein!

sempervirens » Antwort #16 am:

Borker hat geschrieben: 3. Sep 2025, 14:50

1.Worauf kann den der Crawler zugreifen ? Auch auf Gartenmenschen ?
2. Wenns eine Suchmaschine ist und kein Mensch warum ist sie nur zu bestimmten Zeiten hier und nicht ständig ?

Der Crawler kann auf alles öffentlich sichtbare zugreifen. Im Gegensatz zum Menschen kann dieser auch schnell Daten wie Metadaten aus dem Seiten-Quell-Text extrahieren ( Könnte der Mensch auch aber er nutzt meist das aufbereitete Nutzerinterface im Sinne des visuell dargestellten HTML)
Soweit ich weiß ist Gartenmenschen nur für eingeloggte Nutzer sichtbar, ich weiß jetzt aber nicht wie dieser Mechanismus funktioniert, würde aber annehmen das der Crawler diesen Bereich nicht lesen kann.
Es wäre jedoch denkbar das Google auch indirekt Informationen über den Bereich Gartenmenschen bekommen kann bspw über: Google Fonts, Ad Traffic Quality Team von Google ( prüft unteranderem ob wir echte Nutzer sind und Klicks und Views der Werbung nicht Fake sind). Wobei Google dabei sagt, das es nur die Werbung an sich überprüft und keine weiteren Inhalte auf der Seite.

Die 2te Frage sollte eine Ki auch beantworten können:
  • Technische Begrenzung: Es gibt Milliarden von Webseiten. Es ist technisch sehr aufwändig und vermutlich unter aktuellen Rechenkapazitäten unmöglich, alle gleichzeitig und permanent zu überwachen.
  • Daher setzt Google Prioritäten ("Crawl-Budget"): Wichtige und oft aktualisierte Seiten (wie Nachrichtenseiten) werden sehr häufig besucht, unwichtigere oder statische Seiten seltener.
  • Rücksichtnahme: Ständiges Crawlen würde die Server von Webseiten überlasten und für normale Besucher lahmlegen. Google nimmt daher bewusst Rücksicht.
Zuletzt geändert von sempervirens am 3. Sep 2025, 16:49, insgesamt 1-mal geändert.
Borker
Beiträge: 1153
Registriert: 30. Apr 2022, 15:00
Kontaktdaten:

Re: Manche Crawler sind nicht fein!

Borker » Antwort #17 am:

Ach so . Danke sempervirens :D
Benutzeravatar
thomas
Garten-pur Team
Beiträge: 10767
Registriert: 21. Nov 2003, 21:03
Wohnort: Köln-Bonner Bucht, WHZ 8a

Für die Freiheit des Spottes.

Re: Manche Crawler sind nicht fein!

thomas » Antwort #18 am:

sempervirens hat geschrieben: 3. Sep 2025, 15:21 ...Google nimmt daher bewusst Rücksicht.[/list]
Google ist ok. Unangenehm sind z.B. Meta und die, die sich tarnen oder gar nicht zu erkennen geben.
Kaum macht man etwas richtig, klappt es auch.
Benutzeravatar
sempervirens
Beiträge: 4858
Registriert: 12. Dez 2023, 08:58
Region: Mittelgebirge
Höhe über NHN: 270
Winterhärtezone: 7b: -14,9 °C bis -12,3 °C

Re: Manche Crawler sind nicht fein!

sempervirens » Antwort #19 am:

Ja das Stimmt, manche Crawler geben sich auch als Menschen aus, insbesondere jene die Daten abgreifen wollen für diverse Zwecke.
Antworten