[Diese Seite ist Teil der Homepage www.daniel-rehbein.de]

Harvester, E-Mail-Spider und andere Nettigkeiten


 
 Spam & Adressensammler
(Navigation 2.Ebene)  Die Thematik
(Navigation 3.Ebene)  Spam/UBE/UCE
(Navigation 3.Ebene)  Harvester/Spider
(Navigation 3.Ebene)  RFC 2606
(Navigation 2.Ebene)  Harvester täuschen
(Navigation 2.Ebene)  Adreßlisten vergiften
(Navigation 2.Ebene)  Weitere Informationen

"Wie kommen die eigentlich an meine E-Mail-Adresse?" fragen sich viele Internet-Nutzer, wenn sie in ihren Posteingängen eine schnell ansteigende Flut von Werbung für diverse dubiose Produkte oder sogar 0190-/0900-Dialer vorfinden.

Natürlich ist es das Internet selbst, das für Adressensammler als Fundgrube für E-Mail-Daten dient. Besonders die Internet-Dienste Usenet, ICQ, IRC und Web (WWW) liefern jede Menge Adressenmaterial. Das Usenet (der Bereich der Diskussionsforen im Internet) ist sicherlich eine sehr erhebliche Quelle, hat für einen Adressensammler aber das Manko, daß viele Internet-Nutzer das Usenet nicht benutzen, also dort auch keine E-Mail-Adresse von ihnen zu finden ist. ICQ und IRC (sowie andere Instant-Messaging-Protokolle und Chatrooms) haben für einen Adressensammler das Problem, das die dort aktiven Teilnehmer häufig anonym bleiben wollen und deshalb öfters ihre Adressen wechseln.

In den Blickwinkel der dubiosen Online-Werber rückt deshalb immer mehr das World Wide Web. Immer mehr Privatpersonen, Vereine und Institutionen präsentieren sich mit einer eigenen Homepage. Dort findet man dann meist nicht nur die E-Mail-Adresse des jeweiligen Autors, sondern in Gästebüchern und Mitgliederlisten auch große Menge weiterer Personen mit ihrer E-Mail-Anschrift.

Ein Adressenhändler wird sich aber kaum die Mühe machen, von Hand das Internet nach E-Mail-Adressen zu durchkämmen und auf einem Blatt Papier die gefundenen Adressen notieren. Statt dessen bedient er sich dafür Software.

Software, die Webseiten durchsucht: Crawler etc.

Software, die Webseiten durchsucht, ist prinzipiell nichts ungewöhnliches und auch etwas durchaus erwünschtes. Suchdienste wie Google oder Altavista durchlaufen permament mit eigener Software das World Wide Web, um die besuchten Seiten in ihrer Datenbank zu indizieren und als Ergebnis passender Anfragen zeigen zu können. Die Software dieser Suchdienste wird auch "Crawler" oder "Spider" genannt. Von den Seiten, die sie schon kennen, krabbeln sie zu allen verlinkten Seiten, um von dort wiederum die Links weiterzuverfolgen. Das Web stellt sich für die Suchdienste als eine Art Spinnennetz dar: Die Knoten sind die Webseiten und die Fäden sind die Links zwischen den Webseiten. Nüchterner bezeichnet man die Software auch als "Suchroboter", auf englisch auch kurz "bot" (für "robot").

Die Software der Adressensammler macht prinzipiell nichts anderes. Sie durchkämmt die Webseiten anhand ihrer Verknüpfung per Links. Im Gegensatz zu den Crawlern der Suchmaschinen interessieren den Adressensammler aber nicht die Inhalte der Seite, sondern nur die darauf enthaltenen E-Mail-Adressen. Deshalb bezeichnet man solche Software auch als Erntemaschine: Das Programm soll durch das Internet laufen und dabei alle E-Mail-Adressen, die es zu packen kriegt, ernten. Deshalb bezeichnet man diese Software auch als Harvester (von englisch "harvest", zu deutsch "ernten").

Und noch einen anderen wesentlichen weiteren Unterschied zu den Crawlern der Suchmaschinen gibt es: Während ein Besuch beispielsweise durch den Google-Bot beim Webmaster durchaus erwünscht ist, ist ein Besuch durch einen Harvester das natürlich nicht. Deshalb tarnt sich ein Harvester als gewöhnlicher Webbrowser.

Jeder Software die auf Webseiten zugreift, also auch jeder Browser, übermittelt eine individuelle Kennung für diese Software (siehe hier auch: http://daten.rehbein.net). Der Google-Bot und andere Crawler sind u.a. daran zu erkennen. Ein Webmaster, der nicht möchte, das seine Seite von diesen besucht wird, kann sie gezielt aussperren. Ein Harvester dagegen gibt sich nicht als solcher zu erkennen, sondern sendet die Kennung eines gängigen Browsers, also beispielsweise des Internet Explorers oder des Netscape Navigators.

Da Harvester natürlich auf Zeit optimiert werden (sie sollen in möglicht kurzer Zeit möglichst viele Webseiten besuchen), arbeiten sie meist nicht sehr gründlich. So speichern viele Programme einfach alles ab, was ein "@" Zeichen enthält, unabhängig davon, ob es wirklich eine E-Mail-Adresse ist. Der Adressenhändler erhält damit zwar einen gewissen Prozentsatz an unbrauchbaren Adresseinträgen, aber das ist für ihn nicht weiter störend.

Von den Programmierern dieser Programme wird der Begriff "Harvester" natürlich tunlichst vermieden. Statt dessen trägt die Software dann Namen wie "Mail-Spider" oder "Online Marketing Tool".

Die Konsequenz daraus

Was bedeutet das nun für das Internet? Zunächst einmal heißt das, daß jede E-Mail-Adresse, die irgendwo im Internet öffentlich erreichbar steht, früher oder später in den Adressenlisten der Spam-Versender landet. Ob Sie sich mal in ein Online-Gästebuch eingetragen haben, ein alter Schulfreund eine Adreßliste seines Jahrgangs ins Netz stellt auf Ihrer eigenen Homepage Ihre Mail-Adresse angeben: Irgendwann wird Spam an diese Adresse eintreffen - und dann auch nie wieder aufhören.

Eine wichtige Konsequenz daraus ist, daß man insbesondere vorsichtig sein sollte im Umgang mit fremden Adressen. Die E-Mail-Adresse eines guten Freundes setzt man nicht einfach so auf eine Webseite, auch wenn man es eigentlich gut meint! Vorsicht sollte man auch walten lassen bei der Verwendung von Beispieladressen, z.B. in Diskussionen oder Erklärungen. Aus Unkenntnis werden dabei häufig gültige E-Mail-Adressen von Unbeteiligten genannt.

Die Dummheit der Harvester, die einfach alle E-Mail-Adressen speichern, kann man sich zu Nutze machen, um mit speziell präparierten Adressen Harvester aufzuspüren:

Eine Gegenmaßnahme, um die eigene E-Mail-Adresse nicht so schnell finden zu lassen, kann eine Codierung der Adresse sein.



[Abrufstatistik]  Homepage  Impressum