Privacy-Handbuch

Bei jedem Aufruf einer Webseite oder dem Laden von Bilder o.ä. sendet der Browser in den HTTP Request Headern Informationen wie die bevorzugten Datei­typen, die bevorzugte Sprache oder die User-Agent Kennung mit Informationen über den verwendeten Browser, die Version des Browsers und das Betriebs­system. Firefox 72 für Linux sendet zum Beispiel: Mozilla/5.0 (X11; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0

Aus unterschiedlichen Gründen wird immer wieder empfohlen, die User-Agent Kennung zu modifizieren (faken). Linuxer und MacOS Nutzer sollen eine Fake für einen Google Chrome (Windows) verwenden, weil dieser Browser häufiger verwendet wird und man damit angeblich besser in der Masse untertaucht. Windows Nutzer sollen als ein Linux OS spoofen, um sich gegen Drive-by-Downloads von Malware zu schützen... u.a.m.

Es ist nahezu unmöglich, die User Agent Kennung eines Browsers plausibel zu faken. Eine unsachgemäße Änderung kann zu einem einzigartigen Gesamtbild führen, welches das Tracking enorm erleichtert und man erreicht das Gegenteil des Beabsichtigten.

Der ehemalige Anonymitätstest von JonDonym (jetzt nicht mehr online) entlarvte viele Fehler und wurde genutzt, um diesen Artikel zu schreiben. Aktuell könne man mit CreepJS testen.

Schlussfolgerung

Es ist nahezu unmöglich, die User-Agent Kennung von Firefox plausibel in allen Punkten zu faken. Ein unvollständiger Fake-Versuch ist aber ein gutes Identifizierungs­merkmal für Tracking­dienste, da man sich von der großen Masse der Surfer stärker unterscheidet. 

Paywalls umgehen als GoogleBot oder BingBot

Viele Online Medien haben in den letzten Jahren eine Paywall eingeführt, um Artikel nur für Premium Nutzer zur Verfügung zu stellen. Gleichzeitig möchten sie aber, dass diese Artikel weiterhin von Suchmaschinen in den Index aufgenommen werden, damit Leser angelockt werden. Um das zu ermöglichen, bauen sie eine Hintertür ein. Wenn die Seite mit der User-Agent Kennung des Crawlers einer Suchmaschine wie GoogleBot abgerufen werden, dann kann man oft (aber nicht immer)…

Das ist kein Bug sondern ein Feature, das die Webmaster der Online Medien extra eingebaut haben und dabei die Hinweise von Google zur Verifikation des Bots ignorieren (zu kompliziert?)

Die User-Agent Kennung vom allgm. Google Bot ist:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Die User-Agent Kennung vom Bing Bot ist:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36

(Der Trick funktioniert bei Berliner Zeitung und NZZ aber nicht bei Heise, Spiegel, FAZ oder Bild.)


Es ist aber keine gute Idee, die Googlebot Kennung generell zu verwenden. Dann bekommt man Probleme bei einigen Webseiten und hat außerdem einen eindeutigen Fingerprint.

Das Add-on CanvasBlocker kann in verschiedenen userContext Containern den User-Agent faken. Man erstellt sich einen neuen userContext (z.B. "Paywall") oder verwendet einen vorhanden.

In den Einstellungen von CanvasBlocker auf dem Reiter "APIs" aktiviert man die Navigator API:

Ein Klick auf den Open-Button öffnet die Navigator Settings. Hier wählt man zuerst den userContext, für den man den Fake konfiguieren möchte und stellt dann den User-Agent Fake für GoogleBot ein:

Wenn man auf eine Paywall trifft und kann man die Seite im userContext "Paywall" öffnen (z.B. mit einem Rechts-Klick auf den Link) und hat dann öfters die Möglichkeit, den Artikel zu lesen.

Lizenz: Public Domain