Geregelte Kontrolle

Das Manipulieren von Nameserver-Einträgen, in Diskussion im Zusammenhang mit dem geplanten Gesetz zur Sperrung von Kinderpornografieangeboten, ist bekanntlich kein sicheres Sperrverfahren. Doch es gibt durchaus wirksamere Methoden, die auch bei großen Datenmengen effizient arbeiten.

8

25.06.2009, 02:00 Uhr

Lesezeit: 6 Min.

iX Magazin

Von

Lukas Grunwald

Wer in den Frühzeiten des Web ein sauberes Firmennetz wollte, konnte mit einer kleinen Appliance am Übergang zum öffentlichen Internet sämtliche ein- und ausgehenden Inhalte überprüfen. Doch das ist Schnee von gestern – heute sind dynamische Routing-Protokolle, asynchrone Anbindungen und dezentrale Cloud-Strukturen im Einsatz, und vor allem sind die Datenmengen enorm gewachsen. Das stellt ganz neue Anforderungen an Inhaltsanalyse und Filterkonzepte.

Will man unerwünschte Inhalte aus seinem Netzverkehr entfernen, benötigt man Kriterien zur Klassifizierung. Dazu existieren zurzeit im Wesentlichen zwei Konzepte: manuelle und automatische Filterlisten.

Bei ersterem Verfahren wird eine Blacklist nicht erlaubter URLs oder eine Whitelist mit erlaubten URLs erstellt und manuell gepflegt. Diese Filterliste muss die Namen oder IP-Adressen der zu filternden Hosts enthalten.

Man kann solche Einstufungen auch bei Drittanbietern einkaufen, die Klassifikation zu fast allen URLs in Onlinedatenbanken bereitstellen. Solche Dienstleister nutzen zum Beispiel amerikanische Schulen, um den Jugendschutz zu gewährleisten, sowie viele Unternehmen. Naturgemäß sind Falsch-Klassifizierungen nicht ausgeschlossen, ebenso wenig besteht ein Anspruch auf Vollständigkeit. Erstellt werden diese Listen oft von Studenten oder anderem Niedriglohnpersonal.

Manuell vs. automatisch

Bei der automatischen Klassifizierung dagegen holt das als Proxy arbeitende Inspektionssystem zunächst den angeforderten Inhalt und prüft ihn vor der Weiterleitung auf bestimmte Schlüsselwörter und andere Kriterien. Nur "einwandfreie" Inhalte liefert es aus.

Dieses Verfahren ist durch Malware- und Viren-Scanner bekannt, die alle nach diesem Prinzip der automatischen Klassifizierung arbeiten. Die Signaturen und Algorithmen stellt – möglichst aktuell – der Anti-Malware-Anbieter zur Verfügung; ähnliche Produkte gibt es für E-Mail-Phishing oder Pornografie. Die aus der Virenscanner-Welt bekannten heuristischen Verfahren sind in der IP-Filter-Welt noch nicht marktreif. Erste Ansätze, um auch unscharfe Merkmale zu erkennen, existieren. So versuchen manche Online-Bilderportale aus den USA anhand der Hautfarbe Pornos und FKK-Bilder zu erkennen, so wurde aber auch schon manches Babyfoto gebannt.

Auch Reputations-Filter, die die Verbreitung etwa von rassistischen oder sexistischen Mails oder Blog-Einträgen über die firmeneigene Infrastruktur verhindern sollen, arbeiten auf Schlüsselwort-Basis. Die für die automatische Klassifizierung zuständige Software ist nicht ganz trivial, so muss sie unter anderem mit verschiedenen Repräsentationen desselben Inhalts (Content Encoding) zurechtkommen. Geht es um mehr als reine Texte, versagen diese Automatismen oft.

Alles, nichts oder nur ein wenig

Die Untersuchung des kompletten Internetverkehrs einer großen Institution, eines Konzerns oder gar eines ganzen Landes ist natürlich rechenintensiv. Die Grenzen eines Filter-Clusters liegen beim heutigen Stand der Technik bei 10 Gigabit/s pro Cluster. Je nach Netzaufbau gibt es verschiedene Ansätze, die Last in den Filtersystemen zu reduzieren.

Meistens verteilt ein Load Balancer die Zugriffe "sticky", das heißt, jeder Client bekommt immer denselben Filterknoten im Cluster. Das ist nötig, um auch verteilte und fragmentierte Zugriffe wie die von AJAX und anderen Web-2.0-Methoden effizient zu filtern.

Je nach Menge der Zugriffe und Datendurchsatz kann ein Filter-Cluster bis zu 500 Knoten umfassen. Der Traffic wird transparent durch den Cluster geroutet und dort gefiltert, indem eine Filtersoftware zum Beispiel die URL oder auch den Content nach einem oder mehreren Klassifikationsmethoden prüft.

Rechenaufwand reduzieren

Bei sehr großen Netzen ist es meist wirtschaftlicher, eine Traffic-Reduzierung durchzuführen, um den Rechenaufwand zu reduzieren. So müssen nicht alle gängigen 565 IP-Ports überprüft werden, meistens sind nur einige wenige wie FTP, HTTP und ähnliche von Interesse.

Zudem kann Policy-based Routing (PBR) helfen, Last vom Netz zu nehmen. Das normale Internet-Routing arbeitet allein auf Basis der Zieladresse nach dem Next-Hop-Verfahren und sucht den kürzesten Weg. Beim PBR können andere Kriterien (Policies) die Routing-Entscheidung ändern. In der Praxis bedeutet das, dass man abhängig von der Policy die Pakete umleiten kann, ohne dass es der Benutzer erkennt.

Typische PBR-Kriterien sind Kombinationen aus IP-Adresse und Ziel-Port oder ein bestimmtes Muster im HTTP-String. Solche IP-Pakete werden nicht wie üblich geroutet, sondern über den Filter-Cluster geleitet. Dort lässt sich dann in aller Ruhe der Datenstrom Bit für Bit überprüfen.

Das ermöglicht auch eine Unterscheidung zwischen "guten" und "bösen" Webseiten, die über dieselbe auf einer Blacklist verzeichnete IP-Adresse erreichbar sind. Die Policy wäre in diesem Fall, bei einem IP-Paket an den Port 80 dieser IP-Adresse den Verkehr auf den Filter-Cluster weiterzuleiten. Der trifft anhand der Details der URL die Entscheidung, ob es diese tatsächlich zu blockieren gilt oder ob es um eine andere, harmlose Webseite geht, die unter derselben IP-Adresse zu erreichen ist.

Für den Aufrufer stellt sich das ganze völlig transparent dar, sprich: Der Benutzer bemerkt es nicht. Wie überall gibt es auch hier keine 100%ige Sicherheit. Content- und URL-Filter funktionieren nur, solange der Inhalt nicht verschlüsselt und der Host greifbar ist, also nicht etwa aus einem Verbund feindlich übernommener Privat-PCs besteht.

Surfen ohne Filter

Um diesen Verfahren, die unter anderem Diktaturen einsetzen, etwas entgegensetzen zu können, entwickelte Ende der 90er-Jahre der irische Student Ian Clarke das verteilte Peer-to-Peer-Informationssystem Freenet, das derzeit in Version 0.7 vorliegt. Dessen Protokoll ist so aufgebaut, dass Content- und Verkehrsmuster-Erkennung nicht funktionieren. Seit Version 0.7 ist Freenet als sogenanntes Darknet organisiert, ein Netz, an dem man nur auf Einladung teilnehmen kann; auch als F2F-Netz (friend to friend) bezeichnet.

Im Prinzip lassen sich also effiziente Filter aus der Kombination von Policy-based Routing und anderen Verfahren aufbauen, mit denen sich sogar 40 Gigabit-Links kontrollieren lassen. Doch F2F-Netzwerke kann man damit nicht aufdecken.

Lukas Grunwald
arbeitet als Consultant bei der DN Systems GmbH in Hildesheim und ist in diverse freie Softwareprojekte involviert. (js)