Twitter veröffentlicht Anomaly-Detection-Tool
Das vom Kurznachrichtendienst genutzte Werkzeug, mit dem Anomalien in großen Datensätzen aufgespürt werden können, steht nun unter der GNU Public License.
- Julia Schmidt
Das hinter Twitter stehende Unternehmen gleichen Namens hat die Quellen eines in R verfassten Werkzeugs freigegeben, mit dem Anomalien in großen Datenmengen aufgefunden werden können. Auf diese Weise sollen auch andere von dem Tool profitieren können und es letztlich in seiner Entwicklung voranbringen. Zwar wird es vom Anbieter vorrangig auf zeitabhängige Daten angewandt, allerdings soll es sich auch dazu eignen, Auffälligkeiten in aus numerischen Werten bestehenden Vektoren zu finden.
In der Bekanntmachung schildert Entwickler Arun Kejariwal, wie Twitter das AnomalyDetection genannte R-Paket nutzt, die Aktivität seiner Nutzer zu analysieren, um einen möglichst kontinuierlichen Betrieb sicherzustellen. Neben dem erhöhten Datenaufkommen zu besonderen Veranstaltungen wie der Fußballweltmeisterschaft voriges Jahr oder über die Feiertage (für die durch längerfristige Betrachtung im Vorab Kapazitäten eingeplant werden kölnnen) können auch Bots oder Spammer zeitweise für besonders hohe Aktivität sorgen. Im Gegensatz dazu kann eine besonders niedrige Nutzerbeteiligung nach einem neuen Release beispielsweise Rückschlüsse auf Fehlfunktionen ermöglichen.
Derartige globale und lokale Auffälligkeiten lassen sich mit dem Tool wohl aufdecken. Außerdem sind Visualisierungsmöglichkeiten vorhanden, mit denen sich Analyseergebnisse aussagekräftig aufbereiten lassen sollen. Saisonale Besonderheiten oder generelle Trends sollen die statistische Analyse nicht negativ beeinflussen. Als Algorithmus kommt ein als Seasonal Hybrid ESD bezeichnetes Verfahren zum Einsatz, dem ein verallgemeinerter Test auf Ausreißer zugrunde liegt. (jul)