Business Intelligence mit Pentaho

Seite 8: Pentaho und MySQL

Inhaltsverzeichnis

Nachdem MySQL seit Jahren im Bereich operativer relationaler Datenbanken auf dem Vormarsch ist und ihre Stabilität und Einsetzbarkeit in der Praxis vielfach unter Beweis gestellt hat, schickt sich die Datenbank an, auch im Datawarehouse-Bereich Oracle oder DB2 ernstzunehmende Konkurrenz zu machen.

Gerade mit Release 5.1 (geplant für Anfang 2008) wird MySQL weitere Funktionen mitbringen, die im Datawarehouse-Umfeld sehr gut eingesetzt werden können. Zu erwähnen sind:

  • Partitionierung von Tabellen, was insbesondere bei großen Datenmengen und historischen Faktendaten zu massiven Performancegewinnen führt.
  • Filesystem-basiertes Clustering, was eine Verarbeitung von größeren Datenmengen auf Clustern von Standard-Hardware erlaubt.

Bereits mit früheren Releases wurde Funktionen wie zum Beispiel eine Archive-Engine für die kompakte Speicherung von Altdaten, eine CSV-Engine für den komfortablen Zugriff auf CSV-Dateien, Datenbanktrigger, Stored Procedures und Views eingeführt.

Im Vergleich zu einem proprietären Produkt wie Oracle 10g fehlen eine Reihe von Funktionen wie beispielsweise Indizes auf komprimierte Tabellen, Expression-Index, Bitmap-Index, Parallelverarbeitungen oder auch analytische Funktionen. Auch ohne solche Features, die der Anwendungsentwicklung das Leben erleichtern und einen massiven Performancegewinn bedeuten können, lassen sich gerade kleinere Datawarehouse-Systeme (bis 500 Gb) mit moderner Hardware durchaus mit MySQL betreiben. Für MySQL existieren eine Reihe von professionellen Frontends (wie z.B. Toad) oder auch Monitoring-Tools, die ein Arbeiten mit dem Datenbanksystem sehr komfortabel machen.

Mit MySQL als Datenbank für Datawarehousing bietet die Pentaho-Suite das Rüstzeug für eine vollständig auf Open-Source-Software basierende BI-Lösung. Die Schwächen von MySQL in der parallelen Verarbeitung von Daten können durch geschickte PDI-Transformationen kompensiert werden.

Auch erlaubt die Nutzung von PDI die Anbindung verschiedener Quellsysteme, z.B. nicht nur einer MySQL-Datenbank, an die Datawarehousing-Verarbeitungslogik (Versionierung). PDI wird ebenfalls genutzt, um die Daten für Berichte oder Analysen zu transformieren, zu denormalisieren oder zu verdichten.

Die Reportingfunktionen der Pentaho-Suite ermöglichen es, unter Verwendung von Berechtigungskonzepten (Need to know) unterschiedliche Nutzergruppen mit Informationen in verschiedenen Formaten (PDF, Excel, Web) zu versorgen. Hierbei handelt es sich beispielsweise um das automatische Versenden von E-Mails mit PDF-Berichten für wenig erfahrene Nutzer, Dashboards für das Management und multidimensionales Reporting mit ROLAP für Power-User. Auch das Monitoring der Datawarehousing-Ladeläufe mittels Standardreports und Ampelsystemen ist möglich. Mit JPivot und WAQR stehen sowohl Power-Usern als auch weniger erfahrenen Nutzern Möglichkeiten zur selbstständigen Generierung von Reports zur Verfügung.