Business Intelligence mit Pentaho
Seite 8: Pentaho und MySQL
Projektskizze Pentaho mit MySQL
Nachdem MySQL seit Jahren im Bereich operativer relationaler Datenbanken auf dem Vormarsch ist und ihre Stabilität und Einsetzbarkeit in der Praxis vielfach unter Beweis gestellt hat, schickt sich die Datenbank an, auch im Datawarehouse-Bereich Oracle oder DB2 ernstzunehmende Konkurrenz zu machen.
Gerade mit Release 5.1 (geplant für Anfang 2008) wird MySQL weitere Funktionen mitbringen, die im Datawarehouse-Umfeld sehr gut eingesetzt werden können. Zu erwähnen sind:
- Partitionierung von Tabellen, was insbesondere bei groĂźen Datenmengen und historischen Faktendaten zu massiven Performancegewinnen fĂĽhrt.
- Filesystem-basiertes Clustering, was eine Verarbeitung von größeren Datenmengen auf Clustern von Standard-Hardware erlaubt.
Bereits mit frĂĽheren Releases wurde Funktionen wie zum Beispiel eine Archive-Engine fĂĽr die kompakte Speicherung von Altdaten, eine CSV-Engine fĂĽr den komfortablen Zugriff auf CSV-Dateien, Datenbanktrigger, Stored Procedures und Views eingefĂĽhrt.
Im Vergleich zu einem proprietären Produkt wie Oracle 10g fehlen eine Reihe von Funktionen wie beispielsweise Indizes auf komprimierte Tabellen, Expression-Index, Bitmap-Index, Parallelverarbeitungen oder auch analytische Funktionen. Auch ohne solche Features, die der Anwendungsentwicklung das Leben erleichtern und einen massiven Performancegewinn bedeuten können, lassen sich gerade kleinere Datawarehouse-Systeme (bis 500 Gb) mit moderner Hardware durchaus mit MySQL betreiben. Für MySQL existieren eine Reihe von professionellen Frontends (wie z.B. Toad) oder auch Monitoring-Tools, die ein Arbeiten mit dem Datenbanksystem sehr komfortabel machen.
Mit MySQL als Datenbank für Datawarehousing bietet die Pentaho-Suite das Rüstzeug für eine vollständig auf Open-Source-Software basierende BI-Lösung. Die Schwächen von MySQL in der parallelen Verarbeitung von Daten können durch geschickte PDI-Transformationen kompensiert werden.
Auch erlaubt die Nutzung von PDI die Anbindung verschiedener Quellsysteme, z.B. nicht nur einer MySQL-Datenbank, an die Datawarehousing-Verarbeitungslogik (Versionierung). PDI wird ebenfalls genutzt, um die Daten fĂĽr Berichte oder Analysen zu transformieren, zu denormalisieren oder zu verdichten.
Die Reportingfunktionen der Pentaho-Suite ermöglichen es, unter Verwendung von Berechtigungskonzepten (Need to know) unterschiedliche Nutzergruppen mit Informationen in verschiedenen Formaten (PDF, Excel, Web) zu versorgen. Hierbei handelt es sich beispielsweise um das automatische Versenden von E-Mails mit PDF-Berichten für wenig erfahrene Nutzer, Dashboards für das Management und multidimensionales Reporting mit ROLAP für Power-User. Auch das Monitoring der Datawarehousing-Ladeläufe mittels Standardreports und Ampelsystemen ist möglich. Mit JPivot und WAQR stehen sowohl Power-Usern als auch weniger erfahrenen Nutzern Möglichkeiten zur selbstständigen Generierung von Reports zur Verfügung.