Online-Workshop: Big-Data-Analysen mit Python und Spark

Alle Heise-Foren heise online Kommentare Online-Workshop: Big-Data-Ana… Re: Pyhton, Spark, BigData si…

- 
- Beitrag
- 
- 
- Threads
- 

Ansicht umschalten

solteen

mehr als 1000 Beiträge seit 05.06.2020

14.08.2020 11:37

Re: Pyhton, Spark, BigData sind Buzzwörter die in die Bullshit-Bingo Suppe gehör

dispanser schrieb am 14.08.2020 11:01:

Mein Verständnis von der Idee hinter Hadoop und Spark ist:
- Logik wird (soweit möglich) auf dem Knoten ausgeführt, wo die Daten liegen
- damit erhält man parallelelen I/O auf vielen, vielen Storage-Devices
- die Skalierung beginnt also schon beim Lesen der Daten

Die Idee von H2 besteht darin, dass Zugriffe auf Knoten zu verteilen und die Daten und damit die Arbeit auch. Der Hirnschuss besteht aber darin, dass man nichts anderes macht wie Postgres oder Oracle, die die Daten auf verschiedene Platten legt und den Zugriff über verschiedene Kanäle zieht.

Beide machen fasst das gleiche, nur bei H2 hast Du eine übergeordneten Knoten der die Teilergebnisse zusammensammelt und nochmals verarbeitet. Das gibt es auch bei der Verarbeitung patitionierter Daten und fällt hier die Netzwerkkommunikation weg und die Daten sind schon alle lokale, was dem letzten Schritt erheblich beschleunigt.

Zugute kommt bei klassischen Datenbanken noch der deutlich umfangreichere SQL Sprachsatz, der deutlich über dem einem HBASE Aufsatz liegt. Dann wäre noch der gemeinsame Speicher und das fehlen kostspieliger Netzwehrkommunikation.

Klar, die neuen Buzzwords beschreiben oft Dinge, die es schon vor vielen Jahren gab, aber die Datenmengen sind deutlich gewachsen -- wer die Daten auf einen einzelnen SQL-Server packen kann hat vermutlich kein "Big Data".

Datenmengen waren nie ein Problem gewesen, tatsächlich sind die aber ein Problem für HBASE/H2, da hier der verteilte Speicher mit kostspieliger Kommunikation überwunden werden muss.
Die bestenfalls linerare Optimierung eines Zugriffes schaffe ich locker auch mit einem dicken 64 Core Server, das Problem bei großen Datenbeständen ist aber immer der IO. Unter der tut in einer H2 Knotenverteilung deutlich mehr weh auf auf meinem monolythischen DB Server.

Ansonsten ist Spark-SQL gar nicht so weit entfernt von richtigem SQL: soweit ich weiss wird der SQL2003 Standard unterstützt...

Im Vergleich zu den Möglichkeiten von den SQL's unter Postgres oder Oracle ist das was Spark-SQL anbietet ein feuchter Furz.

... und last-not-least Phyton ist hier überflüssig.

Das Posting wurde vom Benutzer editiert (14.08.2020 11:39).

Bewerten

- +

Thread-Anzeige einblenden

- 
- Beitrag
- 
- 
- Threads
- 

Ansicht umschalten

Nutzungsbedingungen

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Re: Pyhton, Spark, BigData sind Buzzwörter die in die Bullshit-Bingo Suppe gehör