Mein Verständnis von der Idee hinter Hadoop und Spark ist:
- Logik wird (soweit möglich) auf dem Knoten ausgeführt, wo die Daten liegen
- damit erhält man parallelelen I/O auf vielen, vielen Storage-Devices
- die Skalierung beginnt also schon beim Lesen der Daten
Klar, die neuen Buzzwords beschreiben oft Dinge, die es schon vor vielen Jahren gab, aber die Datenmengen sind deutlich gewachsen -- wer die Daten auf einen einzelnen SQL-Server packen kann hat vermutlich kein "Big Data".
Ansonsten ist Spark-SQL gar nicht so weit entfernt von richtigem SQL: soweit ich weiss wird der SQL2003 Standard unterstützt...