Ansicht umschalten
Avatar von solteen
  • solteen

mehr als 1000 Beiträge seit 05.06.2020

Pyhton, Spark, BigData sind Buzzwörter die in die Bullshit-Bingo Suppe gehören

Für mich sind so gleile gleile Wortkreationen immer so der Aufhänger, um einmal kritisch hinter diverse Vorgaben zu schauen.

Warum verwendet man etwas nicht alte bekannte Begrifflichkeiten, da tun wir uns doch alle viel einfacher, wollen die Autoren durch die Verwendung bekannter Begriffe vermeiden, dass man sich an alte bessere Techniken erinnert und so das geile-geile-Neu hinterfragen.

Das fängt schon an dem Begriff BigData an, haben denn die Leute vor 15-20 Jahren Ihre Plattensammlung verwalten wollen, als man die Begrifflichkeiten: Datawarehouse und Datamining verwendeten, um ein normierte Datenhaltung (würfel) aufzubauen und darauf statistische Verfahren (meist in anspruchsvolleren SQL) umzusetzen.

Verdächtig finde ich nun den Softwarestack, mit dem man versucht mit dem Lockwort Parallelität (geile geile schnell schnell) die Bauern wieder anzulocken um etwas mit großem Aufwand zu verkaufen, was man damals auch schon bekam und das sogar schneller. Denn datenzentrisch zu arbeiten bedeutete klassisch direkt auf Datenbanken zu arbeiten, die selber in der Lage sind, parallele Stränge abzuarbeiten, indem man partitioniert.

CPU Leistung auf einem Rechenknoten ist heute kein Thema mit 64 oder mehr Cores. Die eigentliche Herausforderung damals wie heute ist Datendurchsatz (damals bekannt als Fan-IN/OUT), und da kann man vortrefflich mit klassischen SQL Datenbanken hantieren.

Eines habe ich schnell gemerkt, die Leute die mir H2 und Konsorten vor zelebrierten, versuchten mit Features als neu zu verkaufen, die ich lange schon nutzen konnte. Und noch etwas zeichnete diese Evangelisten der Demenz aus: Die hatten alle keine Ahnung von SQL und waren fest der Meinung, dass Netzwerkkommunikation keine Latenzen/Kosten verursacht.

Bewerten
- +
Ansicht umschalten