Apache Hadoop

Neueste Artikel zum Thema

Ein symbolisches Schild mit einer Updateerinnerung.

AlertApache Hadoop: Fehler im HDFS-Native-Client lässt Schadcode passieren

Das Framework Apache Hadoop ist verwundbar. Attacken können im Kontext des HDFS-Dateisystems geschehen. Ein Sicherheitspatch ist verfügbar.

Podcast "Techtiefen": Big Data auf Kubernetes mit Stackable

Für diese Podcast-Episode hat sich Nico Kreiling Lars Francke eingeladen. Sie schauen auf frühere Hadoop-Zeiten und moderne Datenverarbeitung.

heise+ Jubiläumsspecial

Sichern Sie sich unser exklusives Aktionsangebot: heise+ 7 Monate für 7 € pro Monat lesen und zusätzlich zu allen Inhalten auf heise online unsere Magazin-Inhalte entdecken. Nur für kurze Zeit!

SQL-Engine: Apache Drill 1.20 abwärtskompatibel zu Hadoop 2

Apache Drill bringt eine Rückportierung zu Hadoop 2 und eine Anbindung an die Datenbank-Engine Apache Phoenix. Auch neue Dateiformate sind nun möglich.

Big Data: Apache NiFi 1.14 arbeitet sicherer

Das Update der Plattform zur Datenflussautomatisierung legt den Fokus auf sichere Grundeinstellungen und bietet erweiterte Security-Optionen.

Hadoop: Apache Impala 4.0 mit erweitertem Multithreading

Das neue Release der analytischen Datenbank sieht einige Änderungen bei Authentifizierung und Autorisierung vor, darunter die Integration mit Apache Knox.

Fast Data: Apache Kudu 1.15 verabschiedet sich von älteren Python-Versionen

Der Open-Source-Datenspeicher stellt den Support für ältere Python-Versionen ein und bringt Neuerungen für Kudu-Tabellen.

Hadoop-Pionier Cloudera will sich abseits der Börse neu positionieren

Die Private-Equity-Firmen KKR und Clayton, Dubilier & Rice sollen Cloudera den Weg zu mehr Kunden und produktgetriebenem Wachstum weisen.

Apache Software Foundation räumt beim großen Frühjahrsputz auf

Die ASF hat zahlreiche Projekte endgültig in den Ruhestand geschickt. Apache Falcon benötigte knapp zwei Jahre für den Weg auf den Dachboden.

Apache Atlas 2.1 bietet verbesserte Entity-Verwaltung dank Labels

Das Governance- und Metadaten-Framework für Hadoop liegt in Version 2.1 vor, mit Verbesserungen bei der Suche und Performance.

Apache Software Foundation erhebt Apache Hudi zum Top-Level-Projekt

Apache Software Foundation erhebt Hudi zum Top-Level-Projekt

Apache Hudi, ein Tool zum Verwalten großer Datenströme, hat die Bewährungsphase im Apache Incubator abgeschlossen.

Realtime Data Mining mit Apache Kafka und Samza

Mit Apache Samza lassen sich komplexe Daten-Pipelines aufbauen. Data-Mining-Tasks innerhalb der Verarbeitungskette fördern nebenbei manche Entdeckung zutage.

Hadoop-Cluster in der Cloud und on Premises

Für die Verarbeitung großer Datenmengen eignet sich das Hadoop-Ökosystem. Ein unabhängiger Provisionierungsmechanismus erhöht die Flexibilität im Cloud-Einsatz.

Große Datenmengen im Griff: Massiv Parallel Processing versus Hadoop

Mit Massiv Parallel Processing und dem Hadoop-Framework stehen zwei Ansätze bereit, die den Anforderungen von Big-Data-Anwendungen gewachsen sind. Beide unterscheiden sich in der Natur ihrer Hardware und Software, lassen sich aber zu leistungsfähigen hybriden Big-Data-Architekturen kombinieren.

Big Data: das Ende vom Hype und der Anfang vom Business

Nachdem die Gartner-Analysten den Hype-Zyklus rund um das Thema Big Data für beendet erklärt haben, stellt sich nun die Frage, warum Big Data in Deutschland weiterhin ein Akzeptanzproblem hat: Ist das Thema etwa doch nicht erwachsen genug oder wird einfach die Relevanz nicht gesehen?

Benchmarking Spark: Wie sich unterschiedliche Hardware-Parameter auf Big-Data-Anwendungen auswirken

Dank leistungsfähiger Hadoop-Distributionen ist es einfach geworden, ein komplettes Hadoop/Spark-Cluster in der Cloud zu installieren. Schwieriger wird es jedoch, die optimale Konfiguration der virtualisierten Cloud-Hardware für den jeweiligen Anwendungsfall zu finden, denn unterschiedliche Hardwarekonfigurationen können sich sehr wohl auf das Verhalten von Spark-Anwendungen im Cluster-Betrieb auswirken.

Kommentar: Big Data vor der Marktdurchdringung – oder auch nicht

Vor ein paar Jahren sagte man noch, dass Big Data wie Sex-Gespräche unter Teenagern sei: Alle sprechen darüber, viele wollen es erleben, doch niemand weiß wie es geht. Diese Punkte haben sich zunehmend geändert.

Neues von Apache

Über 400 Teilnehmer trafen sich im November auf der ApacheCon North America, um über den bekannten Webserver, aktuelle Technologien wie Hadoop und Lucene, das Data Grid Framework OODT sowie Business- und Community-Aspekte von Open Source zu diskutieren.

Verarbeiten großer verteilter Datenmengen mit Hadoop, ein Beispiel

heise Developer führt in die Programmierung von MapReduce-Anwendungen mit Hadoop ein, indem beispielhaft ein MapReduce-Job entwickelt wird, auf dessen Grundlage sich erste eigene Jobs umsetzen lassen.

Verarbeiten großer verteilter Datenmengen mit Hadoop

Internetfirmen müssen für den Betrieb ihrer Dienste täglich Datenmengen im Giga- und Petabereich speichern und effizient verarbeiten. Den Part der Datenverarbeitung können Googles MapReduce oder die Open-Source-Nachbildung Hadoop übernehmen.

Das Web in einer Tabelle

Ein neues Software-Werkzeug von IBM sammelt, analysiert und visualisiert große Datenbestände aus dem Internet.