Enorme Datenmengen und schnelle Datenverfügbarkeit ist eine technische Herausforderung für datengetriebene Unternehmen. Je größer die Datenmenge, umso teurer die Speicherung und langsamer die Datenverarbeitung. Hadoop verspricht die Lösung dieses Big Data Problems: intensive Rechenprozesse mit riesigen Datenmengen werden auf Computercluster verteilt, um ein schnelleres und stabileres Arbeiten zu ermöglichen.


Distributed File System

Datenverteilung mit dem Hadoop Distributed File System (HDFS) ermöglicht einen hohen Datendurchlauf

YARN Ressourcenmanagement

Yet Another Resource Negotiator (YARN) ermöglicht Job-Scheduling und Cluster Ressourcen Management

Parallele Datenprozessierung

MapReduce Parallelprozessierung durch Zerstückelung und Verteilung großer Datenmengen zur Bearbeitung an unterschiedliche Stellen


Hadoop ist ein freies Framework von Apache. Hadoop bietet für Unternehmen, die mit riesigen Datenmengen umgehen, eine entsprechende Lösung, um große Datenmengen schnell zu verarbeiten. Auf Basis des MapReduce-Algorithmus hat Douglass Cutting eine Open Source Suchmaschine entwickeln wollen, die allen zur Verfügung stehen kann. Hadoop ist als Lösung auf die drei großen V zu verstehen: Datenvielfalt (Variety), Datenmenge (Volumen) und Zugriffsgeschwindigkeit (Velocity).

Das Open-Soure-Framework Hadoop kann individuell programmiert werden. Im Grundverständnis dient es dazu eine Vielzahl von Rechnern zu Clustern zusammenzufassen, um riesige Datenmengen zu speichern und mit rasanter Geschwindigkeit zu bearbeiten. Die Geschwindigkeit ergibt sich aus der Nutzung der Knotenpunkte im Cluster, die anwenderbasiert für die jeweilige Aufgabe in ihrer Kapazität berechnet werden. In der Basisversion besteht Hadoop aus vier Komponenten (Hadoop Common, Hadoop DFS/ HDFS, Map-Reduce und YARN). Den Kern der Anwendung bildet der MapReduce Algorithmus. Er sorgt für eine Zerstückelung der Rechenaufgaben, die an unterschiedliche Stellen zur Bearbeitung geleitet werden. In einem Zwischenschritt werden die Ergebnisse zusammengeführt und anschließend in der Reduce Phase ausgewertet.

Vorteile von Hadoop

Unkomplizierte Datenspeicherung

Daten können einfach abgespeichert und auch in großen Mengen in Clustern verteilt werden

Schnelle Datenverarbeitung

Die Datenverarbeitung wird durch die Verteilung der Daten über große Cluster vereinfacht und beschleunigt.

Effiziente Datenauswertung

Dank der parallelen Verarbeitung der Daten sparen Unternehmen bei Auswertungen viel Zeit.

Big Data

Kombination von MapReduce-Algorithmus und YARN ermöglicht Datenverarbeitung im Petabyte Bereich (über 1 Million Gigybyte)

Datenkompression

Die Kompression in verschiedenen möglichen Formaten führt zu einer optimalen Speicher- und Ressourcennutzung.

Transparente Dateiformatunterstützung

Hadoop unterstützt strukturierte und unstrukturierte Dateiformate wie Textformate (.csv oder .json) oder tabellarische Formate (-orc und parquet).



Haben Sie Fragen zu Open Source Produkten?
Wir beraten Sie gerne