Direkt zu


Informationen für Studierende

zur Startseite

Bachelorarbeit

Umsetzung anwendungsspezifischer ETL-Prozesse im Data Lake
Betreuer M.Sc. Corinna Giebler
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende2019/02/12
Beschreibung

Ausgangssituation

Die Verarbeitung von Daten, die im Zuge der zunehmenden Digitalisierung gesammelt werden, birgt für Organisationen einen enormen Mehrwert und Wettbewerbsvorteil [1]. Für die Speicherung dieser Daten wird ein entsprechendes Konzept benötigt, das die spätere Verwendung erleichtert [2] (z.B. ein Data Lake [3]). Oft wird für die Umsetzung eines solchen Konzepts das Hadoop Distributed File System1 (HDFS) verwendet, da hier beliebige Daten gespeichert werden können. Die Literatur empfiehlt allerdings, für jeden Anwendungsfall eine dedizierte Technologien zu verwenden [2], [4] und die Daten entsprechend aufzubereiten [5]. Allerdings bietet die Literatur kaum Anhaltspunkte zur Umsetzung eines solchen anwendungsfallabhängigen Speicherungskonzepts [3].

Ziel und Aufgabenstellung

Ziel dieser Arbeit ist es, mögliche Umsetzungen dieser anwendungsfallspezifischen Datenverwaltung zu betrachten. Dabei soll das HDFS als Ausgangspunkt für die allgemeine Speicherung verwendet werden. Mehrere Anwendungsfälle sollen betrachtet und auf ihre Speicherungs- und Verwaltungsanforderungen hin untersucht werden, um anschließend eine passende Big Data Speicherungstechnologie – Document Store (z.B. MongoDB1), Wide-Column Store (z.B. HBase2), Graphdatenbank (z.B. Neo4J3) – auszuwählen. In einem Prototypen sollen die Daten dann vom HDFS in die entsprechende Infrastruktur überführt werden.

Zu bearbeitende Teilaufgaben

  • Erarbeitung mehrerer Anwendungsfälle
  • Untersuchung der Anforderungen der Anwendungsfälle an Datenhaltung
  • Analyse verschiedener Speicherungssysteme (Document Store, Wide-Column Store, Graphdatenbank) im Hinblick auf die Anforderungen und Auswahl für die Umsetzung
  • Konzeption passender ETL Prozesse von HDFS in die jeweiligen Systeme
  • Prototypische Implementierung dieser ETL Prozesse
  • Vorstellung der Ergebnisse in einem wissenschaftlichen Vortrag

Organisatorisches

Art der Arbeit

Bachelorarbeit

Titel

Umsetzung anwendungsspezifischer ETL-Prozesse im Data Lake

Englischer Titel

Realizing use-case-specific ETL processes in the Data Lake

Betreuer

Corinna Giebler M.Sc. Informatik

Prüfer

PD Dr. Holger Schwarz

 

Literatur

[1] J. C. Margulies, “Data as Competitive Advantage,” Winterberry Gr., no. October, pp. 1–28, 2015.

[2] C. Gröger and E. Hoos, “Ganzheitliches Metadatenmanagement im Data Lake: Anforderungen, IT-Werkzeuge und Herausforderungen in der Praxis,” in Proceedings der 18. Fachtagung Datenbanksysteme für Business, Technologie und Web (BTW), 2019.

[3] C. Giebler, C. Gröger, E. Hoos, H. Schwarz, and B. Mitschang, “Leveraging the Data Lake - Current State and Challenges,” in Proceedings of the 21st International Conference on Big Data Analytics and Knowledge Discovery (DaWaK 2019), 2019.

[4] J. Dixon, “Data Lakes Revisited,” 2014. [Online]. Available: https://jamesdixon.wordpress.com/2014/09/25/data-lakes-revisited/. [Accessed: 01-Mar-2018].

[5] M. Madsen, “How to Build an Enterprise Data Lake: Important Considerations before Jumping In,” Third Nat. Inc., 2015.