Direkt zu


Informationen für Studierende

zur Startseite

Bachelorarbeit

Untersuchung der Auswirkungen von Autoencodern auf Datenanalyseprozesse
Projekt Interactive Rapid Analytic Concepts
Betreuer M.Sc. Manuel Fritz
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende29.11.2019
Beschreibung

Motivation

Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Durch technologische Entwicklungen, wie z. B. IoT oder Industrie 4.0, ist ein steigendes Wachstum an Datenmengen zu beobachten. Um aus den gespeicherten Daten Wissen zu generieren, existieren diverse Analysealgorithmen, wie z. B. Verfahren zur Klassifikation oder zum Clustering.

Da diese Analysealgorithmen eine hohe Komplexität aufweisen, werden insbesondere auf großen Datensätzen lange Laufzeiten beobachtet. Um diese Laufzeiten bei möglichst gleichbleibender Qualität des Resultates zu reduzieren, werden häufig Datenreduktionsmaßnahmen vor dem Ausführen der Analysealgorithmen durchgeführt. Durch diese Datenreduktionsmaßnahmen werden entweder die Anzahl der Entitäten (Sampling) [1] oder auch die Anzahl an Dimensionen (Dimensionsreduktion) [2] reduziert.

Bisherige Arbeiten fokussieren sich zumeist auf das Sampling, da hier die Anzahl an Entitäten in einem Datensatz reduziert wird. Jedoch erfahren besonders bei Big-Data-Problemen auch die große Anzahl an Dimensionen besondere Beobachtung, da ggf. nicht jede Dimension notwendig ist, um eine belastbare Analyse durchzuführen.

Ziele

Im Rahmen dieser Arbeit soll untersucht werden, inwiefern Autoencoder verwendet werden können, um eine kompakte Repräsentation der Datensätze zu erstellen und inwiefern sich diese Repräsentation der Daten auf anschließende Analysealgorithmen auswirkt.

Autoencoder entstammen dem Bereich des Deep Learnings und können als Dimensionsreduktionsverfahren verwendet werden [3]. Dabei werden neuronale Netze mit diversen Neuronen auf mehreren Schichten verwendet, um eine kompakte Repräsentation (= Encoding) des Datensatzes zu erlernen. Anschließend kann dieses Encoding anstatt des gesamten Datensatzes für weitere Analyseschritte, wie die oben genannten Analysealgorithmen, verwendet werden.

Folglich soll in dieser Arbeit zunächst die Funktionsweise von Autoencodern genauer untersucht werden. Anschließend sollen ausgewählte Architekturen von Autoencodern identifiziert und auf geeigneten Ausführungsumgebungen umgesetzt werden. Letztlich soll untersucht werden, inwiefern das Encoding der Autoencoder hinsichtlich der Laufzeit und der resultierenden Genauigkeit der Analysealgorithmen im Rahmen eines Datenanalyseprozesses verwendet werden können.

Die Arbeit umfasst dazu folgende Aufgaben:

  • Literaturstudium zu Autoencodern
  • Identifizierung von geeigneten Architekturen für Autoencoder
  • Identifizierung von geeigneten Ausführungsumgebungen
  • Prototypische Implementierung
  • Evaluation hinsichtlich Performanz und Laufzeit
  • Präsentation der Zwischenergebnisse in einem Vortrag
  • Präsentation der Ergebnisse in einem Vortrag

Voraussetzungen

  • Erste Erfahrungen mit Data-Mining-Algorithmen
  • Solide Programmierkenntnisse in Python
  • Starkes Interesse an Data Science

Literatur

[1] O. Bachem, M. Lucic, and S. Lattanzi, “One-Shot Coresets: The Case of k-Clustering,” in International Conference on Artificial Intelligence and Statistics (AISTATS), 2018.
[2] S. Wold, K. Esbensen, and P. Geladi, “Principal component analysis,” Chemometrics and intelligent laboratory systems, vol. 2, no. 1-3, pp. 37–52, 1987.
[3] G. E. Hinton and R. R. Salakhutdinov, “Reducing the dimensionality of data with neural networks.” Science, vol. 313 5786, pp. 504–7, 2006.