Direkt zu


Informationen für Studierende

zur Startseite

Masterarbeit

Analyse und Übertragung von AutoML-Konzepten für Clustering-Algorithmen
Projekt Interactive Rapid Analytic Concepts
Betreuer M.Sc. Manuel Fritz
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende20.12.2019
Beschreibung

Motivation

Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Durch technologische Entwicklungen, wie z. B. IoT oder Industrie 4.0, ist ein steigendes Wachstum an Datenmengen zu beobachten. Um aus den gespeicherten Daten Wissen zu generieren, existieren diverse Analysealgorithmen, wie z. B. Algorithmen zur Klassifikation oder zum Clustering.

Um belastbare Ergebnissen zu erzielen, werden verschiedene Algorithmen und dazugehörige Parameter ausgeführt. Jedoch weisen Analysealgorithmen typischerweise eine hohe Komplexität auf, was insbesondere in Kombination mit großen Datenmengen zu langen Laufzeiten führt. Somit wird die Exploration nach belastbaren Ergebnissen erschwert.

Im Bereich der überwachten Lernverfahren, zu dem auch die Klassifikation angehört, existieren bereits einige Verfahren, die die Exploration von belastbaren Ergebnissen automatisiert durchführen können [1–3]. Diese automatisierten Explorationsverfahren gehören zum Forschungsbereich um AutoML. Bei AutoML werden erfolgsversprechende Algorithmen und Parameter ausgewählt, welche anschließend ausgeführt und evaluiert werden. Dazu wird vor der Ausführung von AutoML die Qualität von Analysealgorithmen auf verschiedenen Datensätzen gespeichert. Anschließend werden diese Metadaten herangezogen, um eine Lernkurve aufzubauen, welche schrittweise zu belastbaren Ergebnissen für neue Datensätze führen soll.

Insbesondere bei überwachten Lernverfahren kann die Evaluation einfach durchgeführt werden, da die erwarteten Klassen bereits in den Trainings- und Testdatensätzen enthalten sind. Bei unüberwachten Lernverfahren fehlen jedoch diese Informationen, weshalb AutoML nicht ohne Weiteres für unüberwachte Lernverfahren angewandt werden kann.

Ziele

Im Rahmen dieser Arbeit soll untersucht werden, inwiefern Konzepte von AutoML auf unüberwachte Lernverfahren übertragen werden können. Da Clustering ein häufig verwendetes unüberwachtes Lernverfahren ist, steht dies im Fokus dieser Arbeit.

Dazu soll zunächst der allgemeine Ablauf von AutoML-Konzepten untersucht werden. Anschließend soll dargestellt werden, welche Aspekte von AutoML für das Clustering angepasst werden können. Eine anschließende Evaluation soll aufzeigen, welche Ergebnisse und Zeiteinsparungen mit den übertragenen AutoML-Konzepten zur Exploration von belastbaren Clustering-Resultaten zu erzielen sind.

Die Arbeit umfasst dazu folgende Aufgaben:

  • Literaturstudium zu AutoML-Konzepten
  • Identifizierung von relevanten Aspekten für das Clustering
  • Entwicklung des Konzeptes für das Clustering
  • Prototypische Implementierung
  • Evaluation des Konzeptes
  • Präsentation der Zwischenergebnisse in einem Vortrag
  • Präsentation der Ergebnisse in einem Vortrag

Voraussetzungen

  • Erfahrungen mit Data-Mining-Algorithmen, insbesondere mit Clustering- und Klassifikationsalgorithmen
  • Programmierkenntnisse in Python
  • Starkes Interesse an Data Science

Literatur

[1] M. Feurer, A. Klein, K. Eggensperger, J. Springenberg, M. Blum, and F. Hutter, “Efficient and Robust Automated Machine Learning,” Advances in Neural Information Processing Systems 28, pp. 2944–2952, 2015.
[2] L. Kotthoff, C. Thornton, H. H. Hoos, F. Hutter, and K. Leyton-Brown, “Auto-WEKA 2.0: Automatic model selection and hyperparameter optimization in WEKA,” Journal of Machine Learning Research, vol. 17, pp. 1–5, 2016.
[3] F. Hutter, H. H. Hoos, and K. Leyton-Brown, “Sequential model-based optimization for general algorithm configuration,” in Proceedings of the 5th International Conference on Learning and Intelligent Optimization - LION’11, 2011, pp. 507–523.