Direkt zu


Informationen für Studierende

zur Startseite

Bachelorarbeit

Ein Softwareframework zum Vergleich von Machine Learning Modellen
Betreuer M.Sc. Christian Weber
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende11.12.2019
Beschreibung

Hintergrund

Im Moment werden Modelle des maschinellen Lernens auf Basis ihrer Metriken miteinander verglichen, um herauszufinden, welches Modell die genauesten Ergebnisse für Prognosen liefert. Metriken sind z.B. Classification Accuracy, Logarithmic Loss, Confusion Matrix, Area under Curve, F1 Score, Mean Absolute Error und Mean Squared Error. Nachdem ein Modell mit der gewünschten Prognosegüte gefunden ist, kann dieses in Betrieb genommen werden und z.B. mittels eines Webservice für Applikationen zur Verfügung gestellt werden. Mit der Zeit werden neue Daten erzeugt, die neue als auch geänderte Muster aufweisen, wodurch die Modelle angepasst werden müssen. Dabei entsteht mit jedem erneuten Trainieren eine neue Modellversion. Auch wenn die Metrik besser ist als bei der letzten Version kann diese z.B. durch eine unausgewogene Klassenverteilung verfälscht sein. Wenn dann falsche Vorhersagen gemacht werden, müssen tiefergehende Vergleiche zwischen einzelnen Modellversionen durchgeführt werden. So müssen z.B. Änderungen in der Struktur der Modelle identifiziert werden, die zu möglichen falschen Vorhersagen führen. Dieser Vergleich kann in Einzelfällen händisch durchgeführt werden. Wenn Modelle jedoch häufig auf neue Modellversionen aktualisiert werden, kann diese Aufgabe ohne entsprechendes Werkzeug schwierig werden.

Ziele und Aufgabenstellung

In dieser Arbeit soll ein Software-Framework entwickelt werden, das es ermöglicht, Modelle aus dem Repository einer Modellverwaltungsplattform automatisiert miteinander zu vergleichen. Dazu sollen verschiedene Methoden von [WMR+03,Boe11,DB13] erprobt und dann in das Software-Framework integriert werden. Da das Software-Framework Vergleiche zwischen Modellen des maschinellen Lernens auf Basis des standardisierte Datenformat PMML ermöglichen soll, müssen verschiedene Daten aus PMML-Dateien mittels eines XML-Parsers extrahiert werden. Da verschiedene Ansätze für Vergleiche implementiert werden sollen, ist eine geeignete Software-Architektur zu verwenden (z.B. eine Microservice-Architektur). Diese soll es erlauben, die verschiedenen Ansätze flexibel zu einer übergeordneten Vergleichsfunktion zu kombinieren. Für die spätere Evaluierung sollen beispielhaft verschiedene Vergleichsfunktionen erstellt werden.

Konkrete Aufgaben:

  • Erarbeitung der Grundlagen, Stand der Wissenschaft und Technik, z.B. aus den Bereichen Change Mining [WMR+03] und Contrast Data Mining [Boe11, DB13]
  • Erstellung von Use Cases, die einen Vergleich von ML-Modellen erforderlich machen
  • Implementierung der bestehenden Methoden und Integration des Software-Frameworks in die Modellverwaltungsplattform
  • Evaluierung des Prototyps anhand der Use Cases

Anforderungen

  • Studiengang Informatik, Softwaretechnik
  • Grundkenntnisse aus diesen Vorlesungen sind von Vorteil:
    • Architektur von Anwendungssystemen
    • Introduction to Machine Learning

Literatur

[WMR+03]

Wang, K., Zhou, S., Fu, C.A., Yu, J.X.: Mining Changes of Classification by Correspondence Tracing. In: Proceedings of the 2003 SIAM International Conference on Data Mining (2003)

[Boe11]

Boettcher, M.: Contrast and change mining. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1(3), 215–230 (2011)

[DB13]

Dong, G., Bailey, J.: Contrast data mining. Concepts, algorithms, and applications. CRC Press, Boca Raton (2013)