Direkt zu


Informationen für Studierende

zur Startseite

Masterarbeit

Umfassende Unterstützung des Lebenszyklus von Machine-Learning-Modellen in Model-Management-Systemen
Betreuer M.Sc. Christian Weber
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende01.10.2019
Beschreibung

Motivation & Hintergrund:

Modelle des maschinellen Lernens (ML-Modelle) müssen über Ihren kompletten Lebenszyklus hinweg unterstützt werden. Der Lebenszyklus eines ML-Modells besteht aus den Phasen Plan Model, Build & Test Model, Deploy Model, Use Model, Monitor Model, und Retire Model [WHRS19]. Bedingt durch eine Veränderung in den Daten verschlechtern sich mithilfe eines bereits deployten ML-Modells getroffene Schlussfolgerungen und Vorhersagen. Dadurch muss ein ML-Modell regelmäßig durch Wartungsmaßnahmen aktualisiert oder sogar neu entwickelt werden. Dies führt nach der Deployment-Phase zu Rücksprüngen in vorherige Phasen, wodurch viele Phasen mehrfach durchlaufen werden, bis das ML-Modell final außer Betrieb genommen wird. Dies stellt eine Herausforderung dar, da die Metadaten in den verschiedenen Phasen durch verschiedene Tools und Frameworks erzeugt werden. Für die Speicherung von Metadaten zu allen Phasen des Lebenszyklus werden Model-Management-Systeme [VM18] (MMS) verwendet. Existierende MMS wie z.B. ModelDB[1] und mlFlow[2] fokussieren auf die Phase Build Model. In Zukunft müssen jedoch alle Phasen des Lebenszyklus von MMS unterstützt werden. Deswegen wurde am IPVS in einem studentischen Projekt ein MMS entwickelt, das den kompletten Lebenszyklus von ML-Modellen unterstützen soll. Der momentane Prototyp des MMS enthält ein Repository, um Modelle strukturiert und versioniert abzulegen und mit entsprechenden Metadaten zu beschreiben. Das Training und die operative Ausführung der ML-Modelle sind nicht Teil des MMS und werden durch verteilte Ausführungsplattformen zur parallelen Datenverarbeitung wie z.B. Apache Spark geleistet. Der Prototyp besitzt also einen ähnlichen Funktionsumfang wie bestehende MMS und soll nun um Funktionalitäten zur Unterstützung der restlichen Prozessschritte im Lebenszyklus erweitert werden. Dies betrifft im Besonderen die operative Phase des Modells. Hier ist es wichtig, bereits zur Verfügung stehende Metadaten zu speichern und zusätzliche Metadaten zu erzeugen. Die Verknüpfung der Metadaten aus dem operativen Betrieb mit Metadaten zur Erzeugung des Modells ermöglicht dann neue Szenarien, wie z.B. die Nachvollziehbarkeit von bereits durchlaufenen Prozessschritten im Lebenszyklus. Dadurch können die komplette Prozesshistorie abgebildet und die erzeugten Metadaten pro Prozessschritt erfasst werden.

Aufgaben:

Ziel dieser Arbeit ist die Entwicklung eines Konzepts, das es ermöglicht, Metadaten während des operativen Betriebs zu erzeugen, strukturiert zu speichern und mit Metadaten aus der experimentellen Phase zu verknüpfen. Das Konzept soll das bestehende Metamodell des am IPVS entstandenen MMS erweitern, damit neue Szenarien möglich werden, die lebenszyklusübergreifend sind. Als Beispielsszenario dient die Nachvollziehbarkeit der Prozesshistorie mit sämtlichen erzeugten Metadaten eines Modells. Das Konzept soll durch einen Software-Prototyp evaluiert werden. Dazu muss die Funktionalität des MMS mit neuen Modulen und Schnittstellen erweitert werden.


Die Aufgaben beinhalten:

  • Erarbeitung der Grundlagen, Stand der Wissenschaft und Technik, z.B. aus den Bereichen Model Management [VM18], AI-Ops [HMR+19], Workflowsysteme und Provenance [HDB17]
  • Erstellung und Kategorisierung von Use Cases, die eine umfassende Unterstützung des Lebenszyklus von Machine-Learning-Modellen erforderlich machen.
  • Auswahl geeigneter Use Cases und Ableitung von Anforderungen.
  • Erstellung des Konzepts für das Deployment der Modelle und Integration der entsprechenden Metadaten in die Model-Management-Plattform.
  • Implementierung des Konzepts als Erweiterung des MMS und Evaluierung

Literatur:

[HDB17]

Herschel, M., Diestelkämper, R., Ben Lahmar, H.: A survey on provenance. What for? What form? What from? The VLDB Journal (2017).

[HMR+19]

 

Hummer, W., Muthusamy, V., Rausch, T., Dube, P., El Maghraoui, K.: ModelOps: Cloud-based Lifecycle Management for Reliable and Trusted AI. 2019 IEEE International Conference on Cloud Engineering (IC2E) (2019)

[VM18]

Vartak, M., Madden, S.: MODELDB: Opportunities and Challenges in Managing Machine Learning Models. IEEE Data Eng. Bull. 41, 16–25 (2018)

[WHRS19]

Weber, C., Hirmer, P., Reimann, P., Schwarz, H.: A New Process Model for the Comprehensive Management of Machine Learning Models. Proceedings of the 21st International Conference on Enterprise Information Systems (ICEIS 2019) - Volume 1, 415–422 (2019)