M4-SKI - Multi-modale Mensch-Maschine-Schnittstelle mit KI

Multi-modale Mensch-Maschine-Schnittstelle mit KI

Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen

mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen

mit dem Analysieren eines Bildes kombiniert werden müssen.

Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene

Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das

Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen

übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera

gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die

Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der

Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,

Unterhaltungselektronik und Sicherheit.

Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.

Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt

somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung

und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der

Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.

Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs

akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.

Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden

Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.

Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt

Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht

und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter

verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.

Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit

dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend

werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule

Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche

Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und

Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.

Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen

Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die

Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open

Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.