M4-SKI - Multi-modale Mensch-Maschine-Schnittstelle mit KI

Multi-modale Mensch-Maschine-Schnittstelle mit KI

Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen

mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen

mit dem Analysieren eines Bildes kombiniert werden müssen.

Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene

Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das

Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen

übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera

gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die

Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der

Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,

Unterhaltungselektronik und Sicherheit.

Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.

Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt

somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung

und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der

Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.

Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs

akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.

Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden

Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.

Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt

Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht

und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter

verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.

Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit

dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend

werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule

Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche

Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und

Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.

Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen

Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die

Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open

Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.

Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen

mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen

mit dem Analysieren eines Bildes kombiniert werden müssen.

Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene

Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das

Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen

übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera

gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die

Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der

Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,

Unterhaltungselektronik und Sicherheit.

Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.

Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt

somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung

und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der

Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.

Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs

akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.

Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden

Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.

Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt

Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht

und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter

verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.

Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit

dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend

werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule

Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche

Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und

Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.

Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen

Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die

Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open

Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.

Die innere Stimme - Wenn der Chatbot den Roboter steuert.

Peinl, René (2024)

c't Magazin für Computertechnik 2024 (23), S. 130-132.


 

Roboter, die autonom und flexibel arbeiten, könnten in Zukunft im Haushalt helfen. Um ihre Schritte zu planen, brauchen sie künstliche Intelligenz. Generative Sprachmodelle sollen dafür nicht nur Sätze oder Programmcode schreiben, sondern die Abläufe auch strukturieren.

more

Mit allen Sinnen - Multimodale KIs kombinieren Bild und Text.

Peinl, René (2024)

c't Magazin für Computertechnik 2024 (11), S. 52-56.


 

Kaum hat sich der Mensch an Text- und Bildgeneratoren gewöhnt, veröffentlichen OpenAI, Google, Microsoft und Meta ihre multimodalen Modelle, die beide Welten vereinen. Das ermöglicht praktischen KI-Anwendungen und sogar Robotern ein umfassenderes Verständnis der Welt.

more

Evaluation of Medium-Sized Language Models in German and English Language

Peinl, René; Wirth, Johannes (2024)

International Journal on Natural Language Computing (IJNLC) 2024 (1).


Open Access
 

Large language models (LLMs) have garnered significant attention, but the definition of “large” lacks clarity. This paper focuses on medium-sized language models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot generative question answering in German and English language, which requires models to provide elaborate answers without external document retrieval (RAG). The paper introduces an own test dataset and presents results from human evaluation. Results show that combining the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best English MLM achieved 71.8% and has 33B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. The best German model also surpasses ChatGPT for the equivalent dataset. More fine-grained feedback should be used to further improve the quality of answers. The open source community is quickly closing the gap to the best commercial models.

more

Klein aber fein - Wie kompakte Sprachmodelle die Giganten herausfordern

Peinl, René (2023)

c't - Magazin für Computertechnik 2023 (26), S. 50-55.


 

Eine Zeitlang kannte die Para­meterzahl großer Sprachmodel­le nur eine Richtung: steil nach oben. Mehr Parameter bedingen mehr und hochwertigere Fähig­keiten, so die Überzeugung. Doch 2023 schlug die Stunde der mittelgroßen Sprach­KIs:  Sie sind genügsam – und  erstaunlich konkurrenzfähig. In mancher Disziplin rücken sie erstaunlich nahe an GPT-4 mit seinen kolportierten 1,8 Billionen Parametern heran. Damit tut sich ein riesiges Potenzial auf – auch für kleinere und mittelgroße Unternehmen, die mit eigenen  Anwendungen  liebäugeln.  Wir erklären, was die schlanken Verwandten der Giganten können, was sie so effizient macht und wie die Zukunft der Sprachmodelllandschaft aussehen könnte.

more

Preliminary studies of measuring skateboarding forces by combining inertial sensors and camera-based pose estimation.

Zöllner, Michael; Krause, Moritz (2023)

iWOAR 2023 - 8th international Workshop on Sensor-Based Activity Recognition and Artificial Intelligence.
DOI: 10.1145/3615834.3615856


Peer Reviewed
 

Understanding acceleration forces and making progress in learning Skateboarding is a process of trial and error. In our paper we are describing our preliminary experiments for describing the complex interactions while pushing for speed in ramps and pump tracks. Therefore, we capture and visualize the body movement, the joint relations from hip to ankle and the resulting forces by joining iner- tial sensors on the skateboard and camera-based machine learning pose estimation of the athlete.

more

Using LLMs to Improve Reproducibility of Literature Reviews.

Peinl, René; Haberl, Armin; Baernthaler, Jonathan; Chouguley, Sarang...

SIGSDA Symposium at the International Conference on Information Systems 2024. Bangkok, Thailand.


Open Access Peer Reviewed
 

Literature reviews play a crucial role in Information Systems (IS) research. However, scholars have expressed concerns regarding the reproducibility of their results and the quality of documentation. The involvement of human reproducers in these reviews is often hindered by the time-consuming nature of the procedures. The emergence of Large Language Models (LLMs) seems promising to support researchers and to enhance reproducibility. To explore this potential, we conducted experiments using various LLMs, focusing on abstract scanning, and have presented initial evidence suggesting that the application of LLMs in structured literature reviews could assist researchers in refining and formulating rules for abstract scanning. Based on our preliminary findings, we identify potential future research directions in this research in progress paper.

more

Evaluation of medium-large Language Models at zero-shot closed book generative question answering

Peinl, René; Wirth, Johannes (2023)

11th International Conference on Artificial Intelligence and Applications (AIAP) 2023.


Open Access Peer Reviewed
 

Large language models (LLMs) have garnered significant attention, but the definition of "large" lacks clarity. This paper focuses on medium-sized lan-guage models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot genera-tive question answering, which requires models to provide elaborate answers without external document retrieval. The paper introduces an own test da-taset and presents results from human evaluation. Results show that combin-ing the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best MLM achieved 46.4% and has 7B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. More fine-grained feedback should be used to further improve the quality of answers.

more


Projektleitung

Teilprojektleitung


Project duration

2023-03-01 - 2027-02-28

Funding programme

EFRE Bayern 2021-2027 Förderung des Technologietransfers von Hochschulen in KMU