Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der
multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-
Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter
erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern
der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse
einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte
erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer
möglich.
In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den
Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für
Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.
Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze
Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.
Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der
Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie
Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit
hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen
mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen
mit dem Analysieren eines Bildes kombiniert werden müssen.
Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene
Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das
Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen
übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera
gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die
Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der
Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,
Unterhaltungselektronik und Sicherheit.
Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.
Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt
somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung
und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der
Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.
Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs
akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.
Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden
Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.
Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt
Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht
und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter
verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.
Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit
dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend
werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule
Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche
Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und
Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.
Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen
Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die
Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open
Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.
Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der
multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-
Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter
erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern
der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse
einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte
erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer
möglich.
In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den
Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für
Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.
Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze
Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.
Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der
Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie
Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit
hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der
multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-
Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter
erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern
der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse
einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte
erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer
möglich.
In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den
Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für
Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.
Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze
Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.
Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der
Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie
Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit
hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen
mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen
mit dem Analysieren eines Bildes kombiniert werden müssen.
Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene
Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das
Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen
übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera
gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die
Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der
Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,
Unterhaltungselektronik und Sicherheit.
Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.
Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt
somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung
und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der
Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.
Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs
akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.
Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden
Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.
Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt
Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht
und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter
verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.
Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit
dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend
werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule
Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche
Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und
Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.
Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen
Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die
Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open
Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.
Peinl, René (2025)
c't - Magzin für Computertechnik 2025 (2), S. 120-125.
Große Sprachmodelle wie ChatGPT benötigen große und teure Server und
viel Energie. Man kann sie aber quantisieren, sodass sie mit viel
weniger Speicher und Strom auskommen und sogar lokal auf einem
Smartphone laufen. Wir erklären, warum quantisierte Modelle viel
schneller antworten und trotzdem fast so schlau sind wie die großen
Originale.
Komprimierte KI - Wie Quantisierung große Sprachmodelle verkleinert
Peinl, René (2024)
c't Magazin für Computertechnik 2024 (23), S. 130-132.
Roboter, die autonom und flexibel arbeiten, könnten in Zukunft im
Haushalt helfen. Um ihre Schritte zu planen, brauchen sie künstliche
Intelligenz. Generative Sprachmodelle sollen dafür nicht nur Sätze oder
Programmcode schreiben, sondern die Abläufe auch strukturieren.Die innere Stimme - Wenn der Chatbot den Roboter steuert.
Peinl, René (2024)
c't Magazin für Computertechnik 2024 (11), S. 52-56.
Kaum hat sich der Mensch an Text- und Bildgeneratoren gewöhnt,
veröffentlichen OpenAI, Google, Microsoft und Meta ihre multimodalen
Modelle, die beide Welten vereinen. Das ermöglicht praktischen
KI-Anwendungen und sogar Robotern ein umfassenderes Verständnis der
Welt.
Mit allen Sinnen - Multimodale KIs kombinieren Bild und Text.
Peinl, René; Wirth, Johannes (2024)
International Journal on Natural Language Computing (IJNLC) 2024 (1).
Large language models (LLMs) have garnered significant
attention, but the definition of “large” lacks clarity. This paper focuses on
medium-sized language models (MLMs), defined as having at least six billion
parameters but less than 100 billion. The study evaluates MLMs regarding
zero-shot generative question answering in German and English language, which
requires models to provide elaborate answers without external document
retrieval (RAG). The paper introduces an own test dataset and presents results
from human evaluation. Results show that combining the best answers from
different MLMs yielded an overall correct answer rate of 82.7% which is better
than the 60.9% of ChatGPT. The best English MLM achieved 71.8% and has 33B
parameters, which highlights the importance of using appropriate training data
for fine-tuning rather than solely relying on the number of parameters. The
best German model also surpasses ChatGPT for the equivalent dataset. More
fine-grained feedback should be used to further improve the quality of answers.
The open source community is quickly closing the gap to the best commercial
models.Evaluation of Medium-Sized Language Models in German and English Language
Open Access
Peinl, René (2023)
c't - Magazin für Computertechnik 2023 (26), S. 50-55.
Eine Zeitlang kannte die Parameterzahl großer Sprachmodelle nur eine Richtung: steil nach oben. Mehr Parameter bedingen mehr und hochwertigere Fähigkeiten, so die Überzeugung. Doch 2023 schlug die Stunde der mittelgroßen SprachKIs: Sie sind genügsam – und erstaunlich konkurrenzfähig. In mancher Disziplin rücken sie erstaunlich nahe an GPT-4 mit seinen kolportierten 1,8 Billionen Parametern heran. Damit tut sich ein riesiges Potenzial auf – auch für kleinere und mittelgroße Unternehmen, die mit eigenen Anwendungen liebäugeln. Wir erklären, was die schlanken Verwandten der Giganten können, was sie so effizient macht und wie die Zukunft der Sprachmodelllandschaft aussehen könnte.Klein aber fein - Wie kompakte Sprachmodelle die Giganten herausfordern
Zöllner, Michael; Krause, Moritz (2023)
iWOAR 2023 - 8th international Workshop on Sensor-Based Activity Recognition and Artificial Intelligence.
Understanding acceleration forces and making progress in learning Skateboarding is a process of trial and error. In our paper we are describing our preliminary experiments for describing the complex interactions while pushing for speed in ramps and pump tracks. Therefore, we capture and visualize the body movement, the joint relations from hip to ankle and the resulting forces by joining iner- tial sensors on the skateboard and camera-based machine learning pose estimation of the athlete.Preliminary studies of measuring skateboarding forces by combining inertial sensors and camera-based pose estimation.
DOI: 10.1145/3615834.3615856
Peer Reviewed
Peinl, René; Haberl, Armin; Baernthaler, Jonathan; Chouguley, Sarang; Thalmann, Stefan (2024)
Peinl, René; Haberl, Armin; Baernthaler, Jonathan; Chouguley, Sarang...
SIGSDA Symposium at the International Conference on Information Systems 2024. Bangkok, Thailand.
Literature reviews play a crucial role in Information Systems (IS) research. However, scholars have expressed concerns regarding the reproducibility of their results and the quality of documentation. The involvement of human reproducers in these reviews is often hindered by the time-consuming nature of the procedures. The emergence of Large Language Models (LLMs) seems promising to support researchers and to enhance reproducibility. To explore this potential, we conducted experiments using various LLMs, focusing on abstract scanning, and have presented initial evidence suggesting that the application of LLMs in structured literature reviews could assist researchers in refining and formulating rules for abstract scanning. Based on our preliminary findings, we identify potential future research directions in this research in progress paper.Using LLMs to Improve Reproducibility of Literature Reviews.
Open Access
Peer Reviewed
Peinl, René; Wirth, Johannes (2023)
11th International Conference on Artificial Intelligence and Applications (AIAP) 2023.
Large language models (LLMs) have garnered significant attention, but the
definition of "large" lacks clarity. This paper focuses on medium-sized
lan-guage models (MLMs), defined as having at least six billion parameters but
less than 100 billion. The study evaluates MLMs regarding zero-shot genera-tive
question answering, which requires models to provide elaborate answers without
external document retrieval. The paper introduces an own test da-taset and
presents results from human evaluation. Results show that combin-ing the best
answers from different MLMs yielded an overall correct answer rate of 82.7%
which is better than the 60.9% of ChatGPT. The best MLM achieved 46.4% and has
7B parameters, which highlights the importance of using appropriate training
data for fine-tuning rather than solely relying on the number of parameters.
More fine-grained feedback should be used to further improve the quality of
answers.
Evaluation of medium-large Language Models at zero-shot closed book generative question answering
Open Access
Peer Reviewed