M4-SKI - Multi-modale Mensch-Maschine-Schnittstelle mit KI

Multi-modale Mensch-Maschine-Schnittstelle mit KI

Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen

mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen

mit dem Analysieren eines Bildes kombiniert werden müssen.

Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene

Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das

Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen

übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera

gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die

Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der

Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,

Unterhaltungselektronik und Sicherheit.

Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.

Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt

somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung

und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der

Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.

Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs

akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.

Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden

Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.

Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt

Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht

und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter

verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.

Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit

dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend

werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule

Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche

Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und

Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.

Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen

Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die

Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open

Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.

Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Dieses Projekt unterstützt mittelständische Unternehmen im Bereich der digitalen Transformation. Der Fokus ist dabei das Thema der

multimodalen Mensch-Maschine Schnittstellen und deren Umsetzung mittels künstlicher Intelligenz. Das Thema Mensch-Maschine-

Schnittstelle gewinnt im Rahmen der Digitalisierung immer mehr an Bedeutung. Während z.B. in produzierenden Unternehmen immer öfter

erste Entwicklungen im Rahmen der Industrie 4.0 sichtbar sind, wie dem Vernetzen der Produktionsmaschinen und dem optimierten Steuern

der Abläufe, erhöht sich damit natürlich die Anzahl der intelligenten Systeme, der Daten und der Möglichkeiten steuernd in die Prozesse

einzugreifen. Auch im Bereich der Produkte lässt sich ein stetiger Zuwachs an Digitalisierungskomponenten oder rein digitaler Produkte

erkennen. Bieten diese keine entsprechenden Schnittstellen an, ist eine zielgerichtete Interaktion mit den Systemen nur sehr schwer

möglich.

In den bisherigen Projekten WiMit und Dammit wurden verschiedene Projekte im Bereich der Industrie 4.0 abgewickelt und somit den

Industriepartnern bei der Einführung erster Systeme mit künstlicher Intelligenz geholfen. So wurde beispielsweise Zeitreihenanalysen für

Lagerausgangsdaten gemacht, um zukünftige Lagerbewegungen vorauszusagen und darauf aufbauend die Lagerhaltung zu optimieren.

Mittels Schallanalyse wurde Condition Monitoring für eine Breitbandschleifmaschine realisiert und mittels tiefer neuronaler Netze

Objekterkennung für Ersatzteile realisiert, die sich sehr ähnlich sehen.

Aus dieser Situation heraus wurde die Notwendigkeit einfacherer und intuitiver Mensch-Maschine-Schnittstellen deutlich. Dank der

Entwicklungen im Bereich maschineller Lernverfahren insb. Deep Learning in den letzten Jahren sind viele Aufgaben wie

Spracherkennung und Sprachsynthese, Objekterkennung auf Bildern oder Textklassifizierung in vielen Anwendungsfällen bereits mit

hoher Genauigkeit möglich. Dabei ist jeweils nur eine Modalität betroffen, also Audio, Bilder oder Text. Weiterhin herausfordernd für den Computer zu meistern ist die Verarbeitung mehrerer Modalitäten zusammen, also z.B. das Kombinieren von Spracheingabe zusammen

mit dem Deuten auf Dinge (z.B. „Was für ein Tier ist das?“) oder Visual Question Answering, bei dem das Verständnis textueller Fragen

mit dem Analysieren eines Bildes kombiniert werden müssen.

Allerdings entsprechen diese multimodalen Schnittstellen deutlich mehr der Art der Kommunikation eines Menschen. Gesprochene

Sachverhalte werden durch Gestiken, wie dem Deuten auf Objekte erst eindeutig oder um weitere Informationen angereichert. Durch das

Berücksichtigen mehrerer Modalitäten können also für den Menschen Informationen und Anweisungen einfacher an Maschinen

übermittelt werden. Z.B. könnte innerhalb eines Produktionsprozesses das System genutzt werden, indem ein Bauteil vor eine Kamera

gehalten wird und gefragt „Wie wird dieses Element eingebaut?“. Als Rückmeldung könnte mittels AR oder VR Informationen über die

Einbaulage gezeigt werden und z.B. zusätzlich über Sprache weitere wichtige Hinweise gegeben werden. Neben der

Produktionsflexibilisierung besteht für multimodale Schnittstellen großes Potential in den Bereichen Mobilität, Medizin,

Unterhaltungselektronik und Sicherheit.

Die Integration multimodaler Mensch-Maschine Schnittstellen erhöht insgesamt die Wettbewerbsfähigkeit der Unternehmen erheblich.

Das einfache Abrufen von Informationen und Anweisungen ermöglicht den flexiblen Einsatz von geringer qualifiziertem Personal und tritt

somit dem Fachkräftemangel entgegen. Auf höherer Ebene der Produktion ermöglichen sie beispielsweise eine erschöpfende Erfassung

und Aufbereitung der Daten, sowie eine effiziente Möglichkeit für das Personal in die Prozesse einzugreifen. Die Integration der

Schnittstellen in Produkten schafft einen erheblichen Mehrwert gegenüber Produkten, die aufwendigere Bedienmöglichkeiten aufweisen.

Im Bereich der Dienstleistungen kann das Personal deutlich entlastet werden, wenn beispielsweise virtuelle Agenten multimodale Inputs

akzeptieren und bereits Rückmeldungen zu bestimmten Sachverhalten geben.

Während die Unternehmen hohes Fachwissen in ihrer jeweiligen Domäne besitzen, haben sie in den vorherrschenden

Unternehmensgrößen meistens keine dedizierten Kapazitäten, die sich mit der den notwendigen Technologien zu beschäftigen.

Insbesondere das Thema KI und Machine Learning, welches essentiell für die Umsetzung multimodaler Schnittstellen ist, stellt

Unternehmen regelmäßig vor große Herausforderungen, da es einem vollkommen anderen Paradigma der Softwareerstellung entspricht

und somit weitreichende Änderungen in der Unternehmensstruktur nach sich zieht und entsprechende Kompetenzen der Mitarbeiter

verlangt. Auch die Hardware zum Training eigener Modelle ist schnell mehrere 10.000€ teuer und daher in KMU nicht verfügbar.

Eine Lösung für diese Herausforderung ist das schrittweise Einführen dieser neuen Technologien. Dies geschieht indem zusammen mit

dem Unternehmen Business Cases identifiziert werden, die einen konkreten Nutzen für das Unternehmen darstellen. Anschließend

werden die dafür notwendigen Technologien identifiziert und eine Lösung umgesetzt. Bei der Umsetzung werden neben der Hochschule

Hof auch verschiedene Dienstleister involviert. Mit dieser Strategie wurden bereits in den Projekten WiMit und DAMMIT erfolgreiche

Projekte durchgeführt. Denn das iisys hat in den letzten Jahren hohe Kompetenz darin aufgebaut, die Einsatzmöglichkeiten der neuesten Technologien und deren Grenzen in der konkreten Anwendung darzustellen. Insbesondere in den Bereichen Bild- und

Sprachverarbeitung mit tiefen neuronalen Netzen konnten diverse Anwendungsfälle in unterschiedlichsten Domänen umgesetzt werden.

Von dieser Kompetenz sollen die Unternehmen nun profitieren. Durch die Integration der Dienstleister ist eine Aufweitung der möglichen

Anwendungsfälle in anderen Unternehmen gesichert. Zudem übernehmen diese die Betreuung des Unternehmens über die

Projektlaufzeit hinaus. Die entwickelte Software soll von möglichst vielen Unternehmen genutzt werden können und wird daher als Open

Source Software verbreitet und Veröffentlichungen im Rahmen von Open Access bereitgestellt.

Komprimierte KI - Wie Quantisierung große Sprachmodelle verkleinert

Peinl, René (2025)

c't - Magzin für Computertechnik 2025 (2), S. 120-125.


 

Große Sprachmodelle wie ChatGPT benötigen große und teure Server und viel Energie. Man kann sie aber quantisieren, sodass sie mit viel weniger Speicher und Strom auskommen und sogar lokal auf einem Smartphone laufen. Wir erklären, warum quantisierte Modelle viel schneller antworten und trotzdem fast so schlau sind wie die großen Originale.

more

Die innere Stimme - Wenn der Chatbot den Roboter steuert.

Peinl, René (2024)

c't Magazin für Computertechnik 2024 (23), S. 130-132.


 

Roboter, die autonom und flexibel arbeiten, könnten in Zukunft im Haushalt helfen. Um ihre Schritte zu planen, brauchen sie künstliche Intelligenz. Generative Sprachmodelle sollen dafür nicht nur Sätze oder Programmcode schreiben, sondern die Abläufe auch strukturieren.

more

Mit allen Sinnen - Multimodale KIs kombinieren Bild und Text.

Peinl, René (2024)

c't Magazin für Computertechnik 2024 (11), S. 52-56.


 

Kaum hat sich der Mensch an Text- und Bildgeneratoren gewöhnt, veröffentlichen OpenAI, Google, Microsoft und Meta ihre multimodalen Modelle, die beide Welten vereinen. Das ermöglicht praktischen KI-Anwendungen und sogar Robotern ein umfassenderes Verständnis der Welt.

more

Evaluation of Medium-Sized Language Models in German and English Language

Peinl, René; Wirth, Johannes (2024)

International Journal on Natural Language Computing (IJNLC) 2024 (1).


Open Access
 

Large language models (LLMs) have garnered significant attention, but the definition of “large” lacks clarity. This paper focuses on medium-sized language models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot generative question answering in German and English language, which requires models to provide elaborate answers without external document retrieval (RAG). The paper introduces an own test dataset and presents results from human evaluation. Results show that combining the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best English MLM achieved 71.8% and has 33B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. The best German model also surpasses ChatGPT for the equivalent dataset. More fine-grained feedback should be used to further improve the quality of answers. The open source community is quickly closing the gap to the best commercial models.

more

Klein aber fein - Wie kompakte Sprachmodelle die Giganten herausfordern

Peinl, René (2023)

c't - Magazin für Computertechnik 2023 (26), S. 50-55.


 

Eine Zeitlang kannte die Para­meterzahl großer Sprachmodel­le nur eine Richtung: steil nach oben. Mehr Parameter bedingen mehr und hochwertigere Fähig­keiten, so die Überzeugung. Doch 2023 schlug die Stunde der mittelgroßen Sprach­KIs:  Sie sind genügsam – und  erstaunlich konkurrenzfähig. In mancher Disziplin rücken sie erstaunlich nahe an GPT-4 mit seinen kolportierten 1,8 Billionen Parametern heran. Damit tut sich ein riesiges Potenzial auf – auch für kleinere und mittelgroße Unternehmen, die mit eigenen  Anwendungen  liebäugeln.  Wir erklären, was die schlanken Verwandten der Giganten können, was sie so effizient macht und wie die Zukunft der Sprachmodelllandschaft aussehen könnte.

more

Preliminary studies of measuring skateboarding forces by combining inertial sensors and camera-based pose estimation.

Zöllner, Michael; Krause, Moritz (2023)

iWOAR 2023 - 8th international Workshop on Sensor-Based Activity Recognition and Artificial Intelligence.
DOI: 10.1145/3615834.3615856


Peer Reviewed
 

Understanding acceleration forces and making progress in learning Skateboarding is a process of trial and error. In our paper we are describing our preliminary experiments for describing the complex interactions while pushing for speed in ramps and pump tracks. Therefore, we capture and visualize the body movement, the joint relations from hip to ankle and the resulting forces by joining iner- tial sensors on the skateboard and camera-based machine learning pose estimation of the athlete.

more

VLM@school – Evaluation of AI image understanding on German middle school knowledge

Peinl, René; Tischler, Vincent (2025)

Future Technologies Conference (FTC) 2025, Munich, Germany 2025.


Open Access Peer Reviewed
 

This paper introduces a novel benchmark dataset designed to evaluate the capabilities of Vision Language Models (VLMs) on tasks that combine visual reasoning with subject-specific background knowledge in the German language. In contrast to widely used English-language benchmarks that often rely on artificially difficult or decontextualized problems, this dataset draws from real middle school curricula across nine domains including mathematics, history, biology, and religion. The benchmark includes over 2,000 open-ended questions grounded in 486 images, ensuring that models must integrate visual interpretation with factual reasoning rather than rely on superficial textual cues. We evaluate thirteen state-of-the-art open-weight VLMs across multiple dimensions, including domain-specific accuracy and performance on adversarial crafted questions. Our findings reveal that even the strongest models achieve less than 45% overall accuracy, with particularly poor performance in music, mathematics, and adversarial settings. Furthermore, the results indicate significant discrepancies between success on popular benchmarks and real-world multimodal understanding. We conclude that middle school-level tasks offer a meaningful and underutilized avenue for stress-testing VLMs, especially in non-English contexts. The dataset and evaluation protocol serve as a rigorous testbed to better understand and improve the visual and linguistic reasoning capabilities of future AI systems.


more

Using LLMs as prompt modifier to avoid biases in AI image generators

Peinl, René (2025)

9th International Conference on Advances in Artificial Intelligence (ICAAI 2025), September 11-13, 2025 in Manchester, UK 2025.


Open Access Peer Reviewed
 

This study examines how Large Language Models (LLMs) can reduce biases in text-to-image generation systems by modifying user prompts. We define bias as a model's unfair deviation from population statistics given neutral prompts. Our experiments with Stable Diffusion XL, 3.5 and Flux demonstrate that LLM-modified prompts significantly increase image diversity and reduce bias without the need to change the image generators themselves. While occasionally producing results that diverge from original user intent for elaborate prompts, this approach generally provides more varied interpretations of underspecified requests rather than superficial variations. The method works particularly well for less advanced image generators, though limitations persist for certain contexts like disability representation. All prompts and generated images are available at https://iisys-hof.github.io/llm-prompt-img-gen/


more

Benchmarking Vision Language Models on German Factual Data

Peinl, René; Tischler, Vincent (2025)

21st International Conference on Artificial Intelligence Applications and Innovations, 26 – 29 June, 2025, Limassol, Cyprus.


Open Access Peer Reviewed
 

Similar to LLMs, the development of vision language models is mainly driven by English datasets and models trained in English and Chinese language, whereas support for other languages, even those considered high-resource languages such as German, remains significantly weaker. In this work we present an analysis of open-weight VLMs on factual knowledge in the German and English language. We disentangle the image-related aspects from the textual ones by analyzing accuracy with jury-as-a-judge in both prompt languages and images from German and international contexts. We found that for celebrities and sights, VLMs struggle because they are lacking visual cognition of German image contents. For animals and plants, the tested models can often correctly identify the image contents according to the scientific name or English common name but fail in German language. Cars and supermarket products were identified equally well in English and German images across both prompt languages.


more

Using LLMs to Improve Reproducibility of Literature Reviews.

Peinl, René; Haberl, Armin; Baernthaler, Jonathan; Chouguley, Sarang...

SIGSDA Symposium at the International Conference on Information Systems 2024. Bangkok, Thailand.


Open Access Peer Reviewed
 

Literature reviews play a crucial role in Information Systems (IS) research. However, scholars have expressed concerns regarding the reproducibility of their results and the quality of documentation. The involvement of human reproducers in these reviews is often hindered by the time-consuming nature of the procedures. The emergence of Large Language Models (LLMs) seems promising to support researchers and to enhance reproducibility. To explore this potential, we conducted experiments using various LLMs, focusing on abstract scanning, and have presented initial evidence suggesting that the application of LLMs in structured literature reviews could assist researchers in refining and formulating rules for abstract scanning. Based on our preliminary findings, we identify potential future research directions in this research in progress paper.

more

Comparing human-labeled and AI-labeled speech datasets for TTS

Wirth, Johannes; Peinl, René (2024)

4th European Conference on the Impact of Artificial Intelligence and Robotics (ICAIR 2024) 2024.


Open Access Peer Reviewed
 

As the output quality of neural networks in the fields of automatic speech recognition (ASR) and text-to-speech (TTS) continues to improve, new opportunities are becoming available to train models in a weakly supervised fashion, thus minimizing the manual effort required to annotate new audio data for supervised training. While weak supervision has recently shown very promising results in the domain of ASR, speech synthesis has not yet been thoroughly investigated regarding this technique despite requiring the equivalent training dataset structure of aligned audio-transcript pairs.
In this work, we compare the performance of TTS models trained using a well-curated and manually labeled training dataset to others trained on the same audio data with text labels generated using both grapheme- and phoneme-based ASR models. Phoneme-based approaches seem especially promising, since even for wrongly predicted phonemes, the resulting word is more likely to sound similar to the originally spoken word than for grapheme-based predictions.
For evaluation and ranking, we generate synthesized audio outputs from all previously trained models using input texts sourced from a selection of speech recognition datasets covering a wide range of application domains. These synthesized outputs are subsequently fed into multiple state-of-the-art ASR models with their output text predictions being compared to the initial TTS model input texts. This comparison enables an objective assessment of the intelligibility of the audio outputs from all TTS models, by utilizing metrics like word error rate and character error rate.
Our results not only show that models trained on data generated with weak supervision achieve comparable quality to models trained on manually labeled datasets, but can outperform the latter, even for small, well-curated speech datasets. These findings suggest that the future creation of labeled datasets for supervised training of TTS models may not require any manual annotation but can be fully automated.

more

Evaluation of medium-large Language Models at zero-shot closed book generative question answering

Peinl, René; Wirth, Johannes (2023)

11th International Conference on Artificial Intelligence and Applications (AIAP) 2023.


Open Access Peer Reviewed
 

Large language models (LLMs) have garnered significant attention, but the definition of "large" lacks clarity. This paper focuses on medium-sized lan-guage models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot genera-tive question answering, which requires models to provide elaborate answers without external document retrieval. The paper introduces an own test da-taset and presents results from human evaluation. Results show that combin-ing the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best MLM achieved 46.4% and has 7B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. More fine-grained feedback should be used to further improve the quality of answers.

more


Dissertations

DSGVO-konforme Sprachassistenzsysteme in deutscher Sprache


PhD student Johannes Wirth
Research focus Informationssysteme
Duration 2023-02-01 - 2026-04-30
Scientific supervisor HS-Hof Prof. Dr. René Peinl
Institution Forschungsgruppe Systemintegration (SI)
Scientific supervisor (extern) Universität Regensburg | Prof. Dr. Bernd Ludwig
more

Projektleitung

Teilprojektleitung


Project duration

2023-03-01 - 2027-02-28

Funding programme

EFRE Bayern 2021-2027 Förderung des Technologietransfers von Hochschulen in KMU