Mit allen Sinnen - Multimodale KIs kombinieren Bild und Text.

Abstract

Kaum hat sich der Mensch an Text- und Bildgeneratoren gewöhnt, veröffentlichen OpenAI, Google, Microsoft und Meta ihre multimodalen Modelle, die beide Welten vereinen. Das ermöglicht praktischen KI-Anwendungen und sogar Robotern ein umfassenderes Verständnis der Welt.

Mehr zum Titel

Titel Mit allen Sinnen - Multimodale KIs kombinieren Bild und Text.
Medien c't Magazin für Computertechnik
Verlag Heise
Heft 11
Band 2024
ISBN https://www.heise.de/select/ct/2024/11/2404614132254916448
Verfasser/Herausgeber Prof. Dr. René Peinl
Seiten 52-56
Veröffentlichungsdatum 2024-05-31
Projekttitel M4-SKI
Zitation Peinl, René (2024): Mit allen Sinnen - Multimodale KIs kombinieren Bild und Text. . c't Magazin für Computertechnik 2024 (11), S. 52-56.