modelle

Multimodal

KI-Modelle, die verschiedene Datentypen wie Text, Bilder, Audio und Video verarbeiten können.

Multimodale Modelle können mehrere Eingabeformate verstehen und kombinieren. GPT-4o kann z.B. Bilder analysieren und darüber sprechen. Gemini verarbeitet Text, Bilder, Audio und Video. Dies ermöglicht vielseitigere Anwendungen als reine Textmodelle.

Alle Begriffe