Bild-zu-Text-Modell
Ein Bild-zu-Text-Modell (Image-to-Text Model) ist ein KI-Modell, das visuelle Inhalte eines Bildes in beschreibenden Text umwandelt, bekannt als Image Captioning oder Visual Question Answering. Solche Modelle kombinieren Computer-Vision-Architekturen (z. B. CNNs) mit Sprachmodellen (z. B. Transformern), um kontextgerechte Bildbeschreibungen zu erzeugen. Anwendungsgebiete sind Barrierefreiheit, Bildsuche und multimodale KI-Assistenten.