Hintergrund
Mit dem bevorstehenden Barrierefreiheitsgesetz 2025, das auf der Richtlinie 2019/882 „Europäischer Rechtsakt zur Barrierefreiheit" (European Accessibility Act, EAA) basiert, gewinnt die Diskussion um Alternativ-Texte für Bilder an Bedeutung. Dieses Gesetz, das am 28. Juni 2025 in Kraft tritt, verpflichtet unter anderem Webseitenbetreiber und Unternehmen der Medien-, Bildungs- und Buchbranche, ihre digitalen Inhalte für alle zugänglich zu machen.
Wo liegt die Herausforderung für Organisationen und Unternehmen?
Da die Erzeugung solcher Bildbeschreibungen gerade auch für größere Mengen an Bestandsdaten einen enormen Aufwand bedeutet, möchten viele Organisationen KI nutzen, um diesen Prozess zumindest teilweise zu automatisieren. Gleichzeitig besteht jedoch ein hoher Qualitätsanspruch.
Analyse
Vor diesem Hintergrund haben wir bei EBCONT einen umfassenden Vergleich verschiedener Lösungen aus dem Bereich der künstlichen Intelligenz durchgeführt. Dabei wurden führende kommerzielle Large-Language-Modelle (LLM) wie GPT-4-Vision von OpenAI und Claude-3 Sonnet von Anthropic untersucht. Ebenso haben wir Open-Source-Modelle wie LLama sowie Out-of-the-Box-Cloud-Services wie Azure Computer Vision und AWS Rekognition genauer betrachtet. Alle diese Systeme wurden mit denselben Medien-Assets getestet, um die Stärken und Schwächen der einzelnen Modelle besser zu verstehen und die passende KI-Lösung für spezifische Anwendungsfälle zu identifizieren.
Die verwendeten Daten wiesen unterschiedliche Komplexitätsgrade auf. Es wurden Bilder mit und ohne Text und Personen in verschiedenen Qualitäten, Größen und Formaten analysiert, darunter Fotografien, gezeichnete Bilder und generierte Inhalte. Die Auswertung wurde zum Teil im Auftrag von Kunden mit urheberrechtlich geschützten Daten von EBCONT Kunden durchgeführt. Im Folgenden geben wir Beispiele an Hand von frei verfügbaren Inhalten.
Beispiel 1: Foto
Dieses Bild wurde von verschiedenen Modellen mit unterschiedlicher Präzision beschrieben. Alternativ-Texte von Azure Computer Vision wie "Ein Turm im Wasser" und "Kirchturm in ruhigen Gewässern" sind zwar inhaltlich korrekt, sollten aber informativer sein, um das Bild ausreichend detailliert zu beschreiben.
Open-Source-Large-Language-Modelle wie LLava beschreiben Bilder meist korrekt, jedoch entstehen nicht selten fehlerhafte Beschreibungen. In einem Bild, das hellgrüne Bäume zeigt, wurde beispielsweise die fehlerhafte Beschreibung "gelbe Laubgebüsche" generiert: "Das Bild zeigt einen kleinen, weißen Turm mit einer roten Spitze, der in einem stillen See steht. Hinter dem Turm erstrecken sich Berge mit grünen und gelben Laubgebüschen."
Alternativ-Texte von kommerziellen Large-Language-Modellen lieferten passende und kompakte Ergebnisse: "Ein alter Kirchturm mit spitzem Dach ragt aus einem See, umgeben von bewaldeten Hügeln und Bergen unter einem teilweise bewölkten Himmel."
Die durch die KI-Lösungen generierten Tags, wie beispielsweise "Glockenturm", "See", "Natur" und "Berg", waren allesamt zutreffend.
Beispiel 2: Foto mit Text
Die Besonderheit an diesem Bild ist, dass es einen Text enthält, welcher Inhalt einer guten Bildbeschreibung sein sollte. Unsere Analyse hat gezeigt, dass Out-of-the-Box-Services und Open-Source-Modelle zumeist Schwierigkeiten mit der Optical Character Recognition (OCR), also dem Lesen von Texten aus Bildern, haben. Daher entstehen oft Alternativ-Texte wie “Ein Leuchtkasten mit Text darauf” oder “Eine helle Leuchttafel mit dem Text TAKE HIS AY, 0 E T!”. Kommerzielle LLMs wie GPT-4 und Claude-3 hingegen zeigen in diesem Bereich signifikant weniger Probleme und liefern genauere Beschreibungen: “Eine Leuchttafel trägt die Aufschrift "MAKE THIS DAY GREAT!" in bunten Buchstaben. Der Hintergrund ist unscharf und in hellen Farbtönen gehalten.”
Zu diesem Bild wurden von den verschiedenen KI-Lösungen präzise Tags wie "Text", "Elektronik", "Anzeigetafel" und "Schild" erstellt. Allerdings gaben einige Modelle auch fehlerhafte Tags wie "Zahl" oder "Handy" zurück. Die meisten dieser fehlerhaften Tags wurden von Open-Source-Modellen generiert. Kommerzielle Services wie Azure Computer Vision und AWS Rekognition lieferten hingegen nicht nur die passendsten, sondern auch die wenigsten falschen Tags.
Beispiel 3: Bild mit Text
Bilder wie dieses, die eine erhöhte Komplexität aufweisen, haben bei den getesteten KI-Lösungen zu weniger präzisen und teilweise falschen Ergebnissen geführt. Dabei ist aufgefallen, dass Out-of-the-Box-Cloud-Services durch Verallgemeinerung oft unzureichende Beschreibungen wie "Eine Karikatur eines Jungen und eines Mädchens" zurückgeben. Die besten Ergebnisse bei komplexen Bildern wurden von LLMs erzielt. Obwohl Open-Source-Modelle hier recht gute Ergebnisse liefern, hat diese Untersuchung erneut gezeigt, dass kommerzielle LLMs die besten Ergebnisse liefern: "Eine Karikatur von zwei Kindern mit Sprechblasen, die verschiedene Möglichkeiten zeigen, die Zahl 990 zu faktorisieren. Ein Kind scheint zu erklären oder zu lehren, während in den Sprechblasen verschiedene Faktorisierungsgleichungen sichtbar sind."
Trotz der erhöhten Komplexität der Bilder haben die KI-Lösungen weiterhin passende Tags wie "Cartoon" und "Illustration" zurückgegeben.
Ergebnisse
Die Analyse dieses umfassenden Vergleichs hat gezeigt, dass künstliche Intelligenz eine geeignete Lösung für die Erstellung von Alternativ-Texten und Tags darstellt. Dabei traten deutliche Unterschiede in der Genauigkeit der verschiedenen KI-Modelle zutage, insbesondere bei den Alternativ-Texten. Einige Systeme waren besonders gut im Umgang mit fotografischen Inhalten, während andere effizienter bei der Verarbeitung von gezeichneten oder generierten Bildern waren. Die wichtigsten Faktoren waren jedoch die Komplexität und Textinhalte der Bilder.
Einfache Bilder wurden von allen getesteten KI-Lösungen meist korrekt beschrieben, wenn auch mit unterschiedlichem Detailgrad. Für Bilder mit Text oder komplexeren Inhalten zeigte die Untersuchung, dass nur generative Sprachmodelle (LLMs) ausreichende Alternativ-Texte liefern konnten. Die Untersuchung kam zu dem Ergebnis, dass kommerzielle LLMs wie GPT-4-Vision und Claude-3 Sonnet erzielten hierbei die besten Ergebnisse.
Es ist wichtig zu erwähnen, dass alle generativen LLMs gelegentlich ungenaue oder fehlerhafte Alternativ-Texte generierten. Die Untersuchung hat jedoch gezeigt, dass dies bei kommerziellen LLMs signifikant seltener vorkommt als bei Open-Source-Modellen.
Ein weiterer Aspekt von LLMs ist, dass sie gelegentlich keine Alternativ-Texte generieren. Dies geschieht, wenn einer der Content-Filter aktiviert wird und die Erstellung eines Alternativ-Textes verhindert. Beispielsweise besitzt GPT-4 Filter für "Hass", "Selbstverletzung", "Sexualität" und "Gewalt". Diese Untersuchung ist zu dem Schluss gekommen, dass diese Filter teilweise zu sensibel konfiguriert sind. So wurde etwa bei einem Bild von einer schlafenden Frau im Bett der Filter "Sexualität" fälschlicherweise aktiviert und kein Alternativ-Text generiert.
Die Generierung von Tags erbrachte bei den meisten Bildern zufriedenstellende Ergebnisse durch verschiedene KI-Modelle. Bei erhöhter Komplexität erwies sich Azure Computer Vision als die beste Lösung für unsere Media Assets, da hier die Fehlerquote am geringsten war.
Fazit
Die Untersuchungsergebnisse verdeutlichen, dass KI-Lösungen für Alternativ-Texte und Tags eine äußerst sinnvolle Methode darstellen. Die richtigen Modelle können automatisiert korrekte und aussagekräftige Ergebnisse erzeugen. Es muss jedoch betont werden, dass kein Modell fehlerfreie Ergebnisse liefert, weshalb eine manuelle Kontrolle der Resultate notwendig bleibt. Trotz dieser Einschränkung bieten Machine Learning Modelle eine effiziente und nützliche Lösung zur Einhaltung des Barrierefreiheitsgesetzes.
Diese Schlussfolgerung stimmt mit der Ansicht des Börsenvereins des Deutschen Buchhandels überein, der ebenfalls überzeugt ist, dass KI eine geeignete Lösung zur Einhaltung des Barrierefreiheitsgesetzes darstellt (Quelle: https://www.boersenverein.de/beratung-service/barrierefreiheit/faq/#accordion--42).