Chatbot und Emotionen
03/03/2023Meta hat gerade ein Biest entfesselt
05/03/2023Das Handicap der KI: Verstehen, warum Hände eine Herausforderung für die Bilderzeugung bleiben
Die Qualität der KI-Bilder hat die Fotografengemeinde mit ihrem Hyperrealismus verblüfft. Aber es scheint ein Hindernis zu geben, auf das sie immer wieder stoßen: die Hände.
Anfang dieses Monats spielte Miles Zimmerman, ein 31-jähriger Programmierer aus San Francisco, mit Midjourney herum, einem KI-gesteuerten Tool, das Bilder mit einer einfachen Texteingabe generiert, und war begeistert.
Eines seiner Prompts, das er mit Hilfe von ChatGPT erstellt hat, war extrem detailliert: „Ein offenes Foto von ein paar glücklichen 20-Jährigen im Jahr 2018, die sich für eine Nacht herausgeputzt haben und sich mitten auf einer Hausparty in einer Wohnung in der Stadt amüsieren, fotografiert von Nan Goldin, aufgenommen mit einer Fujifilm Instax Mini 9, Blitzlicht, offen, natürlich, spontan, jugendlich, lebendig, sorglos, – ar 3:2.
In Sekundenschnelle spuckte Midjourney ein erfundenes Bild nach dem anderen aus, auf dem ansprechende junge Leute zu sehen sind, die sich auf einer Party amüsieren.
Zuerst war Zimmerman erstaunt über die Detailtreue. Gesichter, Haut, Haare und Kleidung sahen fotorealistisch aus – wenn auch etwas plastisch, wie einige Beobachter später feststellten – und die Gesichtsausdrücke waren genau das, was er sich gewünscht hatte. Aber je genauer er hinschaute, desto seltsamer erschienen ihm die Bilder. Eine lächelnde Frau, die mit einem Freund für ein Foto posiert und eine Point-and-Shoot-Kamera in der Hand hält, hatte ein Bündel zusätzlicher Finger an ihrer linken Hand. Es waren insgesamt neun, um genau zu sein. Ein anderer hatte die richtige Anzahl von Ziffern, nur waren sie irre lang. Nahezu jeder hatte zu viele Zähne.
Er teilte die Bilder auf Twitter, wo sie bald viral gingen.
Dienste wie Midjourney, Steady Diffusion und DALL-E 2 haben in letzter Zeit einen enormen Popularitätszuwachs erfahren. Diese Apps, die es jedem ermöglichen, mit einfachen Textanweisungen und einer brandneuen Form der künstlichen Intelligenz, der so genannten generativen KI, fast jede Art von Bild zu erstellen, haben sowohl Begeisterung als auch Kritik hervorgerufen.
Diese Programme funktionieren, weil sie darauf „trainiert“ wurden, Zusammenhänge zwischen den unzähligen Bildern, die aus dem Internet heruntergeladen wurden, und den dazugehörigen Textbeschreibungen zu erkennen. Schließlich „versteht“ das Programm, dass z.B. das Wort „Hund“ mit dem Bild eines Hundes in Verbindung steht.
Aber warum tut sich die KI so schwer?
Einem Sprecher von Stable AI zufolge liegt einer der Gründe, warum KI-Bildgeneratoren mit Händen zu kämpfen haben, darin, dass menschliche Extremitäten in den Datensätzen, die zum Trainieren der Bildsynthesizer benötigt werden, weniger sichtbar sind als ihre Gesichter. Da sie selten in großem Maßstab zu sehen sind, sind auch die Hände in den Ausgangsfotos häufig deutlich kleiner.
Professor Peter Bentley, ein in London ansässiger Informatiker und Autor, behauptet, dass es für die Produzenten von 2D-Bildern auch schwierig ist, die 3D-Geometrie einer Hand zu verstehen. „Kinder verstehen das grundlegende Konzept einer Hand. Keines dieser Modelle begreift vollständig, was das Ganze ist“, sagt er gegenüber der BBC.
Während Stable Diffusion bessere, aber immer noch unterdurchschnittliche Fotos veröffentlichte, produzierte DALL-E urkomisch schlechte Bilder. Diese wirkten plausibler und waren doch völlig falsch.
Hier sind einige von DALL-E generierte Ergebnisse
Amelia Winger-Bearskin, Professorin für KI und Kunst an der University of Florida, erklärt, dass generative KI einfach nicht versteht, was eine Hand ist und welchen Zweck sie hat. Sie sagte gegenüber BuzzFeed: „Sie schaut sich lediglich an, wie die Hände auf den Fotos, auf denen sie trainiert wurde, dargestellt sind. Hände sind auf Fotos sehr nuanciert. In der Regel halten sie etwas in ihren Händen. Vielleicht klammern sie sich an jemandem fest“.
Ist es nur die KI?
Nicht nur der KI fällt es schwer, Hände zu zeichnen. Im Laufe der Geschichte haben auch Künstler versucht, das Zeichnen von Händen aufgrund ihrer Komplexität zu vermeiden. Künstler wie Leonardo da Vinci haben erst in der Renaissance damit begonnen, Hände zu beobachten und zu zeichnen.
Da Vinci hat sich tatsächlich sehr intensiv mit Händen beschäftigt und viele, viele Studien über Hände angefertigt
Winger-Bearskin
Winger-Bearskin fährt fort: „Da Vinci hat sich tatsächlich sehr intensiv mit Händen beschäftigt und viele, viele Studien über Hände angefertigt“.
In der Zwischenzeit beobachtet die KI einfach ein Bild und sagt: „Nun, in diesem Fall ist nur ein halber Daumen zu sehen, denn der Rest ist hinter einem Stoff verborgen oder klammert sich an irgendetwas fest, so dass er bei der Wiedergabe etwas deformiert ist.