Das berichtet
heise.de. Es besteht die Gefahr, dass KI-Modelle ersticken könnten. Sie könnten dysfunktional werden, wenn sie mit Daten trainiert werden, die von KI selbst generiert wurden. Dieses Szenario wurde von
Forschern der Rice University in Houston, Texas, untersucht. Sie verwendeten für ihre Studie «
Self-Consuming Generative Models Go MAD» generative Bildgenerierung, um das Problem anschaulich darzustellen.
Die Studie konzentrierte sich auf generative Bildmodelle wie das beliebte DALL·E 3, Midjourney und Stable Diffusion. Die Forscher stellten fest, dass die generierten Bilder nach mehreren Iterationen der Modelle schlechter wurden, wenn die KI-generierten Bilder selbst zum Training neuer KI-Generationen verwendet wurden. Professor Richard Baraniuk, Elektrotechnik- und Computertechnik an der Rice University, erklärte: «Die Probleme entstehen, wenn das Training mit synthetischen Daten wiederholt wird und eine Feedbackschleife bildet. Wir bezeichnen dies als autophagische oder selbstkonsumierende Schleife.»
KI-Modelle können relativ schnell beschädigt werden
Seine Forschungsgruppe hat an solchen Feedbackschleifen gearbeitet. Baraniuk betonte: «Die schlechte Nachricht ist, dass neue Modelle bereits nach wenigen Generationen irreparabel beschädigt werden können. Dies wird als Modellkollaps bezeichnet oder auch als 'Model Autophagy Disorder' (MAD) in Anlehnung an den Rinderwahnsinn.» Die Forscher der Rice University untersuchten drei Szenarien solcher selbstkonsumierenden Trainingsschleifen für generative Modelle der künstlichen Intelligenz.



Menschengemachte Inhalte werden ihren Wert behalten. /


Fortschreitende Iterationen zeigten zunehmend verzerrte Bilder und eine Verarmung der Daten.
Das menschliche Handeln verschärft das Problem zusätzlich. Fotografien von Pflanzen zeigen hauptsächlich Blumen, abgelichtete Personen lächeln öfter als im Alltag, und Urlaubsbilder in den Bergen präsentieren meist Sonne und Schnee. Wenn eine KI mit solchen Daten trainiert wird, könnte sie fälschlicherweise annehmen, dass die meisten Pflanzen Blumen sind, dass Menschen oft lächeln und dass es in den Bergen immer blauen Himmel gibt. Nach mehreren Modellgenerationen sind KI-Generatoren nicht mehr in der Lage, beispielsweise Grashalme, weinende Kids oder Regen beim Wandern korrekt darzustellen. KI-Entwickler stehen vor der Herausforderung, nicht nur zu entscheiden, welche Daten sie verwenden dürfen.
Menschengemachte Inhalte werden ihren Wert behalten
Die Studie zeigt, dass die Verwendung von KI-generierten Daten für das Training langfristig das Geschäftsmodell gefährden könnte. Es ist im Interesse der Entwickler, keine KI-Daten für zukünftige Modelle zu nutzen, um die Funktionalität ihrer KI-Generatoren zu gewährleisten. Es fehlen jedoch Standards in dieser Hinsicht. Eine Kennzeichnung von KI-generierten Inhalten im Netz ist unerlässlich, sowohl für Verbraucher als auch für Entwickler. Da die verfügbaren Trainingsdaten bereits knapp sind, werden zunehmend KI-generierte Inhalte verwendet, was ein Risiko für die Datenqualität darstellt. Durch eine Kennzeichnung könnten Unternehmen diese Inhalte ausschliessen und auf menschengemachte Daten zurückgreifen. Die Frage nach der Vergütung für die Verwendung solcher Daten stellt sich neu: Menschengemachte Inhalte werden offensichtlich ihren Wert behalten.