Jüngere Studien (vgl. Newsletter von Casey Newton dazu) haben gezeigt, dass mit dem Boom generativer KI eine Veränderung quantitativer und qualitativer Forschung einhergeht. Manche Autor*innen wählen Metaphern und Bilder aus dem Wortfeld von Naturkatastrophen wie “Ölpest” oder “internet climate change”.

Spätestens vor diesem Hintergrund stellt sich die Frage, woher in Zukunft validierte nicht-generative Datenbestände kommen sollen. Newton spekuliert am Ende seines Beitrags sogar, dass neue Geschäftsmodelle um qualitätsgesicherte Datenbestände entstehen könnten, wenn diese frei von generativen Anteilen sind.

Im Rahmen von Forschung und Lehre könnten entsprechende Bestrebungen im Kontext von data literacy in curriculare Strukturen eingeflochten werden, die dieses Problem angehen: Anreize zu schaffen, zum globalen data lake beizutragen.

Fraglich ist, ob aus dem Umstand, dass generative KI die Datenwelt flutet, ein normatives Moment resultiert. Soll es eine Pflicht Forschender geben, ihre Daten offenzulegen, nicht nur wenn sie oft mit Steuergeld bezahlt wurden, wie bisher ein starkes Argument lautete, sondern weil die Feedbackschleife generativer KI und synthetischer Daten Forschung allgemein unzuverlässiger macht (z. B. Veselovsky, Ribeiro & West, 2023).

In diesem Zusammenhang mag es nötig sein, in den Acknowledgements von Veröffentlichungen auch auf den Anteil synthetischer und nativer Daten hinzuweisen, die für das Projekt genutzt wurden.

Referenzen

Veselovsky, V., Ribeiro, M. H. & West, R. (2023, Juni 13). Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks. arXiv. Zugriff am 7.11.2023. Verfügbar unter: http://arxiv.org/abs/2306.07899