Daten, Information, Wissen

Wer von künstlicher Intelligenz spricht, redet meistens von Wissen. Tatsächlich geht es um Daten, die einer Allmende entzogen und in Modellen verwertet wurden. Eine Dechiffrierung in drei Schichten.

Der öffentliche Diskurs über künstliche Intelligenz spricht beharrlich von Wissen. Wissen werde demokratisiert, sei nun für alle verfügbar, Bildungsprivilegien hätten ihre Grundlage verloren. Diese Sprechweise ist populistisch in einem präzisen Sinn: Sie redet von Wissen, wo es um Daten geht.

Die in den Informationswissenschaften etablierte Stufenfolge — Daten, Information, Wissen, manchmal als vierte Stufe Weisheit — unterscheidet sauber. Daten sind unverknüpfte Zeichen: ein Buchstabe, ein Messwert, ein Klick, ein Bewegungssensor-Eintrag, ein Posting in einem Forum, ein Bildupload. Information entsteht erst, wenn diese Zeichen in einen Bedeutungszusammenhang gestellt werden, etwa durch Kontextualisierung, Aggregation, Modellierung. Wissen schließlich ist das, was eine Person mit dieser Information anfangen kann — an einen Körper, an Erfahrung, an Urteilskraft gebunden, nicht ablösbar. Der populistische KI-Diskurs spricht von der dritten Stufe, behandelt aber faktisch den Übergang zwischen den ersten beiden. Das ist kein semantisches Detail, sondern eine politische Operation.

Was die großen Plattformkonzerne in den letzten zwei Jahrzehnten geleistet haben, war die Privatisierung einer Allmende der Datenspuren. Das frühe Internet als Verbund öffentlich erreichbarer Inhalte, die Briefwechsel auf E-Mail-Servern, die Forendebatten, die Wikipedia-Edits, die Blogeinträge, die Buchscans, die hochgeladenen Photographien, die Bewertungen von Restaurants, die Bewegungsdaten von Smartphones, die Kommentare unter Videos — all das ist Niederschlag von Lebensvollzügen, also von Arbeit im weiten Sinn: schreibender, lesender, beobachtender, sortierender, urteilender Arbeit. Diese Spuren wurden gesammelt, indexiert, in Eigentumsverhältnisse überführt und in Trainingskorpora verwandelt. Die zweite Operation bestand darin, aus diesen privatisierten Datenbergen durch statistische Modelle eine Form zu erzeugen, die im Gebrauch wie Information aussieht: ein System, das auf Fragen scheinbar bedeutungsvolle Antworten gibt. Verkauft wird das Ergebnis als Wissen. Hergestellt wurde es aus Daten, deren Erzeuger:innen nie um Erlaubnis gefragt und nie an deren Verwertung beteiligt wurden, und gegen Bezahlung niedrig entlohnter Arbeit, die den Output bewohnbar gemacht hat.

An dieser Stelle lohnt sich die genaue Anwendung der klassischen Mehrwerttheorie, weil sich an ihr zeigt, was sonst unter der Wissens-Rhetorik verschwindet.

Die Theorie unterscheidet drei Größen, die zusammen den Wert einer Ware ausmachen: konstantes Kapital, das sind die in der Produktion verbrauchten Produktionsmittel und Vorprodukte; variables Kapital, das ist der Lohn, den die Arbeitskraft kostet; und Mehrwert, das ist die Differenz zwischen dem Wert, den Arbeit erzeugt, und dem Wert ihrer eigenen Reproduktion. Die entscheidende Pointe lautet: Die Ware Arbeitskraft hat die ungewöhnliche Eigenschaft, im Gebrauch mehr Wert zu erzeugen, als sie selbst kostet. Der Arbeitstag teilt sich strukturell in zwei Phasen. In der ersten Phase erarbeitet die Arbeitende den Gegenwert ihres Lohns, also dessen, was sie zur Reproduktion ihrer Arbeitskraft braucht — Essen, Miete, Erholung, alles, was sie morgen wieder arbeitsfähig macht. In der zweiten Phase erarbeitet sie Wert, der dem Eigentümer der Produktionsmittel zufällt. Diese zweite Phase heißt Mehrarbeit, ihr Ertrag heißt Mehrwert. Profit ist die in Geld verwandelte Form dieses Mehrwerts.

Konkret und im Maßstab eines einzelnen Arbeitstages lässt sich das an der Lohnarbeit zeigen, die hinter den heutigen Sprachmodellen tatsächlich verrichtet wird. Eine dokumentierte Praxis: ein ostafrikanisches Subunternehmen in Kenia, beauftragt durch einen amerikanischen KI-Konzern, beschäftigt Annotator:innen, die Texte und Bilder aus den Trainingsdaten markieren — traumatisierende Inhalte aussortieren, problematische Sequenzen kennzeichnen, Antworten des Modells nach Qualität bewerten. Berichtete Stundenlöhne in solchen Firmen lagen zwischen einem und zwei Dollar. Nehmen wir, mit den nötigen Vorbehalten, einen Tagesablauf modellhaft an. Eine Annotator:in arbeitet acht Stunden, der Tageslohn liegt bei zehn bis fünfzehn Dollar. Diese Summe deckt, knapp, was sie braucht, um morgen wieder arbeitsfähig zu sein: einen Anteil an Miete, Essen, Transport, Mobiltelefon. Das ist die erste Phase ihres Arbeitstages, die notwendige Arbeitszeit; sie reproduziert ihre Arbeitskraft.

In der zweiten Phase, der Mehrarbeit für den Konzern, geschieht dies: Sie verbessert ein Modell, das anschließend in Lizenz oder als Dienstleistung weltweit ausgerollt wird, mit Bewertungen jenseits der Zehn-Milliarden-Marke und mit jährlichen Umsätzen in Milliardenhöhe. Der Wert, den ihre acht Stunden Arbeit zum Trainings- und Sicherheitslayer dieses Modells beitragen, lässt sich nicht auf Heller und Pfennig beziffern, weil das Modell ein gemeinsames Werk Tausender Annotator:innen plus der enteigneten Texte plus der Rechenkapazität ist; aber er ist um Größenordnungen höher als ihr Tageslohn. Die Differenz ist der Mehrwert. Sie fließt nicht ihr zu, sondern dem Konzern, der das Modell besitzt.

Die zweite Schicht der Wertschöpfung sitzt darunter und macht die Konstruktion noch extraktiver, als der klassische Fall es vorsieht. Die Texte und Bilder, an denen die Annotator:in arbeitet, sind selbst nicht eingekauft worden. Es sind die Lebensspuren von Millionen Menschen, deren schreibende Arbeit nie als Arbeit anerkannt und entlohnt wurde. In der Begriffslogik der Theorie heißt dieser Vorgang ursprüngliche Akkumulation: nicht der Tausch Lohn gegen Arbeitskraft, sondern die schlichte Aneignung eines vorgefundenen Gemeinguts. Der Konzern hat zwei Mehrwertquellen, die ineinander geschachtelt sind: oben die niedrig entlohnte Annotationsarbeit, unten die unentgolten enteigneten Texte. Beide werden im Modell zu jener Form synthetisiert, die im Verkaufsgespräch dann als Wissen auftritt.

Eine dritte Schicht kommt hinzu, sobald das Modell im Gebrauch ist. Die Nutzer:in zahlt zwanzig Euro im Monat, gibt aber zugleich Daten ab: ihre Prompts, ihre Korrekturen, ihre Daumen-Hoch-Bewertungen, ihre Reformulierungen. Diese Daten werden in den nächsten Trainingszyklus eingespeist und verbessern das Modell weiter. Die Nutzer:in zahlt also doppelt: einmal in Geld, einmal in Datenarbeit. Im klassischen Fall verkauft die Arbeitende ihre Arbeitskraft und der Käufer eignet sich den Mehrwert an. Hier kauft die Nutzer:in eine Dienstleistung und verrichtet zusätzlich unbezahlte Datenarbeit am Produkt.

Wenn man die drei Schichten zusammen betrachtet, wird sichtbar, was der Wissens-Diskurs verdeckt. Privatisiert wurde nicht das Wissen einer Gesellschaft, sondern die Datenspur ihrer Lebensvollzüge. Synthetisiert wurde aus diesen Daten eine Form, die im Gebrauch wie Information auftritt. Verkauft wird sie als Wissen. Profitiert wird vom Mehrwert dreier Arbeitsformen: der enteigneten Schreibarbeit der vergangenen Jahrzehnte, der niedrig entlohnten Annotationsarbeit der Gegenwart, der unentgoltenen Trainingsmitarbeit der Nutzer:innen.

Der populistische Wissensbegriff ist innerhalb dieser Konstellation funktional. Wer von demokratisiertem Wissen spricht, beschreibt das Endprodukt am Verkaufstresen und übergeht die Produktionsweise vollständig. Eine ehrliche Buchführung müsste umgekehrt vorgehen: zuerst die Daten, dann ihre Aneignung, dann die Arbeit, die sie zu nutzbarer Information verarbeitet, dann die Aneignung dieser Arbeit, dann das Verkaufsversprechen, das aus dem Ergebnis Wissen macht. Erst an diesem Punkt ließe sich politisch sinnvoll fragen, wem die Modelle gehören sollten und wer an ihrem Ertrag beteiligt sein müsste. Die Antwort darauf wäre keine Frage der individuellen Haltung mehr, sondern eine Frage der Eigentumsverhältnisse an einem Vermögen, das aus dem Schreiben, Sprechen und Sortieren sehr vieler entstanden ist und das heute sehr wenigen gehört.

Hat man diesen ersten Schrecken hinter sich, lässt sich der Begriffsschiebung selbst etwas Produktives abgewinnen. Indem die Konzerne Daten als Wissen ausgeben, zwingen sie den Wissensbegriff, sich präziser zu fassen, als der akademische Betrieb es jahrzehntelang nötig hatte. Was eine Maschine kann, wird zur Negativfolie für das, was Wissen ist. Information ist das, was die Maschine herstellt: ablösbar, indexierbar, übertragbar, in beliebige Sprachen rückübersetzbar, ohne Verlust der Substanz, weil keine Substanz da ist außer der statistischen Korrelation. Wissen ist das, was übrig bleibt, wenn man die Information abzieht — und dieses Übrige ist nicht weniger als alles, was den Menschen als Wissenden ausmacht.

Wissen verlangt Aktivität: nicht das Abrufen einer Datei, sondern das wiederholte Sich-Einlassen auf einen Gegenstand. Es verlangt Integration: das, was gelesen, gehört, gesehen wurde, muss durch das eigene Urteilsvermögen hindurchgegangen sein, mit anderen Erfahrungen verbunden, in den eigenen Lebensvollzug eingelagert worden sein. Und es verlangt Leiblichkeit: einen Körper, der sich an Material reibt, der mit einem Werkzeug arbeitet, eine Kamera hält, mit der Hand schreibt, einen Raum betritt und wieder verlässt. Diese drei zusammen — Aktivität, Integration, Leiblichkeit — sind die Domäne des Menschen, und sie bleiben es so lange, wie Menschen Körper haben.

Daraus folgt eine bildungspolitische Pointe, die freundlicher klingt, als sie gemeint ist. Was nötig wird, ist nicht zwingend die klassische Schulbildung mit ihren Speicheraufgaben und Reproduktionsprüfungen, die ohnehin von der Maschine besser bedient werden. Nötig ist etwas Älteres und Praktischeres: ein Bewusstsein dafür, dass Lernen durch Gesten geschieht, durch wiederholtes langsames Lesen, durch denkendes Aushalten eines Textes, einer Bewegung, eines Bildes über Zeit hinweg, in der nichts fertig wird. Üben braucht Voraussetzungen — Zeit, Anleitung, Material —, aber keine formalen Bildungsabschlüsse. Wer lernt, sich auf eine Übung einzulassen, ein Photo zu lesen, einen Satz zu variieren, einem anderen Menschen wirklich zuzuhören, hat etwas erworben, das im Vergleich zur Sprachmodell-Antwort qualitativ verschieden ist und gerade nicht durch sie ersetzt werden kann.

So gewendet wird die Begriffsverwirrung zum Anlass, an dem der Wissensbegriff zurückgewonnen werden kann — als Beschreibung dessen, was geschieht, wenn ein Mensch sich auf etwas einlässt, ihm Zeit gibt und mit ihm umzugehen lernt. Die Maschine bleibt, was sie ist, ein Aggregat aus enteigneten Daten und entlohnter Arbeit.

Eine Bildungspolitik, die das ernst nimmt, gibt das Speicherwissen an die Maschine ab und kümmert sich um das Übrige: um die Übung, die Lektüre, das Gespräch, die handwerkliche Aufmerksamkeit. Das ist die eine Seite. Die andere ist nüchterner: Üben braucht Zeit, und Zeit ist ungleich verteilt. Wer von mehreren Jobs lebt, wer Sorgearbeit unbezahlt mitleistet, wer in Schichten Datenarbeit für die Modelle der anderen verrichtet, hat weniger Zeit zum Üben. Die Wissensfrage und die Eigentumsfrage sind verschiedene Fragen, aber sie lassen sich nicht unabhängig voneinander beantworten.

Ausblick

Wo es sich lohnt hinzuschauen, wenn man den hier gezogenen Faden weiterführen will: in eine Bildungspraxis, die Lernen als Teilhabe versteht, nicht als Aneignung eines Stoffs. In aboriginale und andere indigene Wissensordnungen, in denen Erinnerung an Land, Beziehung und Tätigkeit gebunden ist und nie ablösbar gemacht wurde. In das Handwerk, in die Künste, in die Pflege — überall dort, wo Können in Übung wächst und sich nicht digitalisieren lässt. In die kulturellen Praktiken selbst — wer sie trägt, wer sie weitergibt, wer sich an ihnen schult. Und schließlich in die einfachste, politisch unbequemste Frage: Wer gestaltet Welt? Die Konzerne, die aus unseren Schreibspuren Modelle bauen — oder wir, wer immer dieses Wir gerade ist?

Literatur

Couldry, Nick / Mejias, Ulises A.: The Costs of Connection. How Data Is Colonizing Human Life and Appropriating It for Capitalism. Stanford University Press 2019.

Lave, Jean / Wenger, Etienne: Situated Learning. Legitimate Peripheral Participation. Cambridge University Press 1991.

Marx, Karl: Das Kapital. Kritik der politischen Ökonomie. Erster Band (1867). MEW 23. Insbesondere Kap. 6–9 (Mehrwerttheorie) und Kap. 24 (Ursprüngliche Akkumulation).

Perrigo, Billy: “OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic.” Time Magazine, 18. Januar 2023.

Yunkaporta, Tyson: Sand Talk. How Indigenous Thinking Can Save the World. HarperOne 2020.

METALABOR

Raum und Zeit für noch nicht Gedachtes, nicht Gesagtes, nicht Getanes.

Vierter bis sechster September 2026, Grand Hotel Europa, Villmar (Lahn)

Anmeldungen sind noch möglich. Weitersagen sowieso.