Die Quelle des Turing-Tests

Ein Titel eines Journal-Artikels: Mind: A quarterly review of psychology and philosphy; computing machinery and intelligence by A.M. Turing.

Neulich kam in einer gemütlichen Plauderei die Frage auf, wann und wie genau eigentlich wer den Turing-Test definiert hat.

Wie üblich hilft die Wikipedia: Tatsächlich hat bereits Alan Turing selbst das Verfahren recht weitgehend angegeben, und zwar in dem Artikel „Computing Machinery and Intelligence“, erschienen in einer Zeitschrift namens Mind – A Quarterly Review of Psychology and Philosophy. Ich muss fachidiotisch-beschämt zugeben, dass ich ihr zum ersten Mal begegne, obwohl sie seit 1876 offenbar durchgehend erscheint und zudem das Journal der Wahl für meinen Lieblingsphilosphen Bertrand Russell war.

Turings Artikel hat inzwischen auch einen DOI, doi:10.1093/mind/LIX.236.433, doch leider ist der so identifizierte Artikel außerhalb von Uni-Netzen noch hinter einer Paywall. Das ist hier besonders schade, denn Turing hat wirklich tief nachgedacht und trotzdem sehr zugänglich geschrieben, angefangen mit „Ich schlage vor, über die Frage nachzudenken, ob Maschinen denken können“. Nun, solange die Library Genesis läuft: bei ihr kommt der Artikel auch ohne Paywall [1] (vorkonfigurierte Suche).

Das Imitation Game: Wen und was testen?

Turing nimmt seine LeserInnen bei der Hand und fällt nicht gleich mit der Klassifikation von Menschen und Maschinen ins Haus. Stattdessen soll mit dem Setup des Turing-Tests zunächst ein Klassifkationsproblem bearbeitet werden, von dem die Menschen von 1950 wohl noch besessener waren als ihre Enkel und Urenkel von heute:

Die neue Form des Problems kann durch ein Spiel beschrieben werden, das wir das imitation game nennen. Es wird von drei Personen gespielt, einem Mann (A), einer Frau (B), und einem_r FragendeN (C), dessen_deren Geschlecht irrelevant ist [sic!]. Der_die FragendeR hält sich in einem anderen Raum auf als die beiden anderen. Das Ziel des Spiels ist es, dass der_die FragendeR herausfindet, welcher der anderen der Mann und welche die Frau ist.

Noch überraschender als diesen (scheinbaren) Umweg fand ich jedoch, dass sich Turing als nächstes ernsthaft die Frage stellt, was eigentlich eine „Maschine“ ist (oder wichtiger, was keine ist), deren Denkfähigkeit mensch testen wollen könnte. Vermutlich gäbe es diesen Abschnitt nicht, wenn Wolfgang von Kempeln seinen Apparat nicht (oder jedenfalls ohne Menschen drin) gebaut hätte.

[Die Frage, ob Maschinen denken können] ist nicht ganz bestimmt, solange wir nicht spezifizieren, was wir mit dem Wort „Maschine“ meinen. Es ist naheliegend, jede Sorte von Ingenieurskunst zuzulassen, um unsere Maschinen zu bauen. Wir wollen erlauben, dass einE IngenieurIn oder ein Team von ihnen eine Maschine baut, die zwar funktioniert, deren Funktionsweise aber von ihren ErbauerInnen nicht in befriedigender Weise erklärt werden kann, da sie eine im Wesentlichen experimentelle Methode angewandt haben. Schließlich wollen wir vom Maschinenbegriff ausnehmen Menschen, die in der üblichen Weise geboren wurden. Es ist nicht einfach, diese drei Bedingungen in Definitionen zu fassen. Man könnte zum Beispiel darauf bestehen, dass das IngenieurInnenteam nur aus Personen des gleichen Geschlechts besteht, aber das wäre nicht wirklich hinreichend, denn es ist vermutlich möglich, ein vollständiges Individuum aus einer einzelnen, sagen wir, Hautzelle eines Menschen heranzuziehen. Das wäre sicherlich ein Meisterstück biologischer Technik, das höchstes Lob verdient, aber wir würden das lieber nicht als einen Fall von „Konstruktion einer denkenden Maschine“ werten.

Unverstandene Replikanten schon bei Turing

Ich finde ja bereits bemerkenswert, wie Turing vorhergesehen zu haben scheint, wie wir immer schlechter erklären können, was eigentlich vorgeht, je (oberflächlich) menschenähnlicher sich die Maschinen verhalten; ich darf auf meine eigene fast mystische Erfahrung mit Whisper verweisen. Dass ein bisschen matrixmultiplizierendes C++ und zwei Gigabyte Koeffizienten reichen, um eine Spracherkennung zu bauen, die weit besser ist als alles, was wir je mit unseren Kenntnissen aus Physik und Linguistik haben basteln können: Das ist, nunja, etwas ehrfurchteinflößend.

Noch bemerkenswerter finde ich, dass Turing in dieser Passage versucht, Klone irgendwie aus dem Maschinenbegriff rauszunehmen. Zur Erinnerung: Wir sind hier drei Jahre, bevor Rosalind Franklin und Kollegen der Funktionsweise der DNS auf die Spur gekommen sind. Turing merkt dabei, dass es gar nicht so einfach ist, genau zu formulieren, warum mensch Klone eigentlich ausnehmen wollte; er hätte sich bestimmt im Blade Runner wiedergefunden.

Turing hat klar tief nachgedacht. Und es gibt einfach Probleme, die schlecht gestellt sind. Noch etwas näher am biologischen Wunder wäre es ja zum Beispiel auch denkbar, Systeme mit, sagen wir, menschlichen Neuronen in der Petrischale zu züchten und daraus die Netze zu bauen, die dann nachher, sagen wir, GPT laufen lassen. Die ethischen Fragen mal beiseitegelassen: Maschine? Keine Maschine?

Digitalrechner als universelles Maschinenmodell

Ich denke, Turing hat diesen Parabelflug ohne wirklich überzeugendes Ergebnis vor allem aus einem Grund gemacht: Er will motivieren, warum er unter „Maschine“ nur den „digital computer“ verstehen will. Die waren damals noch nicht allzu lange der militärischen Geheimhaltung entkommen, doch Turing kann im Paper des Öfteren von den drei „Manchester-Maschinen“ sprechen, für die er Code produziert hatte. Sein Argument für diese Einschränkung ist im Groben ein berechenbarkeitstheoretisches auf der Basis der Church-These: Wenn etwas überhaupt berechenbar ist, kann es auch eine Turingmaschine und damit, hinreichend Speicher vorausgesetzt, auch ein „digital computer“ berechnen. Wenn mensch umgekehrt das Problem für den Digitalrechner löst, hat mensch es (im Prinzip) für jedes rechenfähige System gelöst.

Damit sind wir dann beim Turing-Test in unserem modernen Sinn, ganz ohne Männer und Frauen:

[wir haben oben] versuchsweise vorgeschlagen, dass die Frage „Können Maschinen denken?“ ersetzt werden sollte durch „Sind Digitalrechner vorstellbar, die sich beim Turing-Test gut schlagen werden?“

Turings Antwort war ein klares Ja. Er hatte bereits eine grobe Vorstellung, wie schwierig das sein würde, da er für die praktische Antwort eine Zeitskala von 50 Jahren veranschlagt:

Ich glaube, dass es in rund fünfzig Jahren möglich sein wird, Computer mit einer Speicherkapazität von ungefähr 109 so zu programmieren, dass sie das Imitationsspiel so gut spielen können, dass die Chance eines ein durchschnittlicher Fragers, nach fünf Minuten Befragung die richtige Identifikation vorzunehmen, bei unter 70% liegt.

Ein Gigabit fürs Chatten

„Speicherkapazität“: das ist bei Russell bereits, wie bei uns immer noch, der Zweierlogarithmus der Zahl der Zustände, die ein Computerspeicher annehmen kann. Das Ergebnis so einer Rechnung hatte damals und hat eigentlich immer noch keine Einheit; irgendwann nach Turing hat irgendwer angefangen, das „bit“ zu nennen. Das hat sich universell durchgesetzt, und so fühlen sich Turings Formulierungen zu Speicherkapazitäten heute etwas seltsam an.

Turings „Speicherkapazität von 109“ übersetzt sich jedenfalls in ein Gigabit oder eben 128 Megabyte. Das war im Jahr 2000, also 50 Jahre nach der Publikation von Turings Arbeit, bereits ein eher kleiner Rechner. Der Teil der Vorhersage hat also schon mal ganz gut hingehauen.

Maschinen dieser Art waren allerdings (jedenfalls mit damaliger Software) weit davon entfernt, bei einem kompetent geführten Verhör als Mensch durchkommen zu können. Sie wären auch viel zu langsam gewesen, um heutigen „KI“-Code auf realistischen Zeitskalen auszuführen. Aber immerhin, die heutigen LLMs, denen ich durchaus zutraue, in einem Turing-Test gut abzuschneiden, haben Parametersätze, die noch innerhalb von ein, zwei Größenordnungen von Turings Erwartung liegen (das kleinste Llama-3 kommt mit acht Gigaparametern, also mit irgendwas wie 128 Gigabit aus).

Turing hat sich wahrscheinlich nicht vorgestellt, dass 50 Jahre nach seinem Paper Geräte, die er zumindest nach Speicherkapazität für KI-fähig gehalten hätte, bei Aldi verramscht wurden. Wahrscheinlich hat er auf der anderen Seite die Schwierigkeit unterschätzt, einen Computer zu einem ernsthaften Gesprächspartner zu machen. Wer mit ChatGPT zu tun gehabt hat, dürfte insbesondere vermuten, dass verdammt viel Speicherkapazität nötig sein wird für Demut und realistische Selbsteinschätzung.

Maschinen fürs Lernen

Richtig viel hat Turing die Schwierigkeit aber auch nicht unterschätzt, denn er schreibt: „Our problem then is to find out how to programme these machines to play the game“, die Herausforderung sei, herauszukriegen, wie mensch Maschinen programmiert, um den Turing-Test zu bestehen. Und er sieht ziemlich klar, dass das einstufig wohl nichts werden wird. So schlägt Turing bereits 1950 etwas blumig vor, die Maschine selbst lernen zu lassen:

Statt zu versuchen, ein Programm zu produzieren, das den Geist eines Erwachsenen simuliert, sollten wir lieber versuchen, eines zu schreiben, das den Geist eines Kindes simuliert […] Vermutlich ist ein Kinderhirn etwas wie ein Notizbuch, wie es im Papiergeschäft zu haben ist. Ziemlich wenig Mechanik und viele leere Seiten.

Ja, natürlich ist da viel radikalbehavioristischer Zeitgeist dabei, aber die Einsicht, dass der Computer selbst wird lernen müssen, die hatte Turing, und sogar die Einsicht, dass schon das lernende Programm ziemlich nichttrivial sein wird:

Wir können nicht erwarten, beim ersten Versuch ein gutes Machine Learning-Verfahren [na gut, Turing hat von „Kind-Maschine“ gesprochen, aber gemeint, was wir heute ML nennen] zu finden. Wir werden mit dem Lehren einer solchen Maschine experimentieren müssen und sehen, wie gut sie lernt. Und dann können wir eine andere probieren und sehen, ob sie besser oder schlechter funktioniert.

Turing hat bereits über Lernverfahren nachgedacht und schlug etwas vor, das wir heute unter reinforcement learning rubrizieren würden:

Die Maschine muss so konstruiert werden, dass Ereignisse, die sich kurz vor einem Bestrafungssignal ereigneten, eher nicht wiederholt werden, während ein Belohnungssignal die Wahrscheinlichkeit für eine Wiederholung der Ereignisse, die zu ihm führten, erhöht.

Unorthodoxe Lehrmethoden?

Angesichts der sehr überschaubaren Ressourcen (die „Manchester-Maschine“, die Turing nutzen konnte, hatte ihm zufolge eine Speicherkapazität von 165'000, also vielleicht 20 kB, und sie hat vermutlich höchstens ein paar tausend Operationen pro Sekunde rechnen können) überrascht vielleicht, dass Turing das wirklich versucht hat, nicht jedoch, dass nicht viel daraus geworden ist. Turings diesbezügliches Eingeständnis klingt allerdings etwas beunruhigend:

Ich habe ein paar Experimente mit so einer Kind-Maschine durchgeführt, und es ist mir gelungen, ihr ein paar Dinge beizubringen. Jedoch war die Lehrmethode zu unorthodox, um das Experiment als wirklich erfolgreich zu bewerten.

„Unorthodox“? Schade, dass es damals keine Versionskontrolle, ja noch nicht mal Festplatten oder auch nur computernutzbare Magnetbänder gab; ich wüsste ja durchaus gerne, was Turing da probiert hat. Ob seine Laborbücher noch existieren und vielleicht gar irgendwo öffentlich zugänglich sind? Und ob aus ihnen hervorgeht, was er versucht hat?

Ein intellektuelles Wunderland

Mit heutigen Augen betrachtet wirkt Turings Artikel eher feuilletonistischer als für ein akademisches Medium angemessen, schon, weil im Text keine Zitate vorkommen. Tatsächlich zitiert Turing überhaupt nur neun Arbeiten, darunter unzweifelhaft ähnlich bahnbrechende[2] Artikel von Gödel und Church. Aber er zitiert auch Ada Lovelaces Artikel von 1842 und, was mich mit meinem Russell-Fimmel (etwa hier und dort) besonders gefreut hat, die „History of Western Philosophy“ von Bertrand Russell.

Das Zitat einer Philosophie-Einführung kommt nicht von ungefähr: Auf den 28 Seiten des Artikels streift oder behandelt Turing eine atemberaubende Vielfalt von Themen. Das geht los bei einem noch recht nah am Maschinenthema liegenden Seufzer, den wahrscheinlich alle nachfühlen können, die mit Rechnern umgehen:

Machines take me by surprise with great frequency.

Ich mag das „take me by surprise“ in diesem Satz sehr gerne, denn es reflektiert den Eindruck, den ich in manchen Momenten habe, wenn ein Rechner überraschend (oder gar nicht) reagiert: er scheint oft genug über Handlungsmacht zu verfügen, selbst wenn er in Wahrheit nur meine Handlungen reflektiert (na gut, und vielleicht die der Debian-Maintainer, der AutorInnen der Software und von Leuten an anderen Rechnern am Netz – und leider die des Bahn-Managements).

In den heutigen Zeiten kommen viele Überraschungen dieser Art durch dutzende Schichten von Abstraktion und Komplexität zustande, die wir unseren Computern und damit auch uns zumuten. Turings Artikel ist eine Erinnerung daran, dass die Grundlage für diese Überraschungen aber eher ist, dass Computer Mathematikmaschinen sind und das erbarmungslose Ziehen einer Konsequenz nach der anderen nichts ist, das unsere Hirne gut können oder auch nur gut verstehen können.

Telepathie und der Turing-Test

Zur Frage der Fähigkeiten menschlicher Hirne hat Turing folgende, auch ohne Beteiligung von Digitalrechnern jedenfalls für mich sehr überraschende Passage:

Ich gehe davon aus, dass der_die LeserIn vertraut ist mit der Idee außersinnlicher Wahrnehmung (ESP) und der Bedeutung ihrer vier Teile, also Telepathie, Hellseherei, Vorahnungen und Telekinese. Diese verstörenden Phänomene scheinen all unseren gewöhnlichen wissenschaftlichen Ideen zuwiderzulaufen. Wie gerne würden wir sie widerlegen! Doch leider sind die statistischen Belege, zumindest für Telepathie, überwältigend.

Hier gehen mir nun die Zitate unserer heutigen wissenschaftlichen Praxis doch ab. An was für Arbeiten hat Turing da wohl gedacht? Ich frage für einen Freund^W^W neequatsch, für mich selbst, denn Telepathie ist eingestandenermaßen etwas, an das ich sehr gerne selbst glauben würde und das jetzt physikalisch nicht absolut unsinnig wäre[3].

Warum Turing in diesem Paper plötzlich mit ESP kommt? Nun, er untersucht über viele Seiten hinweg Einwände gegen denkende Maschinen, die, so stelle ich mir vor, in allerlei Gesprächen in seinem akademischen Umfeld (ich habe eine Formal Hall vor meinem inneren Auge) vorgebracht worden waren.

Einer davon sieht so aus:

Ein spezifischeres Argument, das sich auf ESP stützt, könnte etwa so lauten: „Lass uns einen Turing-Test machen, mit einem telepathisch begabten Menschen gegen einen Digitalrechner. Der_die Fragende könnte Fragen stellen wie »Welche Farbe hat die Karte in meiner rechten Hand?« Der menschliche Spieler könnte durch Telepathie oder Hellsichtigkeit in 130 von 400 Fällen die richtige Antwort geben, die Maschine jedoch nur zufällig raten und, sagen wir, 104 richtige Antworten haben. Der Fragende könnte auf diese Weise die richtige Identifikation vornehmen.“

Ganz ehrlich bin ich nicht völlig sicher, ob sich das nicht irgendwann umdreht und eines Tages hinreichend ausgerüstete Rechner gegenüber Menschen einen Vorteil beim Farbenraten haben werden.

Keine Elektronengehirne

Gegenüber der häufigen Rede von „Elektronengehirnen“ oder trivialmechanistischen Erklärungen von Hirnfunktionen („das Kurzzeitgedächtnis ist wie die Register einer CPU, das Langzeitgedächtnis mehr wie die Platte“) war Turing übrigens offenbar immun:

Das Nervensystem ist sicher kein diskreter Automat. Ein kleiner Fehler in der Information, etwa der Größe eines Nervenimpulses, der ein Neuron anstupst, mag einen gewaltigen Unterschied in der Größe des ausgehenden Impulses machen.

Auch das ist eine recht moderne Denkweise und führt viele Menschen (Beispiel; mich übrigens eingeschlossen) zur Vermutung, dass biologische Gehirne einen erheblichen Teil an quantenbedingtem Indeterminismus haben. Folgt mensch für einen Moment der Kopenhagener Interpretation der Quantenmechanik, ist der Kollaps der Wellenfunktion nicht vorhersehbar. Wenn nun die Wellenfunktion eines der 6.022 × 1014[4] Elektronen oder Ionen, die an einem Denkprozess beteiligt sind, an einer der Kippstelle des Gesamtsystems so oder anders kollabiert, wird das fast sicher genau eine der kleinen Ursachen ausmachen, die Turings große Unterschiede bewirken.

Vielleicht ist das ein tröstlicher Gedanke, denn ich bin ausgehend von solchen Überlegungen fast völlig sicher, dass eine zuverlässige Vorhersage der Reaktion von Organismen mit solchen Hirnen auf unbekannte Reize in der Regel unmöglich sein wird.

Zufallszahlen und/oder Metriken

Ohja, Unvorhersehbarkeit. Zufallszahlen. Wie gesagt, es gibt wenig in der weiteren Umgebung von Computern, das der Artikel nicht streift. So auch Pseudo-Zufallszahlen, damals gewiss noch ein sehr ungewöhnliches Thema, über das Turing ausführt:

Ich habe im Manchester-Computer ein kleines Programm eingerichtet, das nur 1000 Speicherwörter belegt, bei dem die Maschine, wenn ihr eine sechzehnstellige Zahl gegeben wird, sie innerhalb von zwei Sekunden eine andere ausgibt. Ich fordere jedeN heraus, aus diesen Antworten so viel zu lernen, um die Antworten des Programms auf unbekannte Eingaben vorhersagen zu können.

Da war Turing vermutlich zu optimistisch. Gute Zufallszahlengeneratoren sind bis heute eine Herausforderung. Aber wer weiß? Wieder ist es ein Jammer, dass es damals noch keine Magnetbänder gab, die Turings Programme erhalten hätten. Oder kennen wir Turings Pseudo-Zufallszahlengenerator?

Sogar mein Lieblingsthema „Metriken und ihre Schwächen“ streift Turing:

Die Werke und Gebräuche der Menschheit scheinen kein besonders geeignetes Material für wissenschaftliche Induktion zu sein. Ein sehr großer Teil der Raumzeit muss untersucht werden, wenn zuverlässige Ergebnisse herauskommen sollen. Tun wir das nicht, könnten wir (wie die meisten Kinder in England) schließen, dass jedeR Englisch spricht, und dass es albern ist, Französisch zu lernen.

In der Tat ist das ein Aspekt, den ich bei meinen Kritiken zu Metriken selten betrachtet habe: ihnen unterliegt eigentlich fast immer eine fast nie gerechtfertigte Gleichverteilungsannahme. Nehmen wir die besonders bizarren Uni-Rankings: Es ist eigentlich offensichtlich, dass aus dem Verhalten eines_r Lehrenden (oder auch einer Handvoll von ihnen) nur sehr wenig folgt über das Verhalten aller anderen an der Uni. Mithin müssten, wenn das „Qualität der Lehre“-Beancounting von dieser Warte aus sinnvoll sein soll, im Wesentlichen alle Lehrenden in die Metrik einbezogen werden. Dann jedoch schlagen meine üblichen Einwände zu: Was bedeutet ein Mittelwert über Zahlen all der Beteiligten? Bedeutet er, unterstellt, die einzelnen Zahlen trügen eine Bedeutung, überhaupt etwas?

Erdbeeren mit Schlagsahne

Ich war vor vielen Jahren für ein paar Tage an Turings langjähriger Wirkungsstätte Cambridge, UK, und bin dort am River Cam entlang zu einer Art Ausflugs-Pub gelaufen, auf Wegen, die, so hieß es, auch Turing und seine Freunde genommen haben. An diesen Ausflug zwischen Wiesen und sanftem Fluss erinnerte mich der letzte Einwand gegen denkende Maschinen aus Turings Artikel, den ich hier zitieren möchte:

Die [Behauptung der] Unfähigkeit, Erdbeeren mit Sahne zu genießen, mag dem_der LeserIn frivol erschienen sein. Möglicherweise kann ja eine Maschine dazu gebracht werden, dieses leckere Gericht zu genießen, aber jeder Versuch, das zu tun, wäre idiotisch. Was an dieser Einschränkung wichtig ist, ist, dass sie zu einigen anderen Einschränkungen beiträgt, z.B. zur Schwierigkeit, die gleiche Sorte von Wärme zwischen einem Menschen und einer Maschine aufzubauen wie zwischen einem Menschen mit weißer Haut und einem anderen mit weißer Haut oder zwischen einem Menschen mit schwarzer Haut und einem anderen Menschen mit schwarzer Haut.

Wie auch immer mensch Turings Beispiele für die Diversität von Menschen – eingangs Geschlechter, hier Hautfarben – aus der Perspektive des mittleren 21. Jahrhunderts bewerten will: Ein Paper, in dem Erdbeeren mit Schlagsahne eine wesentliche Rolle spielen, kann eigentlich nur großartig sein. Ein neues Ziel in meinem Leben: Erdbeeren mit Schlagsahne in einer wissenschaftlichen Veröffentlichung unterbringen.

[1]Nur nebenbei: bei einem Artikel von Alan Turing, den die Gesellschaft schon 1954 in den Tod getrieben hat, sind irgendwelche Copyright-Ansprüche oder -Einwände natürlich besonders obszön.
[2]„Seminal“ ist das englische Wort für Arbeiten, die im Alleingang ein ganzes Feld definieren, und eigentlich gefällt mir die Konnotation von „wachsen“ darin erheblich besser als die vom „brechen“ auf Deutsch.
[3]Nur eben ziemlich unplausibel bei all dem Radiorauschen, das wir in unserer Welt haben und der vermutlichen Unmöglichkeit, das bisschen elektromagnetische Emission, das unsere Denkprozesse verursachen, wieder so auseinanderzupflücken, dass eine Art Neuro-TEMPEST herauskäme. Na gut: Ist angesichts realer Machtausübung in dieser Welt insgesamt auch besser so, bei aller Romantik der Vorstellung von Gedankenübertragung zwischen zwei Menschen, die sich gut leiden können.
[4]Um mal ein nanomol auf den Tisch zu legen als Verhandlungsbasis für das physische Korrelat eines Gedankens.

Letzte Ergänzungen