Replikationskrise: Ärgermanagement mit Schredder und Mülleimer
Im Januar 2019 lief im Deutschlandfunk-Sendeplatz Wissenschaft im Brennpunkt die hörenswerte Sendung Signifikant oder nicht – Wenn Studien einem zweiten Blick nicht standhalten. Der Titel lässt es ahnen: es ging um die Replikationskrise, die dank Erbsenzählerei bei der Jobvergabe und Wettbewerbsverdichtung die moderne Wissenschaft prägt, und dabei offenbar ganz besonders die Psychologie. In dieser, so heißt es in der Sendung, gelingt es für allenfalls die Hälfte der publizierten Experimente, den behaupteten Effekt bei einer Wiederholung nachzuweisen.
Als zentrale Take-Home-Nachricht aus der Sendung würde ich empfehlen: die Geschichte von den erfolgreichen Männern, die sich schon als Kind beherrschen konnten („Marshmallow-Test”), ist eine bürgerliche Legende.
Ach, das ist wirklich so?
Die Marshmallow-Geschichte illustriert ein Muster für (nicht nur psychologische) Arbeiten, die bei mir einen Replikationsalarm auslösen: Kram, der gut in bestehende Denkschemata passt, aber doch noch einen Hauch von „ach, das ist wirklich so?“ hat. 1a Material für Party-Smalltalk, wenn ihr wollt.
Etwas aus dieser Kategorie kam in den Wissenschaftsmeldungen vom 8.4.2024 im Deutschlandfunk: Die Behauptung ist, dass mensch Ärger viel besser loswird, wenn mensch die Steine des Anstoßes nicht nur zu Papier bringt, sondern dieses Papier auch noch wahlweise wegwirft oder schreddert. Hm. Das Schreddern ist also wichtig… Ist das wirklich so?
Die Illustration oben lässt ahnen, dass das Muster alles andere als neu ist. Die antiken Fluchtäfelchen folgten einem durchaus vergleichbaren Muster: Schreibe auf, was dich bedrückt, und werde es dann in mehr oder minder ritueller Art wieder los: „Vor allem in Nordafrika, Rom und den östlichen Provinzen pflegte man Flüche, die Bezüge zu Wagenrennen aufwiesen, im Circus oder in Amphitheatern zu platzieren, wobei besonders gefährliche Stellen wie die Wendepunkte bevorzugt wurden. Eine ganze Reihe von Fluchtäfelchen wurde im Trierer Amphitheater gefunden,“ schreibt aktuell die Wikipedia.
Die moderne Fassung
Der Artikel hinter dem DLF-Beitrag ist „Anger is eliminated with the disposal of a paper written because of provocation“, Scientific Reports 14, 7490 (2024) doi:10.1038/s41598-024-57916-z von Yuta Kanaya und Nobuyuki Kawai. Von der Anmutung her könnte es die Publikation von etwas wie Kanayas Abschlussarbeit an der Universität von Nagoya sein. Wenn das so ist, hätten Kawai oder spätestens die GutachterInnen, so finde ich, schon intervenieren können, denn an einigen Stellen wirkt der Artikel stilistisch unnötig unbeholfen.
Eher schrullig fand ich ja bereits die Attributierung „by a philosopher in Imperium Romanum“ für ein Zitat zum Wert des Gleichmuts. Der leicht angestaubt wirkende Verweis auf Griechenundrömer[1] – und schon gar zu einem Thema, das von hier aus gesehen ein Markenzeichen ost- und südasiatischer Weltanschauungen ist – wird durch das gleichzeitige idiomatische Stolpern – wenn schon westliche Antike, hätte zumindest der Name „Seneca“ fallen müssen, und „in Imperium Romanum“ ist wenigstens in seiner Anmutung, das sei eine Art Land, stark ahistorisch – ins Komische gezogen.
Der Eindruck einer aufgeregten Erstlingsarbeit verstärkt sich etwas später in der Einleitung, als Kanaya und Kawai das vorliegende Projekt mit „aber: DIE KINDER!“ als Teil der Weltrettung zu positionieren versuchen. Ich bin noch nicht mal sicher, ob Wutkontrolle überhaupt eine Rolle spielen kann und sollte bei der Eindämmung von Gewalt gegen und Traumatisierung von Kindern. Aber es ist offensichtlich, dass kein Schütteltrauma verhindert werden wird, weil sich genervte Eltern hinsetzen, „der Schreihals soll jetzt endlich aufhören“ auf einen Zettel schreiben und den dann wegwerfen.
Jenseits von Stilfragen
Stilfragen beiseite ist das Paper durchaus lesenswert, zumal der Versuchsaufbau sich immerhin bemüht, irgendwie mit dem Grundproblem psychologischer Studien umzugehen: Sie sind fast nie verblindbar, weil die Leute ja merken, wie sie behandelt werden und was sie tun. Kanaya und Kawai versuchen, das Problem durch Tarnung des eigentlichen Erkenntnisinteresses zu umgehen.
Um die ProbandInnen (insgesamt gut 100, die meisten davon Studis) zu ärgern, haben sie eine ungerechte, ja beleidigende Beurteilung (für japanische Verhältnisse dürften ein paar der verwendeten Phrasen wie „wer hat diesen Idioten an die Uni gelassen?“ klingen) eines frisch verfassten Aufsatzes gewählt. Nach der Lektüre der Beurteilung durften die ProbandInnen ihre Kränkungen auf einen Zettel schreiben. Diesen mussten sie entweder aufheben oder wegwerfen bzw. schreddern.
Bemerkenswert fand ich dabei die Genderstruktur der ProbandInnen, die aus der Auswertung ausgeschlossen wurden, weil sie das Experiment durchschaut hatten. Klar sind die Zahlen sehr klein, aber es zeigt sich im ersten Durchgang des Experiments ein überraschend starkes Gender-Signal: von den ProbandInnen waren 37% weiblich, von denen, die es durchschaut haben, 71%.
Im zweiten, dem Schredder-Experiment (in dem allerdings auch eine andere Demographie rekrutiert worden ist), hat sich dann aber kein solches Signal gezeigt; dort sollen überhaupt nur zwei überrissen haben, worum es ging (na ja: haben sich dabei erwischen lassen). Nun: Dass „Frauen sind empathischer“ nicht replizierbar ist, hätte ich jetzt auch gehofft.
Zurück zum eigentlichen Experiment: Ich erlaube mir, die mir etwas esoterisch erscheinenden Überlegungen zu „grounded separation“ und die sie adressierenden Details wegzuabstrahieren, und ich spare mir hier die an sich notwendige Überlegung, ob es überhaupt ein Maß für Ärger gibt, ganz zu schweigen davon, ob die Methode der Autoren, dieses zu bestimmen, das eigentlich tut[2].
Stattdessen zeige ich gleich das zentrale Ergebnis des Papers in diesen beiden Graphen:
Was mensch sehen soll: In allen Fällen werden relativ ausgeglichene Menschen („baseline“) erfolgreich geärgert („Provocation“) und kommen durch Aufschreiben ihrer Beschwernisse sowie ggf. der Entsorgung des Aufschriebs wieder runter; dabei funktionieren Schredder (volle Punkte rechts) und Papierkorb (volle Punkte links) gleich gut und an der durch die Fehlerbalken angedeuteten Signifikanzgrenze besser als Aufschreiben und Behalten.
Ich habe offen gestanden Schwierigkeiten, die so eng überlappenden Kurvenverläufe bis zur Provokation zu glauben. Wenn die Fehlerbalken so groß sind wie gezeigt (und das glaube ich bei so Fragebogenmaßen gerne), ist es ziemlich unwahrscheinlich, dass vier Punktepaare so eng beieinanderliegen. Mindestens ebenso erstaunlich ist, wie nahe die Post-Provocation-Punkte zwischen rechts und links beieinanderliegen, da bei der rechten Retention-Gruppe ein extra Plexiglasgestell ihnen ihre Beschwernisse recht aufdringlich in Erinnerung rief. Dieses Gestell alleine hätte mich schon zusätzlich zu allem anderen verärgert.
Ich will damit nicht sagen, dass da die Autoren Daten absichtlich gegelättet oder frisiert haben. Es gibt eine Unzahl von Fallen, die so gute Übereinstimmungen vortäuschen können – wenn es einfach wäre, wäre es keine Wissenschaft. Ich sage nur, dass ich überhaupt nicht überrascht wäre, wenn sich dieses Ergebnis nicht replizieren ließe oder sich jedenfalls viele Details des Experiments als unwichtig erwiesen.
Fragen zum Ärgern
Aber wer weiß? Natürlich machen auch die Autoren quantitative Analysen, irgendeine ANOVA, und in dem Zahlenmeer finden sich dann trotz Bonferroni auch ein paar signifikante Ergebnisse.
Ich habe ja unabhängig davon rein intuitiv wenig Zweifel, dass sowohl Verbalisieren von Bekümmernissen als auch Zeug kaputtmachen jeweils geeigneten Ärger mindern kann. Nur: Ist es eigentlich wichtig, dass es gerade der Zettel ist, den mensch weghaut? Hätte sich nicht der gleiche Effekt ergeben, wenn die ProbandInnen was ganz anderes kaputt gemacht hätten, vielleicht noch unterschieden nach denen, die etwas Charismatisches (einen Teddybären?) und etwas Widerliches (einen McKinsey-Bericht?) in den Schredder gepackt hätten? Hätten sie auch einfach Holz spalten können?
Und dann gibts eine weitere gute Frage: Wenn Prüfungen und ihre Bewertungen für so viel Stunk sorgen: Sollten wir sie dann nicht einfach lassen, wo wir doch gerade gelernt haben, wie schlecht das für die Kinder ist? Oder vielleicht lieber erforschen, wie - wenn es doch vernünftige Gründe für sie geben sollte – wir die Prüfungen so gestalten, dass sie weniger zu Ärger als vielmehr zu Motivation führen?
[1] | Jaja, ich weiß schon, dass ich genau das in diesem Blogpost selbst mache. Wer mag, darf das als Selbstironie interpretieren, aber in Wahrheit habe ich halt einen Römerfimmel und habe das Fluchtäfelchen tatsächlich erst vorgestern fotografiert. |
[2] | Die Autoren verwenden u.a. einen selbstgebastelten Fragebogen, auf dem ihre ProbandInnen jedem Begriff von (übersetzt) angry, bothered, annoyed, hostile, and irritated eine Zahl zwischen eins und sechs zuordnen, je nach dem, wie sie sich gerade fühlen; „anger experience composite“ nennen die Autoren ihr Maß, was sich für mich schon fast ein wenig nach Aktienindex anhört. |