Kritik an der PISA-Studie

Obwohl in der Wissenschaft insgesamt sowohl die theoretische Fundierung der PISA-Studien als auch ihre methodisch saubere Auswertung nicht in Zweifel gezogen wird, wird an einzelnen Punkten der Studien gelegentlich Kritik geübt. Häufig entstammen die Kritiker nicht direkt der Bildungsforschung. Von den an den PISA-Studien beteiligten Wissenschaftler wird ihnen deshalb zumeist mangelnde Sachkenntnis vorgeworfen.

Was messen PISA-Aufgaben?

Heiner Rindermann, Volkmar Weiss und Siegfried Lehrl argumentieren (siehe Literatur unten), PISA sei ein Unternehmen zur Messung der Allgemeinen Intelligenz, und zwar das aufwendigste und beste international je unternommene. Die Länder-Ergebnisse von PISA stimmten, so die Autoren, auf plus oder minus drei IQ-Punkte mit den IQ-Daten (und -Schätzungen) im Buch "IQ and the Wealth of Nations" (Lynn und Vanhanen, 2002) überein. Die gefundenen Korrelationen, die auf Grund der meist "vorzüglichen Repräsentativität" der Stichproben höher seien als zwischen den bisher üblichen IQ-Tests, bewiesen für die Befürworter von IQ-Tests die grundlegende Übereinstimmung von PISA-Ergebnissen mit den Ergebnissen von einem Jahrhundert klassischer Intelligenzforschung und die Brauchbarkeit bewährter, standardisierter IQ-Tests, ebenso wie die sehr hohen Korrelationen zwischen PISA-Werten und IQ mit den Ergebnissen der TIMSS-Studie und der IGLU-Studie. Allerdings korrelieren die Ergebnisse der PISA-Studien mit denen der IGLU-Studie nicht, da beide Studien unterschiedliche Stichprobendefinitionen aufweisen. Während die PISA-Studie sich am Lebensalter der Probanden orientiert (15 Jahre), testet die IGLU-Grundschulstudie Schülerinnen und Schüler einer bestimmten Klassenstufe (zumeist 4. Klasse). Deshalb können die Ergebnisse beider Studien auch nicht korrelieren und insofern auch nicht die "Ergebnisse von einem Jahrhundert klassischer Intelligenzforschung" bestätigen.

Über die curriculare Validität, also die Übereinstimmung der Testaufgaben mit dem Lehrplan der getesteten Schulen, bestehen unterschiedliche Anschauungen. Während der Leiter der PISA 2000 Studie, der Sport- und Altgriechischlehrer (heutiger Vizepräsident der Max-Planck-Gesellschaft) Prof. Jürgen Baumert diese noch kategorisch ablehnte, wird die curriculare Validität von seinem Nachfolger, dem Psychologen und Direktor des IPN Kiel hingegen kategorisch postuliert. Wie allerdings curriculare Validität angesichts der überwiegend geheim gehaltenen Aufgaben festgestellt wurde, außer durch sog. Expertenurteil, ist bislang ungeklärt.

Der Mathematikdidaktiker W. Meyerhöfer argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell "Mathematische Literalität" zu testen, nicht gerecht werde: Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:

  • Oftmals gibt es so viele Möglichkeiten, zur gewünschten Lösung (die nicht in jedem Fall die richtige Lösung ist) zu gelangen, dass man nicht benennen kann, welche Fähigkeit die Aufgabe eigentlich misst. Das Konstrukt "mathematische Leistungsfähigkeit" wird damit zu einem zufälligen.
  • Es werden Komponenten von Testfähigkeit mitgemessen. Als Kernkompetenz von Testfähigkeit stellt sich heraus, weder das gestellte mathematische Problem noch die angeblichen realen Probleme ernst zu nehmen, sondern sich stattdessen auf das zu konzentrieren, was die Tester angekreuzt oder hingeschrieben sehen wollen. Prinzipiell erweist es sich als günstig, mittelmäßig zu arbeiten, auf intellektuelle Tiefe in der Auseinandersetzung mit den Aufgaben also zu verzichten.
  • Man kann bei Multiple-Choice-Tests raten. Die PISA-Gruppe behauptet zwar, dieses Problem technisch überwinden zu können, dies erweist sich aber als Fehleinschätzung.
  • Die vorgeblich verwendeten didaktischen und psychologischen Theorien sind lediglich theoretische Mäntel für eine theoriearme Testerstellung.
  • Die Tests werden nicht durch Operationalisierungen von Messkonstrukten erstellt, sondern durch systematisches Zusammenstückeln von Aufgaben.
  • Bei PISA sollte "Mathematical Literacy" getestet werden. Verkürzt sollte das die Fähigkeit sein, "die Rolle, die Mathematik in der Welt spielt, zu erkennen und zu verstehen, begründete mathematische Urteile abzugeben und sich auf eine Weise mit der Mathematik zu befassen, die den Anforderungen des gegenwärtigen und künftigen Lebens einer Person als eines konstruktiven, engagierten und reflektierten Bürgers entspricht" (PISA-Eigendarstellung). Von all dem kann angesichts der Aufgaben keine Rede sein.
  • Es zeigt sich ein mathematikdidaktischer Habitus, der unter dem Stichwort der "Abkehr von der Sache" zusammengefasst wird. Er umfasst folgende Elemente: Manifeste Orientierung auf Fachsprachlichkeit bei latenter Zerstörung des Mathematischen, Illusion der Schülernähe als Verblendung, Kalkülorientierung statt mathematischer Bildung, Misslingen der "Vermittlung" von Realem und Mathematischem bei realitätsnahen Aufgaben. Letzteres gründet in der Nichtbeachtung der Authentizität sowohl des Realen als auch des Mathematischen.

(vergleiche: Wolfram Meyerhöfer: Tests im Test - Das Beispiel PISA. Verlag B. Budrich, Opladen 2005)

 

Methodisch-statistische Mängel

sowohl in Durchführung als auch in der Auswertung. Die Vergleichbarkeit zwischen den Ländern ist u.a. aufgrund der unterschiedlichen Einschulungsmodalitäten nicht gegeben, eine repräsentative Stichprobenziehung gar nicht möglich und auch nicht durch nachträgliches Adjustieren, etwa mittels Gewichtungsvariablen, durchführbar. Die Differenzen in den (relationalen) Rating-Skalen seien inhaltlich nicht interpretierbar. In Wahrheit würden in den Punktelisten nur kleine Differenzen zwischen Ländern abgebildet, die genauso gut durch eben diese methodischen Mängel und fachlichen Mängel erklärbar seien.

Was messen PISA-Aufgaben? Eine Studie an der Freien Universität Berlin (FU-Berlin) zeigte erhebliche Mängel in der statistischen Auswertung durch das MPIB für die PISA2000-I und -E Studien auf. http://www.pisa2000.de [5] http://www.diss.fu-berlin.de/2005/218/. Die Mangelhaftigkeit der Auswertungen durch die Erziehungswissenschaftler des MPIB würde sogar den Wert der PISA-Studie an sich in Frage stellen. Einige Argumente:

(1) Ursache für das schlechte Abschneiden der Schülerinnen und Schüler in Deutschland sei die Stichprobendefinition nach Lebensalter (und nicht nach Schulalter wie bei der IGLU-Studie). In Deutschland wird vergleichsweise spät eingeschult, mithin befinden sich die meisten Probanden in der Klassenstufe 9. Würden Schülerinnen und Schüler nach Schulalter (Klassenstufe) getestet, dann erreichten diese Testwerte im oberen Testleistungsbereich.

(2) Die hohen sozialen Disparitäten im Lesen seien einem mangelhaften Testkonstrukt zuzuschreiben, das einerseits mit der Stichprobendefinition zusammenhinge und andererseits das Ergebnis von so genannten Boden- und Deckeneffekten sei. Diese entstünden bei ungeeignetem, dem Kenntnisstand der Schüler nicht adäquatem Testkonstrukt.

(3) Die so genannten "Nichtleser" seien lediglich eine Fehlinterpretation eines Items (read for enjoyment). Gefragt wurde in der PISA-Studie eben nicht danach, wer nicht liest, sondern lediglich danach, wer in seiner Freizeit "aus Vergnügen" lese. Das MPIB hatte daraus die Folgerung abgeleitet, dass es in Deutschland besonders viele schwache Leser (also sog. "Nichtleser") gäbe. Japan jedoch weise erheblich mehr "Nichtleser" auf (bei hohem Testwert im Lesen), Brasilien hingegen die wenigsten (bei niedrigem Testwert).

Die Studie weist auf mehreren Hundert Seiten praktisch sämtliche von den Berliner Psychologen berechneten Statistiken als wissenschaftlich nicht haltbar aus. Der Psychologe und Direktor des federführenden Instituts IPN-Kiel, Prof. Prenzel, reagierte auf die Studie des Berliner FU-Statistikers im Rahmen eines ganzseitigen Artikels im Berliner Tagesspiegel, ohne jedoch auf die Inhalte der Studie einzugehen.

 

Verzerrte Stichprobe

Kritiker - darunter die Ökonomen von Collani und Prais, der Physiker Wuttke, der Mathematiker Putz sowie eine Gruppe Österreichischer Statistiker um Neuwirth - haben auf mögliche Verzerrungen bei der Stichprobenziehung hingewiesen:

  • Pisa testete 15-Jährige. In diesem Alter sind in vielen Ländern besonders schwache Schüler schon nicht mehr in der Schule. In der Türkei zum Beispiel besuchen in diesem Altersjahr nur noch 54 Prozent die Schule, in Mexiko 58 Prozent, in Deutschland aber 96,3 Prozent. Das bedeutet: Besonders schwache Schüler drückten hier das Niveau, während sie in anderen Ländern als Schulabgänger schon gar nicht mehr vertreten waren - sehr wohl aber für die allgemeine Leistungsfähigkeit eines Schulsystems stehen könnten.
  • In Südtirol wurden nur 83% aller Fünfzehnjährigen als Schüler erfasst, obwohl dort in diesem Alter noch Schulpflicht herrscht. Wahrscheinlich sind Berufsschulen weitestgehend von der Testung ausgeschlossen worden, was das Spitzenergebnis dieses Landes als ein statistisches Artefakt erklären würde.
  • In Österreich mussten sämtliche Ergebnisse aus PISA 2000 wegen ungenügender Berücksichtigung von Berufsschülern Jahre später deutlich nach unten korrigiert werden .
  • Viele Länder schlossen Sonderschüler aus der Stichprobe aus. Nur in sieben Ländern, darunter auch Deutschland, wurden Sonderschüler in Kurztests getestet. Würde man diese Tests aus PISA herausrechnen, wäre Deutschland bei Pisa 2003 mit der Leseleistung seiner Schüler vom 18. auf den 12. Rang unter 29 Staaten vorgerutscht. Andere Staaten haben keine Sonderschulen für Lernbehinderte, konnten aber bis zu 4,5% der Grundgesamtheit auf Schulebene ausschließen.
  • In Dänemark, Finnland, Griechenland, Irland und Polen wurden Legastheniker von der Teilnahme ausgeschlossen.
  • In Dänemark wurden auch Schüler mit Rechenschwäche ausgeschlossen.
  • Einzelheiten der Stichprobenziehung und Testdurchführung sind völlig unkontrollierbar und bei entsprechendem politischem Interesse beliebig manipulierbar.

Ist Pisa eine Schulleistungsuntersuchung?

In der Öffentlichkeit wird PISA ganz überwiegend als eine Untersuchung der Leistungsfähigkeit des Schulwesens wahrgenommen. Das ist konsistent mit der Wahrnehmung von PISA als Länderwettkampf, da die Grundstruktur des Schulwesens von Land zu Land unterschiedlich ist. Dieser Deutung von PISA als Schulleistungsuntersuchung liegen Annahmen zugrunde, die selten klar benannt werden:

(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lasse sich rechtfertigen, wenn man Leistung als Ergebnis bis zu einem bestimmten Lebensalter auffasst. PISA benachteiligt Schulsysteme, in denen ein nennenswerter Teil der Schüler durch späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen niedrigere Klassenstufen aufweist. Deshalb sei der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Schülern nahe am Ende der Pflichtschulzeit (near the end of compulsory education) zu vergleichen. Man kann allerdings auch fragen, ob Rückstellungen etc. pädagogisch sinnvolle Maßnahmen darstellen. Allerdings hat eine wissenschaftliche Studie die Aufgabe, ihre eigenen Maßstäbe klar und transparent zu definieren und sich einer Wertung, die sich bereits in der Wahl der Stichprobendefinition implizit findet, zu enthalten.

(2) PISA messe nicht den Zuwachs kognitiver Fähigkeiten im Verlauf der Schulzeit, sondern allein den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht.

Dieses Argument unterschlägt, dass es zahlreiche weitere Untersuchungen gibt, auch als Längssschnitt wie z.B. die LAU-Untersuchungen in Hamburg. Die Frage nach Anlage oder Umwelt stellt sich für die Schule nicht. Entscheidend ist, ob etwas verändert werden kann und ob man dazu genügend Zeit hat, was durch die frühe Selektion nach der Klasse 4 fraglich ist.

Jedoch - so die Kritik weiter - erlaube PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die aufgrund vernachlässigten Spracherwerbs in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63% ein Gymnasium. Dies wird erklärt mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland und einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur.

(3) Die Ergebnisse von PISA würden ca. 2 Jahre nach der Erhebung veröffentlicht. Deshalb seien Rückschlüsse auf die schulpolitische Situation zum Veröffentlichungszeitpunkt nicht statthaft (was aber in der Berichterstattung getan wird). Dieses Argument geht aber von schnellen Änderungen im System aus, etwas, was bisher kaum belegt ist.