Obwohl in der Wissenschaft insgesamt sowohl die theoretische Fundierung der PISA-Studien als auch ihre methodisch saubere Auswertung nicht in Zweifel gezogen wird, wird an einzelnen Punkten der Studien gelegentlich Kritik geübt. Häufig entstammen die Kritiker nicht direkt der Bildungsforschung. Von den an den PISA-Studien beteiligten Wissenschaftler wird ihnen deshalb zumeist mangelnde Sachkenntnis vorgeworfen.
Heiner Rindermann, Volkmar Weiss und Siegfried Lehrl argumentieren (siehe Literatur unten), PISA sei ein Unternehmen zur Messung der Allgemeinen Intelligenz, und zwar das aufwendigste und beste international je unternommene. Die Länder-Ergebnisse von PISA stimmten, so die Autoren, auf plus oder minus drei IQ-Punkte mit den IQ-Daten (und -Schätzungen) im Buch "IQ and the Wealth of Nations" (Lynn und Vanhanen, 2002) überein. Die gefundenen Korrelationen, die auf Grund der meist "vorzüglichen Repräsentativität" der Stichproben höher seien als zwischen den bisher üblichen IQ-Tests, bewiesen für die Befürworter von IQ-Tests die grundlegende Übereinstimmung von PISA-Ergebnissen mit den Ergebnissen von einem Jahrhundert klassischer Intelligenzforschung und die Brauchbarkeit bewährter, standardisierter IQ-Tests, ebenso wie die sehr hohen Korrelationen zwischen PISA-Werten und IQ mit den Ergebnissen der TIMSS-Studie und der IGLU-Studie. Allerdings korrelieren die Ergebnisse der PISA-Studien mit denen der IGLU-Studie nicht, da beide Studien unterschiedliche Stichprobendefinitionen aufweisen. Während die PISA-Studie sich am Lebensalter der Probanden orientiert (15 Jahre), testet die IGLU-Grundschulstudie Schülerinnen und Schüler einer bestimmten Klassenstufe (zumeist 4. Klasse). Deshalb können die Ergebnisse beider Studien auch nicht korrelieren und insofern auch nicht die "Ergebnisse von einem Jahrhundert klassischer Intelligenzforschung" bestätigen.
Über die curriculare Validität, also die Übereinstimmung der Testaufgaben mit dem Lehrplan der getesteten Schulen, bestehen unterschiedliche Anschauungen. Während der Leiter der PISA 2000 Studie, der Sport- und Altgriechischlehrer (heutiger Vizepräsident der Max-Planck-Gesellschaft) Prof. Jürgen Baumert diese noch kategorisch ablehnte, wird die curriculare Validität von seinem Nachfolger, dem Psychologen und Direktor des IPN Kiel hingegen kategorisch postuliert. Wie allerdings curriculare Validität angesichts der überwiegend geheim gehaltenen Aufgaben festgestellt wurde, außer durch sog. Expertenurteil, ist bislang ungeklärt.
Der Mathematikdidaktiker W. Meyerhöfer argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell "Mathematische Literalität" zu testen, nicht gerecht werde: Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:
(vergleiche: Wolfram Meyerhöfer: Tests im Test - Das Beispiel PISA. Verlag B. Budrich, Opladen 2005)
sowohl in Durchführung als auch in der Auswertung. Die Vergleichbarkeit zwischen den Ländern ist u.a. aufgrund der unterschiedlichen Einschulungsmodalitäten nicht gegeben, eine repräsentative Stichprobenziehung gar nicht möglich und auch nicht durch nachträgliches Adjustieren, etwa mittels Gewichtungsvariablen, durchführbar. Die Differenzen in den (relationalen) Rating-Skalen seien inhaltlich nicht interpretierbar. In Wahrheit würden in den Punktelisten nur kleine Differenzen zwischen Ländern abgebildet, die genauso gut durch eben diese methodischen Mängel und fachlichen Mängel erklärbar seien.
Was messen PISA-Aufgaben? Eine Studie an der Freien Universität Berlin (FU-Berlin) zeigte erhebliche Mängel in der statistischen Auswertung durch das MPIB für die PISA2000-I und -E Studien auf. http://www.pisa2000.de [5] http://www.diss.fu-berlin.de/2005/218/. Die Mangelhaftigkeit der Auswertungen durch die Erziehungswissenschaftler des MPIB würde sogar den Wert der PISA-Studie an sich in Frage stellen. Einige Argumente:
(1) Ursache für das schlechte Abschneiden der Schülerinnen und Schüler in Deutschland sei die Stichprobendefinition nach Lebensalter (und nicht nach Schulalter wie bei der IGLU-Studie). In Deutschland wird vergleichsweise spät eingeschult, mithin befinden sich die meisten Probanden in der Klassenstufe 9. Würden Schülerinnen und Schüler nach Schulalter (Klassenstufe) getestet, dann erreichten diese Testwerte im oberen Testleistungsbereich.
(2) Die hohen sozialen Disparitäten im Lesen seien einem mangelhaften Testkonstrukt zuzuschreiben, das einerseits mit der Stichprobendefinition zusammenhinge und andererseits das Ergebnis von so genannten Boden- und Deckeneffekten sei. Diese entstünden bei ungeeignetem, dem Kenntnisstand der Schüler nicht adäquatem Testkonstrukt.
(3) Die so genannten "Nichtleser" seien lediglich eine Fehlinterpretation eines Items (read for enjoyment). Gefragt wurde in der PISA-Studie eben nicht danach, wer nicht liest, sondern lediglich danach, wer in seiner Freizeit "aus Vergnügen" lese. Das MPIB hatte daraus die Folgerung abgeleitet, dass es in Deutschland besonders viele schwache Leser (also sog. "Nichtleser") gäbe. Japan jedoch weise erheblich mehr "Nichtleser" auf (bei hohem Testwert im Lesen), Brasilien hingegen die wenigsten (bei niedrigem Testwert).
Die Studie weist auf mehreren Hundert Seiten praktisch sämtliche von den Berliner Psychologen berechneten Statistiken als wissenschaftlich nicht haltbar aus. Der Psychologe und Direktor des federführenden Instituts IPN-Kiel, Prof. Prenzel, reagierte auf die Studie des Berliner FU-Statistikers im Rahmen eines ganzseitigen Artikels im Berliner Tagesspiegel, ohne jedoch auf die Inhalte der Studie einzugehen.
Kritiker - darunter die Ökonomen von Collani und Prais, der Physiker Wuttke, der Mathematiker Putz sowie eine Gruppe Österreichischer Statistiker um Neuwirth - haben auf mögliche Verzerrungen bei der Stichprobenziehung hingewiesen:
In der Öffentlichkeit wird PISA ganz überwiegend als eine Untersuchung der Leistungsfähigkeit des Schulwesens wahrgenommen. Das ist konsistent mit der Wahrnehmung von PISA als Länderwettkampf, da die Grundstruktur des Schulwesens von Land zu Land unterschiedlich ist. Dieser Deutung von PISA als Schulleistungsuntersuchung liegen Annahmen zugrunde, die selten klar benannt werden:
(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lasse sich rechtfertigen, wenn man Leistung als Ergebnis bis zu einem bestimmten Lebensalter auffasst. PISA benachteiligt Schulsysteme, in denen ein nennenswerter Teil der Schüler durch späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen niedrigere Klassenstufen aufweist. Deshalb sei der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Schülern nahe am Ende der Pflichtschulzeit (near the end of compulsory education) zu vergleichen. Man kann allerdings auch fragen, ob Rückstellungen etc. pädagogisch sinnvolle Maßnahmen darstellen. Allerdings hat eine wissenschaftliche Studie die Aufgabe, ihre eigenen Maßstäbe klar und transparent zu definieren und sich einer Wertung, die sich bereits in der Wahl der Stichprobendefinition implizit findet, zu enthalten.
(2) PISA messe nicht den Zuwachs kognitiver Fähigkeiten im Verlauf der Schulzeit, sondern allein den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht.
Dieses Argument unterschlägt, dass es zahlreiche weitere Untersuchungen gibt, auch als Längssschnitt wie z.B. die LAU-Untersuchungen in Hamburg. Die Frage nach Anlage oder Umwelt stellt sich für die Schule nicht. Entscheidend ist, ob etwas verändert werden kann und ob man dazu genügend Zeit hat, was durch die frühe Selektion nach der Klasse 4 fraglich ist.
Jedoch - so die Kritik weiter - erlaube PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die aufgrund vernachlässigten Spracherwerbs in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63% ein Gymnasium. Dies wird erklärt mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland und einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur.
(3) Die Ergebnisse von PISA würden ca. 2 Jahre nach der Erhebung veröffentlicht. Deshalb seien Rückschlüsse auf die schulpolitische Situation zum Veröffentlichungszeitpunkt nicht statthaft (was aber in der Berichterstattung getan wird). Dieses Argument geht aber von schnellen Änderungen im System aus, etwas, was bisher kaum belegt ist.