Die Auswertung der PISA-Studie beruht auf mathematischen Modellen, die es erlauben, Aufgabenschwierigkeiten und Schülerkompetenzen auf ein und derselben Leistungsskala zu beschreiben (Rasch-Modell; siehe auch Rost, J. (2004). Testtheorie. Bern: Huber.). Diese Skala wurde willkürlich so gewählt, dass die Schülerkompetenzen der gesamten OECD-Stichprobe (ohne Partnerländer) den Mittelwert 500 und die Standardabweichung 100 haben. Das heißt: Schüler mit der Leistungsfähigkeit 400, 500, 600 sind leistungsfähiger als 15,9 %, 50 % oder 84,1 % aller OECD-Schüler. Durch die erstmalige Einbeziehung der Türkei mit ihren niedrigen Werten in die Berechnung des OECD-Mittelwertes im Jahre 2003 hat sich der Wert aller anderen Länder gegenüber 2000 um 3 Punkte verbessert, ohne dass in diesen Ländern irgendetwas Inhaltliches zu dieser Verbesserung beigetragen worden ist. Würde man die Länder entsprechend ihren Schülerzahlen im getesteten Jahrgang bei der Mittelwertsbildung gewichten, ließen sich weitere derartige "Verbesserungen" erreichen.
Eine ähnliche Skalenkonstruktion ist von IQ-Tests bekannt, deren Mittelwert 100 und deren Standardabweichung zumeist 15 ist, der Umrechnungsfaktor demnach 100 zu 15 = 6,67 für die Abweichungen vom PISA-Mittelwert 500. Nach Meinung der Bildungsforscher haben die Aufgaben aus den PISA-Tests allerdings nichts mit IQ-Tests zu tun, und sie sträuben sich deshalb gegen eine Umrechnung in IQ-Werte (Kritik).
Die Leistungsskala der PISA-Studien ist so konstruiert, dass die Schülerfähigkeiten normalverteilt sind mit Mittelwert 500 und Standardabweichung 100. Eine solche Normierung (mit Mittelwert 100 und Standardabweichung von zumeist 15) ist seit langem in IQ-Tests üblich.
Tatsächlich verwendet PISA nicht eine sondern drei Leistungsskalen, für die drei Kompetenzfelder Lesen, Mathematik, Naturwissenschaften. Für dasjenige Kompetenzfeld, das in einem Durchgang vertieft untersucht wird, werden überdies Subskalen gebildet. In PISA 2000 wurde die Lesekompetenz aufgegliedert in "Informationen ermitteln", "textbezogen Interpretieren" und "Reflektieren und Bewerten"; in PISA 2003 gibt es für den Schwerpunkt Mathematik vier Subskalen: "Raum und Form", "Veränderung und Beziehung", "Quantität" und "Unsicherheit".
Alle Kompetenzen und Subkompetenzen sind jedoch hoch miteinander korreliert, und es lässt sich aus ihnen leicht ein Mittelwert bilden. Eine zusammenfassende Bewertung auf einer Skala findet sich zwar in keiner der offiziellen Publikationen; sie wurde jedoch von einigen Presseorganen hergestellt, um PISA noch plakativer als einen quasi olympischen Ländervergleich darstellen zu können.
Es wird postuliert, dass Aufgabenschwierigkeit und Schülerkompetenz die Lösungswahrscheinlichkeit festlegen. Eine Aufgabe i hat zum Beispiel die Schwierigkeit ξi=550, wenn ein Schüler ν mit der Leistungsfähigkeit σν=550 diese Aufgabe mit "hinreichender Sicherheit" lösen kann. In willkürlicher Weise wird definiert, dass "hinreichende Sicherheit" eine Lösungswahrscheinlichkeit von 62% bedeutet.
Im Rahmen der Auswertung müssen aus den Schülerdatensätzen sowohl die Aufgabenschwierigkeiten als auch die Schülerkompetenzen ermittelt werden. Diese Auswertung ist von Modellannahmen (Item Response Theory) abhängig, überaus kompliziert und schlecht dokumentiert. Die offizielle Beschreibung im technischen Bericht (S. 99ff.) ist sehr allgemein gehalten. Es werden keine konkreten Zahlenwerte für die Modellparameter angegeben; es nicht einmal möglich, die Dimension wichtiger Vektoren zu erschließen. Folgendes lässt sich einigermaßen zuverlässig herauslesen:
Zur Charakterisierung bestimmter Teilpopulationen, zum Beispiel nach Land, nach Geschlecht oder nach sozioökonomischen Kriterien, bildet man einfach Mittelwerte über die "plausible value"-Fähigkeitswerte der einzelnen Schüler.