Quelle: http://www.phil.uni-sb.de/~jakobs/paedpsych/noten/guetekriterien_von_noten.html

Gütekriterien von Noten

Testgütekriterien

wurden für psychologische Testverfahren entwickelt und haben dort eine relativ klare Bedeutung.
Objektivität:
Das Testergebnis ist unabhängig vom Testleiter und Testauswerter. Jeder Kandidat bearbeitet das gleiche Testmaterial unter den gleichen Bedingungen. (z.B. standardisierte Testinstruktion, festgelegte und kontrollierte Bearbeitungszeit). Werten verschiedene Auswerter den Test aus, so erzielen sie hoch vergleichbare Testresultate. Es ist zudem eindeutig festgelegt, wie Testrohwerte bestimmten Normwerten zugeordnet werden.
Reliabilität ( Zuverlässigkeit, Messgenauigkeit)
Ein bestimmtes Merkmal wird relativ zuverlässig bzw. ziemlich genau erfasst. Wie genau, kann durch Kennwerte quantifiziert werden. Wird ein relativ stabiles Merkmal (z.B. Intelligenz) gemessen, so führen mehrfache Messungen mit demselben Intelligenztest zu hoch vergleichbaren Ergebnissen. Werden Personen mit Versionen desselben Intelligenztests (etwa Form A und B) gemessen, so erzielen sie sehr ähnliche Ergebnisse.
Validität
Es sollte gesichert sein, dass ein Messinstrument das misst, was es zu messen vorgibt.
Der Intelligenztest soll Intelligenz, und nicht etwas anderes, z.B. Ausdauer oder Kreativität erfassen.
Der Test sollte theoriekonforme Beziehungen zu solchen Variablen aufweisen, die irgendwas mit Intelligenz zu tun haben (z.B. sehr hoher Zusammenhang mit sonstigen Intelligenztests, mäßiger Zusammenhang mit Schulleistungen) und keine Beziehungen zu Variablen, die in keinem verständlichen Zusammenhang mit Intelligenz stehen (z.B. Neurotizismus, psychomotorische Kraft). Eignungstests sollten aussagekräftige Prognosen für zukünftige Leistungen in den Bereichen erlauben, welche die Eignung voraussetzt.

Noten unterscheiden sich in mehrfacher Hinsicht von herkömmlichen Tests.

Bei einem psychologischen Testverfahren (z.B. Intelligenztest)
Objektivität von Klassenarbeiten bzw. Noten
Durchführungsobjektivität: Alle Schüler bearbeiten die Klassenarbeit unter vergleichbaren Bedingungen.
Mögliche Fehlerquellen:
Lehrer liest das Diktat bei Nachschreibern schneller vor als bei der offiziellen Klassenarbeit.
Lehrer gibt dem Schüler A nähere Erklärungen zur Aufgabe, nicht aber dem Schüler B.
In Deutsch dürfen die Schüler Aufsätze aus verschiedenen, (unterschiedlich schwierigen) Themen auswählen.
Bei mündlichen Prüfungen werden ganz unterschiedliche Lerngebiete erfragt (eigentlich auch ein Validitätsproblem).
Auswertungsobjektivität: Das Ergebnis der Klassenarbeit ist unabhängig davon, wer die Klassenarbeit benotet. (Intersubjektivität)
Mögliche Fehlerquellen:
Lehrer A legt andere Schwerpunkte bei Auswertung als Lehrer B (z.B. berücksichtigt keine Rechtschreib- und Grammatikfehler, Legt mehr Wert auf den Rechengang, weniger auf die Rechenergebnisse). Konsequenz unterschiedliche Gesamtpunktzahlen.
Interpretationsobjektivität: Dieselbe Leistung wird in gleicher Weise interpretiert.
Hierunter könnte man die Zuteilung von Fehlern bzw. korrekten Lösungen zu entsprechenden Noten verstehen. Wie sollen den Leistungen (richtigen Lösungen) der Schüler die Noten zugeordnet werden? Es gibt hier keine eindeutigen Vorschriften oder Regeln und die würden auch nicht viel nützen, weil die Fehleranzahl (bzw. der Prozentsatz der korrekten Lösungen) von den Schwierigkeiten der Aufgaben abhängen, die wiederum nicht eindeutig festgelegt sind.
Zuverlässigkeit einer speziellen Klassenarbeit
Schwer zu beurteilen, was darunter verstanden werden soll. Normalerweise die Messgenauigkeit. z.B.
Wie genau kann ein bestimmtes Leistungsergebnis bestimmt werden ? Innerhalb welcher Grenzen schwankt die wahre Note eines Schülers.
Retest: Wenn man die Klassenarbeit zweimal zur Bearbeitung vorlegt, kommen dann vergleichbare Ergebnisse heraus ? Macht nur Sinn, wenn man Lernprozesse in der Zwischenzeit ausschließt.
Konsistenz: Wenn man die Klassenarbeit in 2 ähnliche Hälften teilt, korrelieren die beiden Hälften hinreichend hoch miteinander ?
Parallelität: 2 verschiedene Klassenarbeiten, welche aber die gleichen Lehrziele erfassen sollen, werden in relativ kurzen Zeitabständen den Schülern vorgegeben. Wie vergleichbar fallen die Ergebnisse aus?
Validität
Werden in der Klassenarbeit diejenigen Lehrziele repräsentativ erfasst, die
Beziehungen zwischen den Testgütekriterien
Nur was objektiv ist, kann zuverlässig sein.
Nur was zuverlässig ist, kann valide sein.
Objektivität und Zuverlässigkeit sind somit notwendige, aber nicht hinreichende Voraussetzungen, damit die Note valide sein kann. Letztlich geht es um eine valide Erfassung der Schülerleistungen durch Noten.
(interaktive Aufgabe zu den Beziehungen zwischen den Testgütekriterien )

Nachfolgende Daten stammen aus dem Abschlußbericht des Schulversuchs Oberstufe Saar, den ich im Jahre 1977/1978 erstellt habe. Quelle: Kornadt,H.-J.(1978) Abschlussbericht über die wissenschaftliche Begleituntersuchung zum Schulversuch Oberstufe Saar 1970-1977. S.283.


Das fachspezifische Bezugssystem:
Die einzelnen Fächer werden unterschiedlich streng benotet.

aus: Kornadt, H.-J.(1978) Abschlussbericht über die wissenschaftliche Begleituntersuchung zum Schulversuch Oberstufe Saar 1970-1977. S.283.

Unterschiedliche Notenverteilungen in den Fächern

aus: Kornadt,H.-J. (1978) Abschlussbericht über die wissenschaftliche Begleituntersuchung zum Schulversuch Oberstufe Saar 1970-1977. S.288.

Das klasseninterne Bezugssystem
Der Lehrer orientiert sich am Niveau seiner Klasse und weniger am Mittel aller Schüler

Hinweis: Vornotenmittelwerte und Abschlussnotenmittelwerte wurden zunächst auf gleiche Gesamtmittelwerte transformiert, da die Vornoten generell besser waren. Dieser Mildeeffekt der Vornoten war  in Mathematik  im Gegensatz zu anderen Fächern aber recht gering. Im Durchschnitt der Fächer wurden Vornoten 0.5 Notenstufen besser beurteilt.
Lesebeispiel: Klasse 15 erzielte in der zentralen Mathematikabschlussklausur, an der alle 17 Klassen teilnahmen und die für alle Klassen gleich bewertet wurde - nicht vom Klassenlehrer, sondern von einem Fremdkorrektor - , einen Notenmittelwert von 4.0. Der Vornotenmittelwert der Klasse 15 beträgt ca. 3.25. Die Vornote basierte auf einer normalen Klassenarbeit, die ausschließlich von der Klasse 15 bearbeitet und vom Klassenlehrer bewertet wurde. Bei Klasse 15 korrelieren Vornoten und zentrale Abschlussklausur .86 miteinander. Wer eine gute Abschlussklausur erzielte, erhielt auch bessere Noten in der Vornote. Die Vornoten liegen bei Klasse 15 allerdings im Schnitt 0.75 Noteneinheiten günstiger als die Abschlussklausurnoten.
Obige Graphik zeigt ein eher ungünstiges Beispiel für Mathematik auf. Der durchschnittliche Betrag der Abweichung beträgt hier mindestens.0.5 Notenstufen, der Zusammenhang zwischen den Vornoten und Abschlussklausurmittelwerten beträgt  r= -.04. Es gibt aber auch deutlich günstigere Beispiele für Mathematik Der durchschnittliche Betrag der Abweichungen von Vornoten- und Abschlussklausurnotenmittelwerten der einzelnen Klassen (aus allen verfügbaren Daten) betrug in Mathematik 0.25 Notenstufen, im Durchschnitt der Fächer .41 Notenstufen.

Objektivitäts/Reliabilität/Validitätsunterschiede der Noten für einzelne Schulfächern

Korrelationen zwischen Vornoten (Klassenarbeit des Lehrers nur für seine Klasse)
und zentraler Abschlussklausur (=gleiche Anforderungen für Schüler aller Klassen )

Fach
r
N
Deutsch
.36
 300
Sozialkunde
.51
119
Geografie
.58
120
Physik
.56
 300
Geschichte
.58
95
Biologie
.62
300
Englisch
.65
200
Französisch
.70
68
Mathematik
.70
300
Beispiel für  r =.70
Hinweis: In diesen Korrelationen ist der Effekt des klasseninternen Bezugssystems enthalten.
Die Korrelationen wären noch etwas höher ausgefallen, wenn man den Durchschnitt der Korrelationen - für jede Klasse getrennt - zugrunde gelegt hätte.

Der mangelnde Zusammenhang zwischen Vornoten und zentralen Abschlussklausurnoten kann mehrere Ursachen haben:

Vornoten und Abschlussklausur sollen die Schulleistungen in einem Trimester messen. Somit kann man die Korrelationen in erster Linie als curriculare Validitätskoeffizienten betrachten. Mit Ausnahme von Deutsch sind die Koeffizienten gar nicht mal so schlecht.

Die Koeffizienten in Französisch und Mathematik sind recht hinreichend hoch. Von gravierenden Mängeln hinsichtlich aller 3 Testgütekriterien kann sicher nicht die Rede sein. Üblicherweise werden zur Ermittlung der Validität standardisierte Schulleistungstests mit Noten korreliert.


Stabilität der Noten
Es wurden Korrelationen zwischen Noten zu verschiedenen Zeitpunkten berechnet. Ein Trimester entspricht ca. 4. Monaten. Lesebeispiel: Im Durchschnitt beträgt die Korrelation der Englisch-Vornoten bei einem Zeitabstand von ca.8 Monaten (= 2 Trimester) ungefähr r = .61. Die Anzahl der Schüler schwankt je nach Vergleich in den Fächern Deutsch, Mathematik und Englisch zwischen 155 und 363. Nur in Französisch ist die Datenbasis mit 39 bis 80 Schülern geringer. (Kornadt 1978, S.360). Man erkennt u. a. dass die Leistungen in der Mathematikabschlussklausur recht stabil sind auch nach 2 Jahren nicht unter r = .66 sinken.

Die Trimesterendnote setzt sich aus Vornote und Abschlussklausur zusammen und erbringt so natürlich höhere Stabilitätskoeffizienten als die Klassenarbeiten oder Abschlussklausuren.

Die Abiturnote eines Schulfaches setzte sich aus mehreren, meist 6 Timesterendnoten zusammen. Schätzungen der Zuverlässigkeit der Abiturnote für die einzelnen Fächer fielen recht hoch (im Durchschnitt um .90) aus. In Mathematik, Englisch und Französisch liegen die geschätzen Reliabilitätskoeffizienten bei .95, selbst in Deutsch reichen sie an .9 heran. Die geschätzte Zuverlässigkeit der Abiturdurchschnittsnote muss in der Nähe von 1 liegen.



Prognosefähigkeit von Abschlussnoten (Abiturdurchschnitt) für den Studienerfolg (Examensnote)
In etlichen Untersuchungen wurde geprüft, wie gut der Abiturdurchschnitt mit dem späteren Studienerfolg (Abschlussnote) zusammenhängt.
                                   Anzahl        durchschnittlicher Zusammenhang
                                  der Studien    Abitur-Studienerfolg
Trost & Birkel (1979)                50             .35
Baron-Boldt, Funke & Schuler (1989)  75             .35  (korrigiert .46)
Die Prognosefähigkeit der Abiturdurchschnittsnote für den Studienerfolg Der Zusammenhang zwischen Hauptschul- bzw. Realschulabschluss und Ausbildungserfolg liegt etwas niedriger und beträgt  r=.32 bzw. korrigiert .41.

Statistical Java zur Verdeutlichung von Zusammenhängen.

Wenn man die Noteninflation und dadurch bedingt die geringe Streuung der Abschlussexamen auf der Universität in Betracht zieht (siehe weiter unten), dann sind die prognostischen Validitätskoeffizienten der Abiturdurchschnittsnote - trotzt ihrer augenscheinlich geringen Höhe von ca. .35 bis .46 - erstaunlich gut.

Die Prognosefähigkeit des Abiturnotendurchschnitts für den Berufserfolg (u. a. Berufsposition, Einkommen usw.) fällt geringer aus und liegt etwa bei ca. r = .20. bis r = .30. Der Zusammenhang zwischen Universitätsabschlussnote und Berufserfolg ist auch nicht viel höher und beträgt ca. r = .30.


Das fachspezifische Bezugssystem
für Universitätsabschlussnoten:

Arithmetischer Durchschnitt von Universitätsabschlüsssen (1996)
aus: http://www.wissenschaftsrat.de/texte/5526_03.pdf[25.4.2003] S.25


Biologie
1.3
Psychologie
1.4
Informatik
1.7
Germanistik
1.8
Pharmazie
2.3
BWL
2.5
Jura
3.4

Abschlußnoten hängen offenbar davon ab, welche Art von Studium bzw. Abschluss man ergreift:


aus: http://www.wissenschaftsrat.de/texte/5526_03.pdf[25.4.2003] S.19


Es hängt offenbar vom Studienort ab, welche Abschlussnote man bekommt.

aus: http://www.wissenschaftsrat.de/texte/5526_03.pdf[25.4.2003] S.54
Jedoch Vorsicht:
Das Datenmaterial ist in Teilen problematisch und nur bedingt belastbar. Als Grund muss vor allem auf folgende Ursachen und Fehlerquellen hingewiesen werden:
  • Angaben kleiner als 4 sind aus Datenschutzgründen nicht ausgewiesen und konnten nicht in die Auswertung einbezogen werden. Die Durchschnittswerte konnten daher nur auf der Basis der tatsächlich ausgewiesenen Noten berechnet werden. Aus dieser Untererfassung können über- oder unterbewertete Notendurchschnitte resultieren.
  • .........
  • ........
  • Eigene Anmerkung: Es stellt sich die Frage, ob empirische Forschung noch Sinn macht, wenn unter anderem durch Datenschutz unkalkulierbare Datenverfälschungen produziert werden. Wie belastbar darf Datenmaterial verfälscht sein, bis man die Reißleine zieht und auf die Darstellung von Daten verzichtet ?

    created 23.6.2003; last update 15.8.2003: Bernhard Jacobs, b.jacobs@mx.uni-saarland.de