Lernen Studierende im Inverted Classroom mehr?

Es gibt einige interessante Ergebnisse zur Effektivität des Inverted Classroom und ich freue mich diese hier präsentieren zu können. Allerdings diese Ergebnisse sind nicht aus meinem eigenen Lehrprojekt – dort sind Aussagen zu Lerneffekten schwierig, da es keine gesonderte Prüfung sondern eine Modulprüfung zur Vorlesung gibt. Da es sich dabei auch noch um eine mündliche Prüfung ohne festen Fragenkanon handelt, gibt es keine Vergleichbarkeit zwischen unterschiedlichen Kohorten.

Erfreulicherweise sind wir aber nicht die einzigen, die an unserer Fakultät mit dieser Lehrmethode arbeiten. Mein Kollege Achim Goerres (Webseite, Blog) setzt den Inverted Classroom seit mehreren Semestern in der Methodenausbildung unserer Studierenden ein. So hat er beispielsweise seine BA-Vorlesung „Methoden der empirischen Sozialforschung“ teilinvertiert, d.h. einzelne Sitzungen werden im Inverted Classroom-Format abgehalten, der Rest als klassische Vorlesung. Am Semesterende müssen die Studierenden eine Klausur zur Vorlesung bestehen.

Aus der Perspektive der Lehr-Lern-Forschung hat das den besonderen Charme, dass es uns eine quasi-experimentelle Ausgangslage liefert. Erstens können wir einzelne Prüfungsfragen genau den Sitzungen zuordnen, in denen die entsprechenden Themen behandelt wurden. Zweitens hat Achim Goerres die Vorlesung im Wintersemester 2012/13 noch in klassischer Weise gehalten, in den folgenden Wintersemestern aber eine bestimmte Einheit invertiert. Das ermöglicht es uns, die Leistungen der Studierenden aus der Kohorte 2012/13 mit den Leistungen der Kohorte 2013/14 in genau denjenigen Fragen zu vergleichen, die mittels Inverted Classroom unterrichtet worden waren.

Wie Achim Goerres, Caroline Kärger und ich in einem Papier darlegen, das demnächst in der Zeitschrift für Politikwissenschaft erscheint (Bd. 25, Nr. 1, S. 137-154, Preprint bei Academia.edu und Researchgate), erzielte die Kohorte, die mittels Inverted Classroom unterrichtet worden war, systematisch bessere Ergebnisse bei Fragen, die die Anwendung von Konzepten verlangte. Bei Fragen, die lediglich das Verständnis von Begriffen überprüften, gab es keinen signifikanten Unterschied zwischen den beiden Gruppen.

Wer sich für die Details interessiert, sei auf das verlinkte Papier verwiesen. Als Kurzfassung ist hier die relevante Passage aus dem Text:

Vier Prüfungsfragen können über alle Prüfungen hinweg als äquivalent angesehen werden (siehe Tabelle 1). Frage 1 verlangte von den Studierenden, vier verschiedene Variablen anhand der Beschreibung bezüglich ihres Skalenniveaus (nominal, ordinal, metrisch) und der Unterscheidung latent/manifest einzuordnen. Frage 2 beschrieb eine Situation, in der Triangulation angewendet wurde, so dass die Studierenden den Begriff benennen mussten. Frage 3 beschrieb ein inhaltsanalytisches Kodierprojekt, bei dem Probleme des manuellen Kodierens mit Reliabilität und Objektivität benannt werden mussten. Frage 4 fragte nach den Idealeigenschaften eines Indizes. Die vier Fragen unterschieden sich im Aufwand (maximale Punktzahl zwischen 2 und 4), Schwierigkeitsgrad (% des Maximums am Mittelwert), im Format (Multiple Choice versus offene Fragen) und im Lernziel nach Bloom (Verstehen versus Anwenden).

Diese Varianz in der Fragenart können wir systematisch in einer Regressionsanalyse ausbeuten. Im einfachen Vergleich der Punktergebnisse (siehe Tabelle 1) sehen wir, dass die Fragen 1 bis 3 in der FC-Gruppe leicht besser als in der Nicht-FC-Gruppe beantwortet wurden. Hier spielen allerdings die Unterschiede in den Eingangskohorten hinein, da die 2013/14er Kohorte im Schnitt besser war.

Aus Platzgründen präsentieren wir hier überblicksartig nur einige ausgewählte Regressionsergebnisse, die der Hypothese nachgehen, dass die Teilnahme an einer FC-Kohorte im Schnitt mit einer höheren Punktzahl in der Prüfung einhergeht. Wir kontrollieren für die Gesamtpunktzahl als Messung der latenten Fähigkeit, das Geschlecht, den Prüfversuch des Prüflings (1., 2. oder 3. Versuch), den Prüftermin (regulärer Termin versus Wiederholungstermin), die Art der Frage (Multiple Choice versus offene Frage), die Art des Lernziels (Anwendung versus Verstehen) und als alternative Messung für Art der Frage und Lernziel den Schwierigkeitsgrad. Genauere Details befinden sich im Anhang. Die Regressionsanalyse hat das Punktergebnis bei einer Frage als abhängige Variable.

Kurz gesagt: Es gibt keinen eindeutigen Effekt der FC-Gruppe für alle Prüffragen. Der direkte Effekt der Mitgliedschaft in einer FC-Gruppe ist zwar leicht positiv mit 0,02 auf einer Punktskala von 0 bis 4 in dem Grundmodell mit allen Kontrollvariablen, aber nicht sehr präzise (p-Wert des einseitigen Tests 0,36). Mit anderen Worten: unter Konstanthaltung einer ganzen Reihe von Effekten wirkte sich die Teilnahme an einer FC-Gruppe im Schnitt nicht auf das Punktergebnis aus.

Interessanter wird es, wenn man untersucht, ob die Art der Fragen einen Unterschied ausmacht (über eine Interaktionsanalyse). Auch hier kann man keinen präzisen Effekt finden, wenn man Multiple Choice versus offene Fragen und generell die Schwierigkeit der Frage als Kontextvariable für die FC-Gruppenteilnahme schätzt. Allerdings zeigt sich bei der Unterscheidung nach Lernzielen ein systematisches Muster. Für die Prüffragen, die eher das Verstehen nach Bloom zum Ziel haben, hat der FC keinen positiven Effekt. Für Prüffragen, die eher die Anwendung von Wissen, also ein höherwertiges Ziel, anstreben, hat der FC einen signifikant positiven Effekt (p-Wert = 0,01) von 0,21 auf der Punktskala, das heißt im Schnitt wurden Anwendungsprüffragen unter Kontrolle der vielen Faktoren von Prüflingen, die in FC-Gruppen waren und damit die Möglichkeit gehabt hatten, an der Sitzung teilzunehmen, mit 0,21 Punkten besser absolviert. Weitere Interaktionsanalysen, wie mit dem Termin der Prüfung, dem Prüfversuch (1., 2., 3.) und der Gesamtzahl erreichter Punkte, brachten keine weiteren systematischen Muster zutage. Gerade der letzte Befund ist noch einmal bemerkenswert. Er deutet nämlich darauf hin, dass die FC-Möglichkeit nicht grundsätzlich für „High Performer“ mehr gebracht hat als für „Low Performer“.

In Summe lassen die Befunde ein besseres Prüfergebnis für tiefergehende Fragen bei den Studierenden nachweisen, die in der FC-Gruppe waren. Dieses Ergebnis besteht unabhängig von der generellen Leistungsfähigkeit der Studierenden und ohne Kenntnis darüber, ob der betreffende Studierende tatsächlich an der Sitzung teilgenommen hatte. Der Befund ist umso erstaunlicher, weil nur eine einzige Vorlesungssitzung ausgetauscht worden war. Zudem lässt sich keine Interaktion zwischen dem Format und der individuellen Performanz der Studierenden zeigen, das heißt sehr gute Studierende schnitten durch die Teilnahme an der FC-Sitzung nicht besser ab, bzw. sehr schlechte Studierende nicht noch schlechter. Eine Zweiteilung dieser Vorlesungsform auf unterschiedliche Studierendengruppen konnten wir nicht belegen. Gleichzeitig darf nicht vergessen werden, dass die Effektivität des FC anhand der Prüfungsergebnisse untersucht wurde und nicht durch eine Selbsteinschätzung der Studierenden. Die Ergebnisse anderer FC-Anwendungen verdeutlichen, dass eine Mehrheit der Studierenden in der Selbsteinschätzung angibt, in diesem Format einen höheren Lernerfolg zu haben als im klassischen Vorlesungsformat (Decker/Beier 2014: 11 f.; Lage/Platt/Treglia 2000: 35 ff.).

Das ist sicher kein Ergebnis, aus dem man allzu weitreichende Folgerungen ableiten kann. Aber es fügt sich nahtlos in das Bild vieler anderer Studien ein, die die Wirksamkeit des Inverted Classroom belegen. Gerade das differenzierte Ergebnis, wonach der Inverted Classroom für verschiedene Kompetenzziele unterschiedliche Lernerfolge bringt, ist sehr wichtig für seinen adäquaten und zielorientierten Einsatz.

Arbeitskreis Hochschullehre der DVPW

Ein Gedanke zu „Lernen Studierende im Inverted Classroom mehr?“

Schreibe einen Kommentar Antworten abbrechen