machine-learning text classification
data collection and labeling the dataset: Tim Lutz
development of categories and task: Dietmar Küchemann, translation: Reinhard Oldenburg
model developed by: Tim Lutz
software platform development: Tim Lutz
A
B
Tabelle mit Gütemaßen
C
D
Modelview und Version
Version 1.0
Training-Graph Model-Summary
exportsettings
export with heading GER Exportieren mit Spaltenköpfen
export class
export classname
export class softmax
Preview
Aufgabenstellung
Was ist größer 2n oder n+2?
Allgemeines zur Aufgabenstellung und dem Erhebungssetting
In dieser Studie wurden viele fachdidaktisch bereits untersuchte Mathematik-Testaufgaben im Bereich elementare Algebra am Übergang Schule-Hochschule durchgeführt. Dazu zählt auch diese Aufgabe von Küchemann (1981) in ihrer deutschen
Version nach Oldenburg.
Allgemeine Populationsinformationen und Inputinformationen
522 Schüler und Studenten aus dem Übergang Schule-Hochschule bearbeiteten in einem digitalen Fragebogen die Aufgabenstellung (Antworten zumeist mit Tastatur in offenes Textfeld getippt).
Allgemeine Informationen zum Training
Das Sprachmodell wurde auf Basis eines word2Vec Algorithmus unsupervised mit den N=400(test+validation Datenset) Antworten aus der Studie erstellt.
Im Anschluss wurde ein Modell zur Klassifizierung entwickelt. Dafür wurde das Modell auf accuracy optimiert. Für die Auswahl des gezeigten Modells wurden Qualitätsvergleiche mit dem Validation Datensatz unternommen. Der Testdatensatz
hatte keinen Einfluss auf das Training oder die Wahl des gezeigten Modells. Die Gütemaße des Testdatensatz sind daher Anhaltspunkt für realistische Erkennungsraten bei Neuerhebungen.
Kategorien: Variablenverständnis
Argumentationstypen
used as a variable
Der Buchstabe wird als Variable verwendet, nach Küchemann bedeutet dies, dass Zusammenhänge zweiter Ordnung selbstständig untersucht werden. Algebraische Ausdrücke wie 2n und n+2 können in Bezug auf n reflektiert in Beziehung gesetzt
werden.
nicht "used as a variable"
Der Buchstabe wird vom Bearbeiter höchstens als generalisierte Zahl betrachtet. Der Bearbeiter akzeptiert also bestenfalls, dass man für Buchstaben verschiedene Zahlen einsetzen kann. Der häufigste beobachtete Fehler entsteht dadurch,
dass der Bearbeiter mit der Begründung "Multiplikation ist mehr als Addition" 2n pauschal als Lösung vorschlägt.
Literatur
Lutz, Tim (2021 ICTMT15). Machine Learning Model for Automated Text Classification of Mathematical Tasks.
Lutz, Tim (2021). Entwicklung eines Diagnoseinstrumentes und Vorbereitung eines Förderkonzeptes in der elementaren Algebra.
Kategorie und Aufgaben aus:
Küchemann, D. (1981). Chapter 8: Algebra. In K.M, Hart (Ed.). Children's understanding of mathematics: 11-16 (pp. 102–119). London: John Murray.
in Übersetzung nach Oldenburg
Oldenburg, R. (2009). Structure of Algebraic Competencies. In V. Durand-Guerrier, S. Soury-Lavergne & F. Arzarello (Eds.). Proceedings of CERME 6 (pp. 579-588). Lyon: Institut National de Recherche Pedagogique.
Input/Output Info
Input
Input sind Zeilen (\n getrennt) der Form:
"answer string"
Output
Output sind Zeilen (\n getrennt) der Form:
class(integer), classname, softmax_variable, nicht_variable(entspricht 1-variable)
Ausgabe erfolgt gemäß Exporteinstellungen.
Kategoriebezeichnung
0 -> used as a variable
1 -> nicht "used as a variable"
Zusammenfassung der Analyse der TP, FN, und FP des Validierungsdatensatzes
False Negatives
Es ist davon auszugehen, dass Aussagen, die eine informatische Schreibweise nicht erkannt wird. Dabei handelt es sich um Einzelfälle: "if n > 2: 2n if n < 2: n + 2 else: gleich"
False Positives
Es ist davon auszugehen, dass Aussagen, die kleinere Ungenauigkeiten enthalten, wie z.B. die Teilaussage „für n=1 ist n+2 größer, ab 2 ist dann 2n größer“ (manuell als „falsch“ gewertet, weil in den natürlichen Zahlen gedacht 2n ab n=3
größer ist) von der Maschine eher als positiv angenommen werden, weil es ebenso Aussagen gibt, die damit eindeutiger beschreiben, dass „größer 2“ gemeint ist (in den natürlichen Zahlen oder in den reellen Zahlen). In solchen Fällen ist
auch die händische Kodierung nicht immer zweifelsfrei eindeutig.
Eine Zuordnung zu "used as a variable" scheint dennoch vertretbar.
False Positives
Manuell wurden (seltene) Antworten, die nur in einzelnen Beispielen für n Zahlen einsetzen und dann die Ausdrücke vergleichen als „falsch“ gewertet. Beispiel: „Ist n = 1 ist n + 2 größer , da 1 + 2 = 3 und 2 * 1 = 2 . Ist n = 3 ist 2n
größer , da 2 * 3 = 6 und 3 + 2 = 5“. Die Maschine wertet solche ausführlichen Vergleichs-Beispiele eher als richtig. Obwohl keine echten Bereiche, sondern nur Einzelbeispiele verglichen werden, bewegen sich Antworten dieser Art auf dem
Niveau der „second order relationship“ und daher scheint die Zuordnung zu „used as a variable“ vertretbar
Anleitung
Um mit dem Machine Learning Modell erfolgreich arbeiten zu können, klicken Sie auf
Spalte A
Zweck des Modells und Kategoriendefinitionen
1. das Feld „Aufgabenstellung“
2. das Feld Input/Output Info
Spalte B
Angaben zur Qualität des Modells
3. In „Modelview und Version“ können Sie den Graphen des Modelltrainings einsehen.
4. Unter „Model-Summary“ erhalten Sie Informationen zur Modelldefinition und des Prediction-Prozesses.
5. „Tabelle mit Gütemaßen“: Überprüfen Sie hier, ob die Qualität des Modells Ihre Anforderungen erfüllt.
6. Klicken Sie das Feld: „Analyse der False Positive….“, um eine Einschätzung der zu erwartenden Störfaktoren zu sehen.
Spalte C
Eigene Daten eingeben
7a.Im Feld „Texteingabe“ Ihren eigenen (Schüler-)Text eintippen, um zu kategorisieren.
Oder alternativ
7b.Im Feld „Datei auswählen“ Ihre eigene Datei mit mehreren (Schüler-)Texten auswählen
Spalte D
Kategorien bestimmen
8. Klicken Sie auf das Feld „Kategorien bestimmen“, um für Ihren eigenen Input die Kategorien zu erhalten.
Sie haben nun erfolgreich Ihre Texteingaben in die unter "Aufgabenstellung" ausgeführten "Argumentationstypen" eingeordnet.
Anleitung zu Spalte A
Um mit dem Machine Learning Modell erfolgreich arbeiten zu können, klicken Sie auf
Spalte A
Zweck des Modells und Kategoriendefinitionen
1. das Feld „Aufgabenstellung“
2. das Feld Input/Output Info
Anleitung zu Spalte B
Spalte B
Angaben zur Qualität des Modells
3. In „Modelview und Version“ können Sie den Graphen des Modelltrainings einsehen.
4. Unter „Model-Summary“ erhalten Sie Informationen zur Modelldefinition und des Prediction-Prozesses.
5. „Tabelle mit Gütemaßen“: Überprüfen Sie hier, ob die Qualität des Modells Ihre Anforderungen erfüllt.
6. Klicken Sie das Feld: „Analyse der False Positive….“, um eine Einschätzung der zu erwartenden Störfaktoren zu sehen.
Anleitung zu Spalte C
Spalte C
Eigene Daten eingeben
7a.Im Feld „Texteingabe“ Ihren eigenen (Schüler-)Text eintippen, um zu kategorisieren.
Oder alternativ
7b.Im Feld „Datei auswählen“ Ihre eigene Datei mit mehreren (Schüler-)Texten auswählen
Anleitung zu Spalte D
Spalte D
Kategorien bestimmen
8. Klicken Sie auf das Feld „Kategorien bestimmen“, um für Ihren eigenen Input die Kategorien zu erhalten.
Sie haben nun erfolgreich Ihre Texteingaben in die unter "Aufgabenstellung" ausgeführten "Argumentationstypen" eingeordnet.