10.–13. Schuljahr
Joachim Engel
Von der Datenwolke zur Funktion

Die Dateien smooth.xls und smooth.ms sind Programme zum Glätten von Streudiagrammdaten.

Technische Vorbemerkungen:
Um Streudiagrammdaten zu glätten, ist wie folgt vorzugehen: Die Daten (x_1,y_1), ... , (x_n,y_n) müssen in der ersten Komponente geordnet sein. Zuerst muss man ein Output-Gitter definieren, auf dem dann die Glättungskurve berechnet wird. Ein Gitter der Größe 100 ist dazu in den meisten Fällen ausreichend. Man definiert: u_1=x_1, d=(x_n-x_1)/99, u_2=u_1+d, ..., u_100=u_99+d=x_n.
Dann definiert man eine Liste bestehend aus 100 Listen bzw. eine Matrix M der Ordnung (n, 100). Die j-te Liste besteht gerade aus den y-Werten, die in dem um den Gitterpunkt t_j zentrierten Fenster liegen. Die Glättungskurve an der Stelle t_j errechnet sich jetzt als das arithmetische Mittel (oder auch Median) der j-ten Liste. Wegen Details, siehe J. Engel: Entdecken von funktionalen Zusammenhängen in Daten mit Hilfe von Glättungsverfahren, Mathematiklehren (6), 1999.

Smooth.ms
Maple V, Release 5.1 for Windows Worksheet; Einzulesen nach Aufruf von Maple ("Datei öffnen"); Dann unter "Edit" anklicken von "Execute", danach "Worksheet" Die Daten können problemlos ausgetauscht werden gegen einen anderen Datensatz. Zu beachten ist lediglich, dass die Abszissen im Vektor x und die Ordinatenwerte im Vektor y stehen. Die Fensterbreite h ist vom Nutzer zu wählen und kann variiert werden. Das Resultat ist ein Plot des Streudiagramms mit geglätteter Kurve. Will man eine gleitende Mediankurve (an Stelle des Mittelwertes), so ist auf dem Worksheet mean gegen median auszutauschen.

Smooth.xls
Microsoft Excel 97 Programm Auf dem Arbeitsblatt "Glätten" stehen in Spalten A - C die Daten (Spalte A Temperatur, Spalte B Energieverbrauch, Spalte C Monat). Die Daten sind gemäß Spalte A (Temperatur) aufsteigend geordnet. Spalte C ist unerheblich, weil nur der funktionale Zusammenhang Energieverbrauch = f ( Temperatur) untersucht wird. Spalten I und J enthalten das Output-Gitter und die gegeglätteten Werte. Die geglätteten Werte sind errechnet als Mittelwerte über die Spalten einer Matrix (Arbeitsblatt "Matrix"), deren j-te Spalte gerade aus den y-Werten im j-ten Fenster bestehen. Will man das Excel Programm für einen anderen Datensatz verwenden, so sind die Daten auf dem Blatt Glätten in die Spalten A und B zu kopieren, beginnend mit der 8. Zeile. Hat der neue Datensatz einen anderen Umfang m als die elusage Daten (n=55), so sind Änderungen auf dem Blatt Matrix notwendig! Zuerst müssen m-55 Zeilen nach Zeile 62 eingefügt werden. Dann markiere man die Felder A62 bis CW62 und ziehe die markierten Felder im Zugmodus bis zur Zeile m+7 nach unten.

Zu den Datensätzen:
Der Datensatz elusage.* beschreibt den Energieverbrauch eines elektrisch beheizten Hauses über 55 Monate hinweg. Er besteht aus 3 Variablen:
(1) Durchschnittliche Tagestemperatur über jeweils einen Monat (in Celsius)
(2) Durchschnittlicher Tagesverbrauch an elektrischer Energie über jeweils einen Monat (in KWH)
(3) Monat und Jahr

elusage.txt


elusage.xls


elusage.med und elusage.atr

Quelle: Chatterjee, Handcock und Simonoff (1995): A casebook for a First Course in Statistics and Data Analysis, John Wiley, New York

Der Datensatz draft.* besteht aus den Daten der Einberufungslotterie in die US Army von 1970.
Er hat 2 Variablen:
(1) Geburtstag (1 = 1. Januar, 366 = 31. Dezember)
(2) Zugeloste Rangziffer

draft.txt
draft.xls
draft.med und draft.atr

Quelle: Data and story library, lib.stat.cmu.edu/DASL/DraftLottery.html

[Zurück zu mathematik lehren - Heft 97]