Posts Tagged ‘Statistik’

Pünktlichkeit von Bussen in Aachen – Sonderfall

Mittwoch, 27. Mai, 2009

Seit Mitte Januar erfasse ich die Verspätungen von 6 Bussen in Aachen. Nun ist am Freitag, dem 22.05.2009 folgendes passiert:

Der Bus der Linie 55, der um 18:28 Uhr an der Haltestelle Kuckelkorn abfahren sollte, ist nicht erschienen. Das ist insofern ein Problem, als der nächste Bus dieser Linie erst eine Stunde später abfährt. Da ich den Bus auf dem Weg vo meinem Haus ebenfalls nicht gesehen habe, kann er auch nicht zu früh abgefahren sein.

Wer den Fahrplan kennt, der weiß, daß ein Fahrgast, der in Richtung Vaals fährt, keineswegs eine Stunde auf einen geeigneten Bus hätte warten müssen. Noch weniger muß er warten, wenn er nur bis zum Westfriedhof fahren will. Das Entscheidende ist aber die Frage, wie es mit der Pünktlichkeit eines bestimmten Busses aussieht. Dies ist nicht nur eine wichtige Information für den Fahrgast, sondern auch für den Verkehrsbetrieb, der so weiß, wo er Verbesserungen ansetzen soll.

Es ist nun so, daß der betreffende Bus von den untersuchten Bussen die größten Verspätungen aufweist. Die zweithöchste Verspätung fand am 20. Januar dieses Jahres statt und betrug 16 Minuten und 10 Sekunden. Ein Busausfall würde einer Verspätung von ca. einer Stunde entsprechen (in diesem Fall: 60 Minuten und 58 Sekunden), was die Daten doch ziemlich verzerren würde. Die letzte Entscheidung ist noch nicht gefallen, aber es sieht so aus, daß ich diese Fahrt aus einer Analyse wie der Festlegung von Kontrollgrenzen herausnehmen werden.

Was die AVV betrifft, so stellt diese Fahrt ein besonderes Resultat dar, was bedeutet, daß für die Verspätung ein besonderer Grund vorgelegen hat. Der Verkehrsbetrieb sollte diesen Grund erfassen und sich überlegen, wie man einer ähnlichen Verspätung vorbeugen und die Folgen ggf. mildern kann (was ab Aachen-Brand durch andere Buslinien wohl geschehen ist).

Pünktlichkeit von Bussen – ein Beispiel aus Aachen

Samstag, 25. April, 2009

Nachdem ich regelmäßig bestimmte Strecken per Bus und Bahn zurückzulegen hatte, mußte ich dort auch die eine oder andere Verspätung mitmachen. Durch meinen statistischen Hintergrund kam ich irgendwann auf die Idee, diese Verspätungen zu notieren und zu ermitteln, wie pünktlich die Verkehrsmittel tatsächlich sind. Nach langer Zeit habe ich Mitte Januar wieder damit begonnen und möchte einen Einblick geben, was man daraus folgern kann.

Als Beispiel habe ich die Bushaltestelle Kuckelkorn in Aachen ausgewählt, die bei mir in der Nähe liegt. Dort habe ich abends für 6 Busse festgehalten, wann sie abgefahren sind. Dabei handelt es sich um die folgenden Linien der AVV:

  1. Bus 35 Richtung Breinig Entengasse in Stolberg (stadteinwärts). Abfahrt: 18 Uhr 26.
  2. Bus 55 Richtung Vaalserquartier (stadtauswärts). Abfahrt: 18 Uhr 28.
  3. Bus 3A Richtung Uniklinik (stadteinwärts). Abfahrt: 18 Uhr 28.
  4. Bus 3B Richtung Uniklinik (stadtauswärts). Abfahrt: 18 Uhr 28.
  5. Bus 45 Richtung Aachen-Brand (stadteinwärts). Abfahrt: 18 Uhr 36.
  6. Bus 45 Richtung Uniklinik (stadtauswärts). Abfahrt: 18 Uhr 36.

Mit den Messungen habe ich am 14. Januar begonnen. Diese gingen vorerst bis zum 24. April, so daß – Rosenmontag und Ostern ausgenommen – 72 Werktage zur Verfügung standen. Am 20. März konnte ich nicht vor Ort sein, so daß ich an 71 Tage messen konnte. Hinzu kommen je ein fehlender Wert für Bus 35 am 14. Januar sowie für Bus 3A am 28. Januar.

Vorerst gibt es ein paar Maße, um sich einen Überblick zu verschaffen. Da es einige größere Verspätungen gibt, sind robuste Maße angebracht:

  • Der Median: Werden die Werte nach ihrer Größe geordnet, ist der Wert in der Mitte der Median. Er ist relativ unempfindlich gegenüber extremen Ausreißern.
  • Das untere und obere Quartil: Die Quartile teilen die Daten in vier gleich große Gruppen auf. Das untere Quartil (Q1) hat 25% aller Werte unter sich, während das obere Quartil (Q3) 75% aller Werte unter sich hat.
  • Der Interquartilsabstand (IQA): Der IQA ist ein Streuungsmaß und definiert als der Abstand zwischen den 1. und 3. Quartil. Er ist somit die Breite des Intervalls, in den die Hälfte der Werte liegt.
Verspätungen an der Haltestelle „Kuckelkorn“
Bus 35 55 3A 3B 45 45
Abfahrt 18 Uhr 26 18 Uhr 28 18 Uhr 28 18 Uhr 28 18 Uhr 36 18 Uhr 36
1. Quartil -0:28,0 1:52,0 0:28,0 0:12,0 -1:09,0 0:29,0
Median -0:13,5 4:56,0 0:36,0 1:00,0 0:03,0 1:12,0
3. Quartil 1:04,3 7:27,0 1:54,0 3:28,0 0:50,0 2:46,0
IQA 1:32,3 5:35,0 1:26,0 3:16,0 1:59,0 2:17,0

(alle Angaben in Minuten und Sekunden)
(Lesebeispiel: Die Verspätungen des Busses der Linie 55 zwischen dem 14. Januar und dem 24. April wiesen ein Median von 4 Minuten und 56 Sekunden auf.)

Unter den untersuchten Bussen fällt die Linie 55 auf, welche von Aachen-Lichtenbusch über Kornelimünster und dann durch die Innenstadt kommt und deutlich später als die anderen Busse abfährt. Auch die Streuung der Abfahrtszeiten ist höher als bei den anderen Linien.

Ansonsten scheinen die Busse aus der Stadt etwas später abzufahren, was daran liegen könnte, daß sie länger unterwegs sind. Aber um das belegen zu können, müßten noch mehr Linien betrachtet werden.

Um die Verspätungen genauer analysieren zu können, ist eine Betrachtung der Fahrten über die Zeit notwendig. Bei den obigen Maßen wird unterstellt, daß die Umstände, welche für die Pünktlichkeit verantwortlich sind, in den Monaten gleich geblieben sind.  Dabei könnten Wetter, Schulferien und ähnliches einen Einfluß haben. Außerdem kann man auf diese Wiese herausfinden, ob einzelne Busse für ihre Verhältnisse besonders unpünktlich (oder pünktlich!) gewesen sind. Dies weist auf besondere Ursachen bzw. Ereignisse hin, welche es nachzugehen gilt.

Ein eventueller Vorteil, wenn man sich die Verspätungen notiert, ist, daß sich ein Bus als allgemein pünktlich herausstellt. Auf der anderen Seite habe ich auch schon unpünktlichere Linien erlebt. Als ich in Baesweiler arbeitete, kam der Bus der Linie 51, auf den ich an der Endstation am Reyplatz warten mußte, grundsätzlich zu spät.

Allerdings habe ich bei der Deutschen Bahn schon mehr erlebt. So kam jeder vierte Zug von Bremen nach Köln, mit dem ich am Sonntag vom Wochenende heimfuhr und der um 20 Uhr 48 ankommen sollte, um den Herbst herum mit einer Verspätung von mehr als 45 Minuten an, so daß ich den Anschlußzug nach Aachen verpaßte.

Wie groß ist die Favoritenrolle bei DSDS?

Donnerstag, 12. März, 2009

Zur Zeit läuft bei RTL die 6. Staffel von „Deutschland sucht den Superstar“, einer Show, bei welcher ein Popstar gefunden werden soll. Wenn dabei eine Kelly Clarkson oder eine Leona Lewis entdeckt wird, dann erfüllt das Format seinen Zweck durchaus. Allerdings sehen viele Bildungsbürger die Show eher als Unterschichtenfernsehen an, was man an den Kommentaren merkt, welche zu Berichten wie diesem geschrieben werden. Auch wenn man was an DSDS auszusetzen hat (und das ist so einiges), so finde ich es völlig verkehrt, vor diesem Phänomen die Scheuklappen aufzusetzen. Vielmehr sollte man – wie eigentlich bei jeder Kuriosität – genauer hinsehen und dabei auch Methoden abseits der üblichen Informationsgewinnung verwenden. Als Beispiel soll untersucht werden, wie groß die Favoritenrolle in den einzelnen Staffeln gewesen ist, wobei der Gini-Koeffizient herangezogen wird.

Um das Ausmaß der Favoritenrolle in einer Staffel zu ermitteln, bietet sich die Verteilung der Stimmen auf die einzelnen Kandidaten an. Wenn alle Kandidaten gleichviel Stimmen erhalten, so gibt es keinen Favoriten um den Superstar-Titel. Wenn alle Stimmen auf einen Kandidaten entfallen, so gibt es einen eindeutigen Favoriten. Das ist zumindest die Theorie. Um die verschiedenen Staffeln vergleichen und um diesen Vergleich in einen frühen Stadium machen zu können, sollen die Abstimmungen bei den Mottoshows betrachtet werden, in welchen jeweils die letzten 10 Kandidaten angetreten sind.

Um die Ungleichverteilung der Stimmen zu ermitteln, benötigt man ein Maß. Ein beliebtes Ungleichverteilungsmaß ist der Gini-Koeffizient, welcher im Wesentlichen wiedergibt, wie weit die vorliegende Verteilung von einer Gleichverteilung entfernt ist. In den Wirtschafts- und Sozialwissenschaften wird so mit Vorliebe die Ungleichheit bei den Einkommen und Vermögen gemessen, wobei die Individuen gruppiert werden. Der Gini-Koeffizient liegt bei 0, wenn jeder gleich viel erhält oder besitzt, und er geht gegen 1, wenn nur einer alles bekommt. Der Ausdruck „geht gegen 1“ bedeutet dabei, daß das Maximum bei n Gruppen nicht bei 1, sondern bei (n-1)/n liegt. Bei der Abstimmungen für die 10 Kandidaten kann der Gini-Koeffizient somit höchstens bei 0.9 liegen. Um den Koeffizienten zu normieren, ist es möglich, ihn durch das Maximum zu teilen, so daß er tatsächlich Werte zwischen 0 und 1 annehmen kann. Allerdings steigt er auch in normiertem Zustand mit der Anzahl n der Individuen/Gruppen an.

Es folgen nun die Gini-Koeffizienten für die Top 10 der ersten 5 Staffeln von DSDS. Zu den einzelnen Staffeln sind auch die „Favoriten“ zu sehen, also die Kandidaten, welche zu der Zeit zusammen die Hälfte der Stimmen erhalten haben (aus den Mottoshows selbst geht nicht eindeutig hervor, welcher Kandidat vorne und welcher hinten liegt).

Ungleichheit bei DSDS-Top-10
Staffel Gini-Koeffizient Favoriten
1 0,559 Judith Lefeber, Daniel Küblböck
2 0,339 Philippe Bühler, Anke Wagner, Denise Tillmanns, Elli Erl
3 0,405 Vanessa Jean Dedmon, Nevio Passaro, Mike Leon Grosch
4 0,392 Mark Medlock, Lisa Bund, Francisca Urio
5 0,539 Thomas Godoj

Fett: späterer Sieger
(Quellen: dsds.ch, eigene Berechnungen)

Die größte Ungleichheit bei den Stimmen bestand demnach in der 1. und 5. Staffel, während das Feld in der 2. Staffel am engsten zusammenblieb, was auch daran ersichtlich ist, daß damals 4 Kandidaten die Hälfte der Stimmen erhielten. Bei der Betrachtung der Tabelle fallen einige Sachen auf:

  • Die späteren Sieger Alexander Klaws und Tobias Regner lagen zu der Zeit nicht im vorderen Feld.
  • Mark Medlock hatte zwar als erster DSDS-Teilnehmern in jeder Abstimmung die meisten Stimmen bekommen, der Gini-Koeffizient spiegelt das nicht wieder. Der Grund war, daß es am Anfang mehrere Kandidaten gab, welche Stimmen auf sich ziehen konnten.

Diese Beobachtungen zeigen, daß der Gini-Koeffizient nur eine Zusammenfassung darstellt und nicht einzelne Entwicklungen der Kandidaten wiedergeben kann.

Zum Vergleich kann man auch das Abstimmungsergebnis von Finale des RTL-Supertalents 2008 heranziehen, welches Michael Hirte gewonnen hatte. Hier erhält man einen Gini-Koeffizienten von 0,704!

Egal, wie man zu solchen Formaten steht, es lohnt sich, sie mit einem wachen Auge zu betrachten und dabei auch Methoden anzuwenden, bei denen das Ergebnis nicht im Voraus feststeht.

[UPDATE: In der 3. Mottoshow der aktuellen Staffel gab es – wie so oft –  eine Neuerung: Moderator Marco Schreyl verkündete kurz vor Ende der Abstimmung den Zwischenstand. Demnach entfielen auf die 8 Kandidaten jeweils 19, 18, 13, 12, 12, 10, 9 und 7 Prozent der Stimmen. Wenn dem so ist, dann würde diese Staffel das ausgeglichenste Feld aller bisherigen Staffeln besitzen. Die Einblendung ist auch unter dem Gesichtspunkt verständlich, daß RTL von den Zuschaueranrufen profitiert. (Marco Schreyl hatte dabei übrigens erwähnt, daß sich dabei auch zwischen den Plätzen 4 und5 noch alles entscheiden kann, da auf beide je 12 Prozent entfallen. Wie sich die Positionierung auf den Mittelplätzen auf die eigentliche Prozedur auswirken soll, ist allerdings unklar.)

Statistik surreal

Freitag, 16. Januar, 2009

Auf der Webseite des Wadsworth Atheneums, dem ältesten öffentlichen Kunstmuseum der Vereinigten Staaten, befindet sich eine Anwendung namens SurrealPainter, mit welchem der Besucher aus verschiedenen Hintergründen und Objekten ein surreales Bild erstellen kann. Mit dieser Anwendung, welche Teil einer Werbekampagne gewesen ist, habe ich zum Thema Statistik ein Bild gemacht:

Statistik

Statistik surreal

http://www.wadsworthatheneum.org/painter/galleryView.php?paintingID=10393

Heimvorteil im deutschen Fußball: Bilanz 1994-2008

Donnerstag, 26. Juni, 2008

achdem ich über eine Methode berichtet habe, um den Heimvorteil einer Fußballmannschaft während einer Saison zu berechnen, habe ich diese auf die Mannschaften der 1. und 2. Bundesliga angewandt und dabei, sofern das möglich war, die Mittelwerte über die Jahre 1998 bis 2007 berechnet, um den typischen Heimvorteil einer Mannschaft zu ermitteln. In einem weiteren Beitrag habe ich die Mannschaften der beiden höchsten niederländischen Spielklassen, der Eredivisie sowie der Eerste Divisie, untersucht. Da dort über lange Jahre dieselben Mannschaften im bezahlten Fußball spielten, bot sich die Gelegenheit, den Heimvorteil der Vereine für die letzten 15 Jahre zu berechnen, um eine bessere Schätzung für einen bestimmten Verein zu erhalten. Neben dem AGOVV Apeldoorn, der allerdings erst seit 5 Jahren vertreten ist, erwiesen sich der FC Volendam und vor allem Willem II Tilburg als Vereine, welche über die Jahre einen hohen Heimvorteil aufwiesen. Auf der anderen Seite konnte man Fortuna Sittard und der BV Veendam als Vereine mit geringem Heimvorteil bezeichnen. Die Bilanz der letzten 15 Jahre habe ich nun auch für die Vereine der 1. und 2. Bundesliga ermittelt.

Eine wichtige Erkenntnis aus den bisherigen Berechnungen ist, daß die Saisonresultate für einen Verein stark schwanken. Wie sich herausgestellt hat, wies der VfB Stuttgart auch über die letzten 15 Jahre gesehen eine der stärksten Varianzen auf:

Heimvorteil des
VfB Stuttgart
Saison Heimvorteil
1993/94 0,724
1994/95 1,529
1995/96 0,147
1996/97 0,585
1997/98 0,996
1998/99 1,070
1999/00 – 1,162
2000/01 1,125
2001/02 0,195
2002/03 0,621
2003/04 – 0,474
2004/05 1,007
2005/06 – 0,452
2006/07 0,408
2007/08 1,904

(Lesebeispiel: Während der Saison 2007/08 erzielte der VfB Stuttgart im Durchschnitt eine um 1,904 Tor bessere Tordifferenz als bei einem Auswärtsspiel)

Der Heimvorteil des VfB schwankte in den letzten 15 Jahren somit zwischen -1,162 und +1,904. Im Durchschnitt ergibt das einen Heimvorteil von 0,548. Trotz der großen Varianz in den Spielzeiten ist dieser Mittelwert signifikant größer als Null.

Wie zuvor wurde für die Mannschaften, welche im betrachteten Zeitraum in der 1. oder 2. Bundesliga spielten, der Heimvorteil berechnet und der Mittelwert über die letzten 15 Jahre gebildet. Eine halbwegs aussagefähige Schätzung kann man für einen Verein machen, wenn mindestens 5 Spielzeiten vorliegen (oft sind auch mehr nötig):

Heimvorteil der Fußballvereine
der 1. und 2. Bundesliga
Spielzeiten 1993/94 bis 2007/08
Platz Verein Spielzeiten Heimvorteil
1. 1. FC Schweinfurt 1 1,390
2. VfB Oldenburg 1 1,221
3. FSV Zwickau 4 1,098
4. VfB Leipzig 5 0,974
5. FC Gütersloh 3 0,949
6. SSV Reutlingen 3 0,934
7. Erzgebirge Aue 5 0,922
8. VfL Osnabrück 3 0,912
9. FC Homburg 2 0,875
10. SV Meppen 5 0,831
11. Alemannia Aachen 9 0,793
12. 1. FC Saarbrücken 6 0,789
13. Eintracht Braunschweig 3 0,757
14. Energie Cottbus 11 0,756
15. SpVgg Unterhaching 11 0,753
16. Waldhof Mannheim 8 0,729
17. Chemnitzer FC 5 0,727
18. SG Wattenscheid 09 5 0,724
19. VfL Wolfsburg 15 0,707
20. Borussia Mönchengladbach 15 0,699
21. Dynamo Dresden 4 0,661
22. 1. FC Kaiserslautern 15 0,642
23. VfB Lübeck 4 0,578
24. Rot-Weiß Erfurt 1 0,577
25. FSV Mainz 05 15 0,570
26. SC Paderborn 3 0,569
27. Arminia Bielefeld 13 0,565
28. VfB Stuttgart 15 0,548
29. FC St. Pauli 11 0,548
30. SC Freiburg 15 0,540
31. Hertha BSC 15 0,521
32. Hansa Rostock 15 0,520
33. Borussia Dortmund 15 0,519
34. Hamburger SV 15 0,515
35. FC Bayern München 15 0,498
36. SSV Ulm 1846 3 0,493
37. VfL Bochum 15 0,465
38. Karlsruher SC 14 0,452
39. Eintracht Frankfurt 15 0,448
40. FC Augsburg 2 0,447
41. 1. FC Köln 15 0,436
42. 1. FC Nürnberg 14 0,415
43. FC Schalke 04 15 0,411
44. Bayer Leverkusen 15 0,394
45. SpVgg Greuther Fürth 11 0,393
46. Fortuna Köln 7 0,368
47. Union Berlin 3 0,362
48. Hannover 96 13 0,359
49. Kickers Offenbach 4 0,342
50. Eintracht Trier 3 0,341
51. 1860 München 15 0,328
52. Rot-Weiß Oberhausen 7 0,325
53. Sportfreunde Siegen 1 0,313
54. FSV Frankfurt 1 0,309
55. Rot-Weiß Ahlen 6 0,305
56. TSG Hoffenheim 1 0,301
57. TuS Koblenz 2 0,290
58. Werder Bremen 15 0,290
59. Rot-Weiß Essen 4 0,239
60. FC Carl Zeiss Jena 6 0,227
61. MSV Duisburg 15 0,180
62. SV Wehen Wiesbaden 1 0,176
63. Stuttgarter Kickers 6 0,149
64. KFC Uerdingen 05 6 0,130
65. Fortuna Düsseldorf 5 0,096
66. Wacker Burghausen 5 0,060
67. Wuppertaler SV 1 0,038
68. TeBe Berlin 3 – 0,108
69. Jahn Regensburg 1 – 0,110
70. SV Babelsberg 1 – 0,673

(kursiv: Manschaften mit weniger als 5 Spielzeiten)

(Quellen: Soccerway)

Zu den Vereinen mit einem hohen Heimvorteil über mehrere Spielzeiten zählen laut der Tabelle Alemannia Aachen, Energie Cottbus und die SpVgg Unterhaching. Als Vereine mit geringem Heimvorteil lassen sich der MSV Duisburg und Werder Bremen einstufen. Den größten Heimvorteil in einer Saison verzeichnete die Borussia Mönchengladbach in der Saison 2002/03 mit einem Wert von 2,121. Den geringsten Heimvorteil in einer Saison wies der VfB Stuttgart in der Saison 1999/00 mit einem Wert von -1,162 auf.

Die Theorie, daß die Heimvorteil eines Vereins mit der Entfernung zu den anderen Vereinen steigt, scheint sich auch bei dieser Untersuchung zu bestätigen. In diesem Zusammenhang ist auch der SV Meppen zu erwähnen, welcher im Emsland beheimatet ist und 11 Jahre hintereinander in der 2. Bundesliga spielte, so daß ein Abstieg aus der 1. Bundesliga mit der Aussicht verbunden wurde, in Meppen zu spielen. In dieser Untersuchung ist Meppen nur mit 5 Spielzeiten vertreten, kam aber in diesem Zeitraum auf einen durchschnittlichen Heimvorteil von 0,831, was auch statistisch gesehen einen signifikanten Wert darstellt, da der Heimvorteil in den einzelnen Spielzeiten relativ konstant gewesen ist.

Ab der Saison 2008/09 spielen 20 Vereine in der neugegründeten 3. Liga. Also besteht künftig auch die Möglichkeit, auch dort die Heimvorteile der Vereine zu berechnen und für die Schätzung eines langjährigen Heinvorteils zu berücksichtigen.

Unerkannte gefährliche Viertel in Amsterdam

Donnerstag, 19. Juni, 2008

Die Tageszeitung „Algemeen Dagblad“ vergleicht die Kriminalität in den niederländischen Gemeinden mit ihrem Misdaadmeter, wobei man auch näheres über die Verbreitung einzelner Delikte erfährt (näheres dazu in diesem Beitrag). Anläßlich des unlängst erschienenen Misdaadscore für das Jahr 2007 soll das Augenmerk auf eine besondere Gruppe von Vierteln in der Stadt Amsterdam gerichtet werden, welche bisher nicht als kriminell galten, aber es nach den Zahlen definitiv ist. Dieser Vergleich wurde möglich, weil man im neuen Misdaadmeter nicht nur die Fallzahlen von ganz Amsterdam oder den Stadtteilen einsehen kann, sondern auch in den einzelnen Stadtvierteln (das Jahrbuch der Stadt Amsterdam enthält eine geographische Übersicht; nähere Informationen stehen in der niederländischen Wikipedia).

Wenn man ein unsicheres Viertel in Amsterdam nennen soll, so fällt einen zuerst das Rotlichtviertel (gelegen im Viertel „Oude Zijde„) ein. Die Tatsache, daß es auch sonst als Vergnügungsviertel dient, dient als Indiz für eine höhere Kriminalität. In diesem Zusammenhang wird auch die „Nieuwe Zijde„, welche gegenüber der Damrak – der Straße, die vom Hauptbahnhof in die Stadtmitte führt – gelegen ist und ebenfalls zahlreiche Ausgangsmöglichkeiten wie das Bierlokal „In de Wildeman“ aufweist, genannt.

Eine andere Gruppe von Vierteln, welche in den Sinn kommen, sind die sogenannten sozialen Brennpunkte oder Problemviertel. In den Niederlanden wurde im März 2007 eine Liste von 40 Problemvierteln ausgewiesen, welche besondere Investitionen emfangen sollen. Eines dieser Problemviertel ist das Bijlmermeer, welches sich im Verlauf der Zeit zu einem Immigrantenviertel entwickelte. Dieses Viertel wird vor allem von den Leuten genannt, welche schon von Geburt an wußten, daß die Ausländer „das Problem“ sind.

Wenn man den Angaben des Misdaadmeters nachgeht, so stellt sich heraus, daß drei Viertel den Zahlen zufolge mindestens genauso unsicher bzw. deutlich gefährlicher sind. Bei diesen Vierteln handelt es sich um:

  • De Omval (2110 Einwohner): Eine Landzunge südlich der Station Amsterdam Amstel, welche u.a. mit dem Rembrandtturm das höchste Hochhaus von Amsterdam enthält.
  • Amstel III en Bullewijk (110 Einwohner): In diesem Viertel liegt unter anderem die Amsterdam ArenA und das größte Krankenhaus von Amsterdam, das Academisch Medisch Centrum (AMC).
  • Nieuwendammerham (130 Einwohner): Ein an der IJ gelegenes Industriegebiet im Stadtteil Amsterdam-Noord.
  • Westpoort (370 Einwohner): Stadtteil von Amsterdam, welches die westlichen Häfen umfaßt.
  • Buiksloterham (610 Einwohner): Ein westlich von Nieuwendammerham am der IJ gelegenes Industriegebiet von Amsterdam-Noord.

Betrachten wir nun die Kriminalitätsraten der für den Misdaadscore herangezogenen Delikte in den erwähnten Stadtteilen im Verhältnis zur gesamten Stadt Amsterdam.

Autodiebstahl
Stadtteil Vielfaches
Westpoort 42,2
Amstel III en Bullewijk 39,7
Nieuwendammerham 33,6
Buiksloterham 14,3
De Omval 11,5
Burgwallen – Oude Zijde 1,5
Burgwallen – Nieuwe Zijde 1,3
Bijlmer – Centrum D, F en H 1,0
Bijlmer – Oost E, G en K 1,0

Lesebeispiel: Im Stadtteil Westpoort ist die Rate für Autodiebstahl die 42,2-fache im Vergleich zur gesamten Stadt Amsterdam.

Bedrohung
Stadtteil Vielfaches
Amstel III en Bullewijk 99,7
Westpoort 20,6
Nieuwendammerham 33,6
Burgwallen – Nieuwe Zijde 6,6
Burgwallen – Oude Zijde 4,9
Buiksloterham 3,1
De Omval 2,5
Bijlmer – Centrum D, F en H 2,1
Bijlmer – Oost E, G en K 1,1
Mißhandlung
Stadtteil Vielfaches
Amstel III en Bullewijk 79,5
Westpoort 21,1
Burgwallen – Nieuwe Zijde 11,4
Burgwallen – Oude Zijde 9,0
Buiksloterham 7,2
Nieuwendammerham 3,6
De Omval 3,6
Bijlmer – Centrum D, F en H 1,9
Bijlmer – Oost E, G en K 1,2
Überfall
Stadtteil Vielfaches
Amstel III en Bullewijk 33,8
Westpoort 30,1
Nieuwendammerham 14,3
Burgwallen – Nieuwe Zijde 10,5
Buiksloterham 9,1
Burgwallen – Oude Zijde 5,5
Bijlmer – Centrum D, F en H 1,9
De Omval 1,8
Bijlmer – Oost E, G en K 0,8
Straßenraub
Stadtteil Vielfaches
Amstel III en Bullewijk 28,3
Burgwallen – Oude Zijde 23,3
Burgwallen – Nieuwe Zijde 16,7
Westpoort 14,7
Nieuwendammerham 6,0
Bijlmer – Oost E, G en K 2,0
Buiksloterham 1,9
Bijlmer – Centrum D, F en H 1,8
De Omval 1,7
Wohnungseinbruch
Stadtteil Vielfaches
Burgwallen – Oude Zijde 2,2
De Omval 1,9
Burgwallen – Nieuwe Zijde 1,8
Nieuwendammerham 1,7
Bijlmer – Centrum D, F en H 1,1
Bijlmer – Oost E, G en K 1,0
Amstel III en Bullewijk 0,0
Buiksloterham 0,0
Westpoort 0,0
Kraftfahrzeugeinbruch
Stadtteil Vielfaches
Amstel III en Bullewijk 131,6
Westpoort 27,7
Nieuwendammerham 12,8
Buiksloterham 5,7
De Omval 5,0
Burgwallen – Nieuwe Zijde 3,2
Burgwallen – Oude Zijde 2,0
Bijlmer – Oost E, G en K 0,7
Bijlmer – Centrum D, F en H 0,6
Diebstahl aus Box, Garage usw.
Stadtteil Vielfaches
Amstel III en Bullewijk 7,0
Nieuwendammerham 6,0
Buiksloterham 5,1
De Omval 2,6
Bijlmer – Centrum D, F en H 2,4
Westpoort 2,1
Bijlmer – Oost E, G en K 2,0
Burgwallen – Oude Zijde 0,6
Burgwallen – Nieuwe Zijde 0,2
Diebstahl von Moped oder Mofa
Stadtteil Vielfaches
Westpoort 18,4
Amstel III en Bullewijk 15,4
Burgwallen – Nieuwe Zijde 3,8
Buiksloterham 3,7
Burgwallen – Oude Zijde 2,3
De Omval 1,3
Bijlmer – Centrum D, F en H 0,7
Bijlmer – Oost E, G en K 0,3
Nieuwendammerham 0,0
Betrug
Stadtteil Vielfaches
Amstel III en Bullewijk 108,5
Westpoort 39,4
Burgwallen – Nieuwe Zijde 17,8
Burgwallen – Oude Zijde 6,3
Buiksloterham 5,1
Nieuwendammerham 3,4
De Omval 1,5
Bijlmer – Centrum D, F en H 1,1
Bijlmer – Oost E, G en K 1,0
Vandalismus gegen Autos
Stadtteil Vielfaches
Amstel III en Bullewijk 71,8
Westpoort 24,7
Nieuwendammerham 9,7
Buiksloterham 6,8
De Omval 4,6
Burgwallen – Oude Zijde 2,4
Burgwallen – Nieuwe Zijde 2,0
Bijlmer – Oost E, G en K 0,8
Bijlmer – Centrum D, F en H 0,8
Taschendiebstahl
Stadtteil Vielfaches
Amstel III en Bullewijk 92,0
Burgwallen – Nieuwe Zijde 55,1
Burgwallen – Oude Zijde 21,6
Westpoort 15,1
De Omval 1,2
Buiksloterham 0,9
Nieuwendammerham 0,8
Bijlmer – Centrum D, F en H 0,4
Bijlmer – Oost E, G en K 0,2

(Quellen: Algemeen Dagblad, CBS Statline)

Trotz ihrer geringen Einwohnerzahl weisen diese Stadtviertel teilweise dramatisch hohe Kriminalitätsraten auf.

Welche Gefahren stecken hinter diesen Mauern?

Amsterdam-Westpoort: Welche Gefahren stecken hinter diesen Mauern?

Der geneigte Leser mag den Eindruck gewinnen, daß die Zahlen nicht das aussagen, was sie auszusagen scheinen. In diesem Fall sollte er sich bewußt machen, daß das nichts schlechtes, sondern etwas gutes ist. Denn Resultate, welche nicht den Erwartungen entsprechen, sind der beste Weg zur Erlangung neuen Wissens.

Zum Schluß sollen noch die gemäß dem Misdaadscore sichersten Stadtviertel von Amsterdam vorgestellt werden (mit mindestens 4000 Einwohnern):

  1. Middelveldsche Akerpolder en Sloten (14950 Einwohner): Sloten ist ein Dorf an der Grenze zwischen Amsterdam und Haarlemmermeer.
  2. Rijnbuurt (8570 Einwohner): Ein Viertel im Stadtteil ZuiderAmstel.
  3. Gein (11980 Einwohner): Ein Viertel im Stadtgebiet Gaasperdam am Rand von Amsterdam-Zuidoost.

Warum kommt der nächste Bus so spät?

Donnerstag, 12. Juni, 2008

Der geneigte Leser hat es vielleicht schon selber erlebt: Man kommt an eine Bushaltestelle und sieht nur die Rücklichter von seinem Bus, weil dieser extrem pünktlich abfährt (zuweilen sogar Minuten vor der eigentlichen Abfahrtszeit). Wenn man dann auf den nächsten Bus wartet, so hat dieser für gewöhnlich Verspätung. Wenn man sich bewußt wird, daß man den ersten Bus locker erreicht hätte, wäre dieser so spät abgefahren wäre, und daß man neben dem verpaßten Bus auch noch die Verspätung des nächsten Busses über sich ergehen lassen muß, vermutet man schnell, daß irgendwelche bösen Mächte am Werk sind. Wie bei vielen Verschwörungstheorien ist die Wahrheit nichts besonderes; in diesem Fall liegt ein einfaches statistisches Phänomen vor.

Um das Geheimnis zu erklären, sind nur ein paar einfache Annahmen notwendig. Die Wirklichkeit ist zwar komplizierter, aber auf diese Weise erhält man einen besseren Einblick:

  • Angenommen, es gibt für die angestrebte Fahrt zwei Busse, Bus A und Bus B. Bus B fährt direkt nach Bus A.
  • Die allgemeinen Bedingungen, welche sich auf die Fahrtzeit eines Busses (und somit auf eventuelle Verspätungen) auswirken, sind für beide Busse gleich.
  • Die Fahrt von Bus A hat keine Auswirkungen auf die Fahrt von Bus B. Diese Annahme ist notwendig, um für die Überlegungen die Anwesenheit von „bösen Mächten“ auszuschließen.

Wenn sich z.B. Bus A und Bus B im Schnitt jeweils mit 5 Minuten Verspätung abfahren, so bedeutet das nicht, daß beide Busse dann immer exakt 5 Minuten zu spät abfahren, sondern sie haben mal mehr und mal weniger Verspätung (und können u.U. sogar pünktlich sein!). Diese Variation gehört zu den Busfahrten und ist das Ergebnis der Rahmenbedingungen. Man kann zwar nicht vorhersagen, wann ein bestimmter Bus fährt, aber wann auf lange Sicht die Busse insgesamt fahren.

Was passiert also, wenn man Bus A verpaßt, weil dieser pünktlich abfuhr (also mit 0 Minuten Verspätung)? Weil die Pünktlichkeit von Bus A keinen Einfluß auf Bus B hat, fährt dieser genauso wie sonst. Da Bus B im Schnitt mit 5 Minuten Verspätung abfährt, macht er das auch, wenn Bus A pünktlich war. Also muß man in diesem Fall auf Bus B länger warten.

Das statistische Phänomen, welches dahinter steckt, ist die Regression zur Mitte. In diesem Fall werden die extremen Fahrten von Bus A (extrem pünktlich bzw. extrem spät) durch den Zufall bestimmt. Die Fahrten von Bus B, welche mit den extrem pünktlichen Fahrten von Bus A verglichen werden, bilden einen Durchschnitt, in welchem sich das Zufallselement herausrechnet. Somit rückt ein Durchschnittswert für Bus B gemessen an den extremen Fahrten von Bus A zum allgemeinen Durchschnitt der Fahrten von Bus B.

Dies ist wieder ein Fall, wo durch die Anwendung statistischen Wissen Klarheit geschaffen wird. Diese Erkenntnis kann selbstverständlich auch auf ähnlich gelagerte Fälle angewandt werden.

Oliver Kalkofe hat den statistischen Verstand

Freitag, 16. Mai, 2008

Der „konstruktive Medienkritiker“ Oliver Kalkofe hat laut seinem Lebenslauf eine Ausbildung zum Fremdsprachenkorrespondenten und Wirtschaftsdolmetscher in Englisch und Französisch absolviert. In seiner Fernsehsendung „Kalkofes Mattscheibe“ führt er schlechtes Fernsehen vor und zeigt mit sehr deutlichen Mitteln, was er davon hält. Dieselben Mittel in Form eines ausgesuchten Wortschatzes verwendet er auch in seiner Kolumne „Kalkofes letzte Worte“, welche in der Fernsehzeitschrift „TV Spielfilm“ erscheint. Besonders in diesen Kolumnen wird deutlich, daß hinter seinen typischen Formulierungen eine Fülle an durchdachten Gedanken steckt.

In einer der jüngsten Kolumnen setzt er sich mit der Tendenz im Fernsehen auseinander, auf Innovation zu verzichten und stattdessen altbewährte Formate zu produzieren, weil sie nachgewiesenermaßen bisher Erfolg hatten (eine Kritik, die auch Gore Verbinski im Zusammenhang mit Videospielen geäußert hat). Dabei merkt Kalkofe an, daß die Verantwortlichen sich auf Statistiken stützen, welche darlegen, welche Faktoren – im untersuchten Zeitraum – zum Erfolg geführt haben. Er gibt zu bedenken, daß ein neues Format besser beim Publikum ankommen kann als ein übernommenes:

„Der maximale Effekt beim Gewinnen der Publikums-Sympathie ist nun mal nicht die Wiederholung, sondern die Überraschung! Der Zuschauer lässt sich in erster Linie begeistern von dem was NEU ist und von dem er vorher noch gar nicht wusste, dass es das überhaupt geben würde.“

Dieser Ansatz spiegelt sich bekanntlich auch im Kano-Modell wieder, wo eine Gruppe von Eigenschaften eines Produktes oder Dienstleistung, die „Erfreuer“ (engl. delighter), beim Kunden überproportional ankommen. Diese Erfreuer werden von Kunden nicht erwartet. Im Zusammenhang mit dem Umgang mit den Zuschaueranalysen kommt Kalkhofe zu einer der ultimativen Weisheiten über die Statistik:

„Die tollste Statistik kann … nur helfen, wenn man nicht zu blöd ist, sie auch richtig zu lesen.“

Besser hätte man das nicht ausdrücken können. Man kann wohl davon ausgehen, daß Oliver Kalkofe kein Experte in statistischen Methoden ist. Trotzdem ist er durch bloße Betrachtung der Programmgestaltung zu dieser Erkenntnis gekommen. Nebenbei bemerkt, kann besagte Unkenntnis nicht als Argument dafür genommen werden, daß Kalkofes Erkenntnis falsch ist.

In der Kolumne äußert Kalkofe noch eine weitere Kritik, welche noch über die entsprechende Kritik von Verbinski hinausgeht. Seiner Meinung nach haben vom Ausland übernommene deutsche Fernsehformate das Problem, daß sie Kopien der Originale darstellen, jedoch „ohne das, was das jeweilige Original eben überraschend oder überragend machte“. Ein anschauliches Beispiel aus der jüngsten Zeit ist die Fernsehserie „Das iTeam – die Jungs an der Maus“, welche eine Kopie der britischen Serie „The IT Crowd“ ist. Die deutsche Serie wurde nach zwei Folgen aus dem Programm genommen, aber glücklicherweise gibt es im Internet Vergleiche zwischen einzelnen Szenen wie in dieser Video-Kritik (so daß es einem glücklicherweise erspart bleibt, sich die Serie selber anzusehen). Man muß sich unweigerlich fragen, ob die Fernsehmacher bei ihren Werken sich überhaupt vergewissern, ob ihre Sendungen die beabsichtigte Wirkung beim Zuschauer überhaupt haben.

Lesern der Literatur von und über W. Edwards Deming ist dieses Phänomen wohlbekannt. Dort ist das klassische Beispiel vom Möbelhersteller zu finden, welches Klaviere herstellen wollte und zu diesem Zweck ein Klavier kaufte und auseinandernahm. Die so hergestellten Klaviere waren perfekte Kopien mit der Ausnahme, daß sie nicht spielen konnten (wie auch das Originalklavier, welches zwecks Rückgabe wieder zusammengebaut wurde). Ein weiteres Beispiel handelte von kopierten Kopiergeräten, welche nicht kopieren konnten.

Kalkofes Kolumne zeigt, daß wichtige Erkenntnisse (korrekter Umgang mit Statistik, Bedeutung von Innovation) auch von Leuten gemacht bzw. übernommen werden können, welche nicht aus dem Fachgebiet kommen (in diesem Fall Statistik bzw. Betriebswirtschaft).

Heimvorteil im niederländischen Fußball

Dienstag, 6. Mai, 2008

Vor kurzem habe ich in einem Beitrag über eine Methode berichtet, um den Heimvorteil einer Fußballmannschaft während einer Saison zu berechnen (Details siehe dort). Der Heimvorteil einer Mannschaft ist definiert als die durchschnittliche Verbesserung der Tordifferenz pro Spiel zugunsten dieser Mannschaft, wenn sie auf ihrem eigenen Platz spielt. Die Berechnungsmethode habe ich auf die Mannschaften der 1. und 2. Bundesliga angewandt. Ein wesentlicher Aspekt bei der Analyse ist, daß die Resultate einer Saison wenig über den Heimvorteil einer bestimmten Mannschaft aussagen, sondern daß man dafür Mittelwerte über mehrere Jahre benötigt. Eine weitere Beobachtung, welche auch im zugrundelegenden Artikel gamcht wurde, war, daß die Entfernung eines Vereins zu den anderen Mannschaften einen wichtigen Einfluß auf den Heimvorteil einer Mannschaft hatte; je abgelegener eine Spielstätte war, desto besser waren die Heimergebnisse gegenüber den Auswärtsergebnissen.

Diese Methode habe ich jetzt nach Ablauf der Saison auf die Mannschaften der beiden höchsten niederländischen Spielklassen, der Eredivisie sowie der Eerste Divisie, angewandt. Die Analyse gewinnt einen besonderen Reiz durch den Umstand, daß über lange Jahre dieselben Mannschaften im bezahlten Fußball spielten, da aus der Eerste Divisie normalerweise (also sportlich) keine Mannschaften absteigen oder in sie aufsteigen. Zuletzt wurden 2003/04 der AGOVV Apeldoorn und 2005/06 der FC Omniworld aus Almere aufgenommen. Der KNVB plant für die Zukunft die Einrichtung einer Topklasse zwischen der Eerste Divisie und der Amateurklasse mit einer sportlichen Auf- und Abstiegsregelung. Diese Pläne werden jedoch frühestens 2009 in die Tat umgesetzt.

Durch die besonderen Gegebenheiten bin ich dazu übergegangen, für die Berechnung des Heimvorteils statt der letzten 10 Jahre die letzten 15 Jahre heranzuziehen. Daß die Saisonresultate auch in den Niederlanden stark schwanken, kann man an dem in den letzten Jahren erfolgreichsten Verein, dem PSV Eindhoven, sehen. Der Heimvorteil, welcher insgesamt zu der höheren im niederländischen Fußball gehört, wies eine der stärksten Varianzen auf:

Heimvorteil des
PSV Eindhoven
Saison Heimvorteil
1993/94 0,290
1994/95 1,397
1995/96 1,066
1996/97 1,978
1997/98 1,143
1998/99 1,515
1999/00 0,382
2000/01 – 0,228
2001/02 1,934
2002/03 – 0,257
2003/04 – 0,482
2004/05 – 0,195
2005/06 0,022
2006/07 1,070
2007/08 0,445

Der Heimvorteil des PSV schwankte in den letzten 15 Jahren somit zwischen -0,482 und +1,978. Im Durchschnitt ergibt das einen Heimvorteil von 0,672. Trotz der großen Varianz in den Spielzeiten ist dieser Mittelwert signifikant größer als Null.

Wie für den deutschen Fußball wurde nun für die anderen Mannschaften der ersten und zweiten Spielklasse der Heimvorteil berechnet. Dabei liegen für 36 Mannschaften Ergebnisse der letzten 15 Jahre vor. Der AGOVV Apeldorn spielt seit 5 Jahren im bezahlten Fußball mit. Der FC Omniworld ist erst seit 3 Jahren dabei, was für eine aussagefähige Schätzung nicht ausreicht:

Heimvorteil der Fußballvereine
der niederländischen Eredivisie und der Eerste Divisie
Spielzeiten 1993/94 bis 2007/08
Platz Verein Spielzeiten Heimvorteil
1. AGOVV Apeldoorn 5 1,216
2. Willem II Tilburg 15 0,910
3. FC Volendam 15 0,733
4. FC Groningen 15 0,689
5. FC Utrecht 15 0,685
6. PSV Eindhoven 15 0,672
7. MVV Maastricht 15 0,667
8. Go Ahead Eagles Deventer 15 0,646
9. Ajax Amsterdam 15 0,630
10. Sparta Rotterdam 15 0,629
11. Roda JC Kerkrade 15 0,622
12. RBC Roosendaal 15 0,570
13. ADO Den Haag 15 0,547
14. Feyenoord Rotterdam 15 0,535
15. De Graafschap Doetinchem 15 0,534
16. FC Eindhoven 15 0,504
17. FC Emmen 15 0,493
18. SC Heerenveen 15 0,489
19. FC Twente Enschede 15 0,476
20. Helmond Sport 15 0,469
21. FC Zwolle 15 0,463
22. TOP Oss 15 0,423
23. HFC Haarlem 15 0,419
24. RKC Waalwijk 15 0,383
25. Cambuur Leeuwarden 15 0,378
26. VVV Venlo 15 0,372
27. FC Dordrecht 15 0,370
28. AZ Alkmaar 15 0,367
29. Vitesse Arnhem 15 0,360
30. Heracles Almelo 15 0,342
31. FC Den Bosch 15 0,334
32. Excelsior Rotterdam 15 0,329
33. FC Omniworld (Almere) 3 0,299
34. NEC Nijmegen 15 0,291
35. Stormvogels Telstar (Velsen) 15 0,278
36. NAC Breda 15 0,203
37. BV Veendam 15 0,091
38. Fortuna Sittard 15 0,056

(kursiv: Manschaften mit weniger als 5 Spielzeiten)

(Quellen: Soccerway, RSSSF)

Neben dem AGOVV Apeldoorn, der allerdings erst seit 5 Jahren vertreten ist, erwiesen sich der FC Volendam und vor allem Willem II Tilburg als Vereine, welche über die Jahre einen hohen Heimvorteil aufwiesen. Am anderen Ende der Tabelle kann man Fortuna Sittard und der BV Veendam als Vereine mit geringem Heimvorteil bezeichnen. Den größten Heimvorteil in einer Saison verzeichnete der FC Emmen in der Saison 1993/94 mit einem Wert von 2,515. Den geringsten Heimvorteil in einer Saison wies der FC Eindhoven (nicht identisch mit dem PSV) in der Saison 2006/07 mit einem Wert von -1,658 auf.

Auch hier stellt sich die Frage, welche Faktoren über den Heimvorteil einer Mannschaft entscheiden. Bei Tilburg und Volendam (und zu einem gewissem Grade bei Apeldoorn) kann man von einem hohen Heimvorteil sprechen, welcher auf besondere Gegebenheiten dieser Vereine zurückzuführen sein dürfte. Das selbe kann man für die geringen Heimvorteile von Sittard und Veendam aussagen. Für die Masse der Vereine müssen allgemeine Schlußfolgerungen gezogen werden.

Für Deutschland und England gibt es Anzeichen, daß die Abgelegenheit einer Spielstätte über den Heimvorteil entscheidet. Für die Niederlande kann man so einen Zusammenhang ohne genauere Analyse nicht so einfach ziehen. So weist der hoch im Norden gelegene FC Groningen einen hohen Heimvorteil auf, der in ca. 50 km Entfernung spielende Emmen jedoch nicht. Ebenso hat der in der Randstad gelegene FC Utrecht einen hohen Heimvorteil auf, die in Südlimburg spielende Fortuna Sittard jedoch nicht. Es kann sein , daß die Entfernung in den Niederlanden keinen so großen Einfluß hat oder daß bei den „untypischen“ Vereinen besondere Faktoren vorliegen.

Der AGOVV Apeldoorn in den ersten 5 Jahren im bezahlten Fußball – auch gemessen an diesen wenigen Jahren – gute Heimergebnisse erzielt. Man könnte nun vermuten, daß die Tatsache, das es sich um einen Neuzugang handelt, eine Rolle spielt. Allerdings scheint sich dies für den FC Omniworld bisher nicht ausgezahlt zu haben. Das zeigt wiederum, daß man für eine Vermutung nicht nur Beispiele betrachten sollte, welche diese Vermutung belegen.

Der nächste Schritt wäre, wie bei den anderen untersuchten Ländern, den zeitlichen Verlauf des Heimvorteils der einzelnen Mannschaften daraufhin zu betrachten, ob sich dort etwas besonderes ereignet hat. Das können Trends, Änderungen im Niveau oder Jahre mit ungewöhnlichen Resultaten sein.

Die Analyse des niederländischen Fußballs hat mich dazu ermutigt, nach Abschluß der aktuellen Bundesligasaison den Zeitraum ebenfalls auf 15 Jahre auszuweiten.

Welche Fußballmannschaft hat einen Heimvorteil?

Sonntag, 6. April, 2008

Es ist eine Tatsache, daß Fußball- und andere Sportmannschaften auf ihrer eigenen Stätte generell erfolgreicher sind als auswärts. Das führt zu der Frage, ob es zwischen den Mannschaften Unterschiede im Heimvorteil gibt und wodurch eventuelle Unterschiede zustande kommen. Durch statistische Analysen kann man in dieser Frage weiterkommen.

Stephen R. Clarke und John M. Norman haben in einem Artikel für die britische Zeitschrift „The Statistician“ des Royal Statistical Society eine Methode zur Bestimmung des Heimvorteils einer Fußballmannschaft aus den Ligaergebnissen vorgestellt und sie auf die Mannschaften der 4 englischen Profiligen angewandt. Für die Berechnung werden lediglich die Endstände einer Liga mit Heim- und Auswärtstabellen sowie ein Taschenrechner benötigt. Die Formeln wurden aus der Annahme entwickelt, daß das Ergebnis eines Spieles (genauer gesagt, die Tordifferenz) sich aus den Spielstärken der beiden Mannschaften sowie des Vorteils für die Heimmannschaft ergibt:

Tordifferenz = (Spielstärke von Mannschaft A) – (Spielstärke von Mannschaft B) + (Heimvorteil von Mannschaft A)

Würde das Spiel auf neutralem Boden stattfinden, würde das Ergebnis für Mannschaft A also besser sein, je spielstärker sie ist und schlechter, je spielstärker Mannschaft B ist. Spielt Mannschaft A auf eigenem Platz, kommt der Heimvorteil hinzu, wobei ein Heimvorteil von 1 bedeutet, daß die Tordifferenz dadurch um 1 Tor besser ausfällt. Spielt Mannschaft A auf fremden Platz, dann bekommt sie es mit dem dortigen Heimvorteil zu tun. Für die Ermittlung der Formel wurde außerdem angenommen, daß sich die Spielstärken der Mannschaften innerhalb einer Liga zu Null addieren.

Um den Heimvorteil zu berechnen, welchen eine Mannschaft in einer Saison in einer Liga mit N Mannschaften mit Hin- und Rückspiel gehabt hat, werden folgende Schritte durchgeführt:

  1. Zuerst wird die Größe H bestimmt, welche die Summe der Heimvorteile aller Mannschaften in einer Liga repräsentiert. Sie wird berechnet, indem die Heimtorverhältnisse aller Mannschaften addiert und durch (N-1) geteilt werden.
  2. Der Heimvorteil einer Mannschaft erhält man, indem von ihrem Heimtorverhältnis das Auswärtstorverhältnis sowie H abgezogen und das Ergebnis durch (N-2) geteilt wird.

Beispiel: In der Bundesligasaison 2006/07 addierten sich die Heimtorverhältnisse aller Mannschaften zu +59. Da 18 Mannschaften mitspielten, ergab das für H einen Wert von

59/(18-1) = 59/17 = 3,471

Meister VfB Stuttgart hatte zu Hause ein Torverhältnis von +17 und auswärts ein Torverhältnis von +7. Das ergab einen Heimvorteil von

(17-7-H)/(18-2) = (17-7-3,471)/16 = 0,408

Bei einem Heimspiel erzielte der VfB Stuttgart also im Durchschnitt ein um 0,408 Tore besseres Ergebnis als auswärts. Den größten Heimvorteil der Saison besaß allerdings Absteiger Borussia Mönchengladbach:

Heimvorteil Bundesligasaison 2006/07
Platz Verein Heimvorteil Tabellenplatz
1. Borussia Mönchengladbach 0,971 18.
2. FC Schalke 04 0,846 2.
3. FC Bayern München 0,721 4.
4. Hertha BSC 0,596 10.
5. Arminia Bielefeld 0,533 12.
6. VfB Stuttgart 0,408 1.
7. Energie Cottbus 0,346 13.
1. FC Nürnberg 0,346 6.
9. VfL Wolfsburg 0,283 15.
10. Hannover 96 0,221 11.
FSV Mainz 05 0,221 16.
12. Alemannia Aachen 0,158 17.
Borussia Dortmund 0,221 9.
14. Bayer Leverkusen 0,096 5.
15. Hamburger SV – 0,217 7.
16. Werder Bremen – 0,592 3.
Eintracht Frankfurt – 0,592 14.
18. VfL Bochum – 1,029 8.

Aus der Tabelle geht hervor, daß in der Saison 2006/07 vier Bundesligamannschaften einen negativen Heimvorteil hatten, d.h. auf ihrem eigenen Platz waren sie schlechter als auswärts. Besonders hervor tat sich der VfL Bochum, der bei Spielen in seinem Stadion dazu neigte, einen um ca. 1 Tor schlechteres Ergebnis zu erzielen. Die Reihenfolge der Tabelle kann auch über die Differenz zwischen Heim- und Auswärtstorverhältnis ermittelt werden.

Obwohl die Tabelle die Bilanz einer ganzen Saison wiedergibt, sagen die Werte weniger über den eigentlichen Heimvorteil einer Mannschaft aus. Wie man am Beispiel des VfB Stuttgart sehen kann, schwanken die Werte über die Jahre deutlich:

Heimvorteil des
VfB Stuttgart
Saison Heimvorteil
1997/98 0,996
1998/99 1,070
1999/00 – 1,162
2000/01 1,125
2001/02 0,195
2002/03 0,621
2003/04 – 0,474
2004/05 1,007
2005/06 – 0,452
2006/07 0,408

Der Heimvorteil des VfB schwankte in den letzten 10 Jahren somit zwischen -1,162 und +1,125. Im Durchschnitt ergibt das einen Heimvorteil von 0,333.

Auf die selbe Weise wie beim VfB Stuttgart kann man nun auch für die anderen Mannschaften der 1. und 2. Bundesliga den Heimvorteil in den letzten 10 Jahren berechnen. Zur besseren Vergleichbarkeit wurden nur die Spielzeiten auf bundesweiter Ebene berücksichtigt (näheres dazu führe ich weiter unten aus). Durch die Schwankungen sollte man erst nach mindestens 5 Jahren (wahrscheinlich sogar mehr) von einem typischen Heimvorteil für eine Mannschaft sprechen:

Heimvorteil der Fußballvereine
der 1. und 2. Bundesliga
Spielzeiten 1997/98 bis 2006/07
Platz Verein Spielzeiten Heimvorteil
1. VfB Leipzig 1 1,652
2. 1. FC Schweinfurt 1 1,390
3. SSV Reutlingen 3 0,934
4. Alemannia Aachen 8 0,878
5. VfL Osnabrück 2 0,873
6. VfL Wolfsburg 10 0,833
7. SpVgg Unterhaching 9 0,830
8. Dynamo Dresden 2 0,820
9. Borussia Mönchengladbach 10 0,808
10. SV Meppen 1 0,779
11. Hertha BSC 10 0,777
12. Eintracht Braunschweig 3 0,757
13. FC Gütersloh 2 0,750
14. Energie Cottbus 10 0,698
15. 1. FC Köln 10 0,656
16. Chemnitzer FC 2 0,634
17. 1. FC Saarbrücken 4 0,628
18. SC Freiburg 10 0,619
19. Erzgebirge Aue 4 0,608
20. 1. FC Kaiserslautern 10 0,608
21. Rot-Weiß Erfurt 1 0,577
22. Waldhof Mannheim 4 0,569
23. Arminia Bielefeld 10 0,546
24. SC Paderborn 2 0,546
25. Hamburger SV 10 0,527
26. Hansa Rostock 10 0,510
27. VfB Lübeck 2 0,504
28. SSV Ulm 1846 3 0,493
29. FSV Mainz 05 10 0,469
30. SG Wattenscheid 09 2 0,469
31. FSV Zwickau 1 0,467
32. FC Bayern München 10 0,452
33. Eintracht Frankfurt 10 0,444
34. 1. FC Nürnberg 10 0,429
35. Karlsruher SC 9 0,424
36. FC St. Pauli 6 0,399
37. FC Schalke 04 10 0,383
38. MSV Duisburg 10 0,375
39. Union Berlin 3 0,362
40. SpVgg Greuther Fürth 10 0,352
41. TuS Koblenz 1 0,342
42. Eintracht Trier 3 0,341
43. Bayer 04 Leverkusen 10 0,333
VfB Stuttgart 10 0,333
45. Rot-Weiß Oberhausen 7 0,325
46. Borussia Dortmund 10 0,321
47. Sportfreunde Siegen 1 0,313
48. VfL Bochum 10 0,306
49. Rot-Weiß Ahlen 6 0,305
50. Rot-Weiß Essen 2 0,303
51. Hannover 96 9 0,242
52. 1860 München 10 0,242
53. FC Augsburg 1 0,217
54. Fortuna Köln 3 0,200
55. Kickers Offenbach 3 0,189
56. Stuttgarter Kickers 4 0,161
57. Werder Bremen 10 0,127
58. Fortuna Düsseldorf 2 0,125
59. TeBe Berlin 2 0,097
60. Wacker Burghausen 5 0,060
61. KFC Uerdingen 05 2 – 0,031
62. Jahn Regensburg 1 – 0,110
63. FC Carl Zeiss Jena 2 – 0,158
64. SV Babelsberg 1 – 0,673

(kursiv: Manschaften mit weniger als 5 Spielzeiten)

(Quelle: Soccerway)

Aus der Tabelle geht hervor, daß einige Mannschaften wie Aachen, Wolfsburg oder Unterhaching im Schnitt zu Hause deutlich stärker als auswärts waren, während der Heimvorteil bei Bremen, Hannover oder 1860 München nicht so ausgeprägt war. Den größten Heimvorteil in einer Saison verzeichnete Borussia Mönchengladbach in der Saison 2002/03 mit einem Wert von 2,121. Den geringsten Heimvorteil in einer Saison wies der VfB Stuttgart in der Saison 1999/00 mit einem Wert von -1,162 auf.

Um dem Heimvorteil weiter auf die Spur zu kommen, kann man weitergehende Berechnungen machen. Die Frage ist immer, ob es Faktoren gibt, welche einen Einfluß auf den Heimvorteil haben. Clarke und Norman haben untersucht, ob es einen Zusammenhang zwischen der Entfernung zwischen zwei Spielorten und den Ergebnissen aus den Begegnungen der entsprechenden Mannschaften gibt. Dabei stellte sich heraus, daß der Heimvorteil mit der Entfernung wächst. Damit lassen sich die hohen Heimvorteile für einige „abgelegene“ Mannschaften erklären wie auch die niedrigen Werte für Vereine in Ballungsräumen.

Von Walter A. Shewhart, dem Vater der statistischen Qualitätskontrolle und Inspirationsquelle für W. Edwards Deming, stammt eine Aussage, wonach eine Zusammenfassung der Daten ihren Benutzer nicht zu einer Handlung verleiten sollte, welcher er nicht ausführen würde, wenn die Daten in einer Zeitreihe abgebildet würden. In diesem Sinne ist es sinnvoll, wenn man nicht nur die Durchschnittswerte betrachtet, sondern für die Vereine auch die Entwicklung über die Zeit betrachtet, z.B. mit einer Kontrollkarte. So kann man nachsehen, ob Trends, Veränderungen im Niveau oder Saisons mit ungewöhnlichen Werten festzustellen sind (die Rolle des zeitlichen Verlaufes und andere Fallen bei der Analyse von Daten werden in einem lesenswerten Artikel beschrieben).

Zum Schluß muß nochmal deutlich werden, daß jeder positive Heimvorteil sowohl als Heimstärke als auch als Auswärtsschwäche ausgelegt werden kann, wie auch ein negativer Heimvorteil sowohl als Auswärtsstärke als auch als Heimschwäche ausgelegt werden kann. Welche Deutung von der Journaille gewählt wird, hängt davon ab, was mit der bestehenden Auffassung der Leserschaft am besten übereinstimmt.

Nach Ende dieser Saison werde ich aktuelle Tabellen veröffentlichen. Außerdem möchte ich gerne wissen, was bei anderen Ligen herauskommt.