Archive for the ‘Statistik’ Category

Pünktlichkeit von Bussen in Aachen – Sonderfall

Mittwoch, 27. Mai, 2009

Seit Mitte Januar erfasse ich die Verspätungen von 6 Bussen in Aachen. Nun ist am Freitag, dem 22.05.2009 folgendes passiert:

Der Bus der Linie 55, der um 18:28 Uhr an der Haltestelle Kuckelkorn abfahren sollte, ist nicht erschienen. Das ist insofern ein Problem, als der nächste Bus dieser Linie erst eine Stunde später abfährt. Da ich den Bus auf dem Weg vo meinem Haus ebenfalls nicht gesehen habe, kann er auch nicht zu früh abgefahren sein.

Wer den Fahrplan kennt, der weiß, daß ein Fahrgast, der in Richtung Vaals fährt, keineswegs eine Stunde auf einen geeigneten Bus hätte warten müssen. Noch weniger muß er warten, wenn er nur bis zum Westfriedhof fahren will. Das Entscheidende ist aber die Frage, wie es mit der Pünktlichkeit eines bestimmten Busses aussieht. Dies ist nicht nur eine wichtige Information für den Fahrgast, sondern auch für den Verkehrsbetrieb, der so weiß, wo er Verbesserungen ansetzen soll.

Es ist nun so, daß der betreffende Bus von den untersuchten Bussen die größten Verspätungen aufweist. Die zweithöchste Verspätung fand am 20. Januar dieses Jahres statt und betrug 16 Minuten und 10 Sekunden. Ein Busausfall würde einer Verspätung von ca. einer Stunde entsprechen (in diesem Fall: 60 Minuten und 58 Sekunden), was die Daten doch ziemlich verzerren würde. Die letzte Entscheidung ist noch nicht gefallen, aber es sieht so aus, daß ich diese Fahrt aus einer Analyse wie der Festlegung von Kontrollgrenzen herausnehmen werden.

Was die AVV betrifft, so stellt diese Fahrt ein besonderes Resultat dar, was bedeutet, daß für die Verspätung ein besonderer Grund vorgelegen hat. Der Verkehrsbetrieb sollte diesen Grund erfassen und sich überlegen, wie man einer ähnlichen Verspätung vorbeugen und die Folgen ggf. mildern kann (was ab Aachen-Brand durch andere Buslinien wohl geschehen ist).

Advertisements

Favoritenrolle bei DSDS – Stand 2009

Sonntag, 10. Mai, 2009

Der Drops ist gegessen, die Würfel sind gefallen. Die 6. Staffel von DSDS ist zu Ende gegangen. Der gesuchte Superstar von 2009 ist Daniel Schuhmacher. Er hatte sich mit einem denkbar knappen Ergebnis von 50,47% gegenüber Sarah Kreuz durchsetzen können. Damit ist es Zeit für eine aktualisierte Tabelle über die Verteilung der Stimmen für die Top-10-Kandidaten (siehe Artikel zu dem Thema):

Ungleichheit bei DSDS-Top-10
Staffel Gini-Koeffizient Favoriten
1 0,559 Judith Lefeber, Daniel Küblböck
2 0,339 Philippe Bühler, Anke Wagner, Denise Tillmanns, Elli Erl
3 0,405 Vanessa Jean Dedmon, Nevio Passaro, Mike Leon Grosch
4 0,392 Mark Medlock, Lisa Bund, Francisca Urio
5 0,539 Thomas Godoj
6 0,270 Dominik Büchele, Sarah Kreuz, Daniel Schuhmacher, Holger Goepftert

Fett: späterer Sieger
(Quellen: dsds.ch, eigene Berechnungen)

Die 6. Staffel hatte somit das ausgeglichenste Feld in der Geschichte von DSDS gehabt, eine Zendenz, die auch in den weiteren Mottoshows weitgehend aufrechterhalten wurde. Wenn sich RTL davon mehr Spannung und mehr Zuschauer versprochen haben sollte, dann kann der Sender sich durch die höheren Final-Quoten gegenüber dem Vorjahr bestätigt fühlen (ob die hinzugewonnenen Zuschauer alle daran interessiert gewesen sind, die Geburt eines neuen Stars mitzuerleben, ist eine andere Frage).

Pünktlichkeit von Bussen – ein Beispiel aus Aachen

Samstag, 25. April, 2009

Nachdem ich regelmäßig bestimmte Strecken per Bus und Bahn zurückzulegen hatte, mußte ich dort auch die eine oder andere Verspätung mitmachen. Durch meinen statistischen Hintergrund kam ich irgendwann auf die Idee, diese Verspätungen zu notieren und zu ermitteln, wie pünktlich die Verkehrsmittel tatsächlich sind. Nach langer Zeit habe ich Mitte Januar wieder damit begonnen und möchte einen Einblick geben, was man daraus folgern kann.

Als Beispiel habe ich die Bushaltestelle Kuckelkorn in Aachen ausgewählt, die bei mir in der Nähe liegt. Dort habe ich abends für 6 Busse festgehalten, wann sie abgefahren sind. Dabei handelt es sich um die folgenden Linien der AVV:

  1. Bus 35 Richtung Breinig Entengasse in Stolberg (stadteinwärts). Abfahrt: 18 Uhr 26.
  2. Bus 55 Richtung Vaalserquartier (stadtauswärts). Abfahrt: 18 Uhr 28.
  3. Bus 3A Richtung Uniklinik (stadteinwärts). Abfahrt: 18 Uhr 28.
  4. Bus 3B Richtung Uniklinik (stadtauswärts). Abfahrt: 18 Uhr 28.
  5. Bus 45 Richtung Aachen-Brand (stadteinwärts). Abfahrt: 18 Uhr 36.
  6. Bus 45 Richtung Uniklinik (stadtauswärts). Abfahrt: 18 Uhr 36.

Mit den Messungen habe ich am 14. Januar begonnen. Diese gingen vorerst bis zum 24. April, so daß – Rosenmontag und Ostern ausgenommen – 72 Werktage zur Verfügung standen. Am 20. März konnte ich nicht vor Ort sein, so daß ich an 71 Tage messen konnte. Hinzu kommen je ein fehlender Wert für Bus 35 am 14. Januar sowie für Bus 3A am 28. Januar.

Vorerst gibt es ein paar Maße, um sich einen Überblick zu verschaffen. Da es einige größere Verspätungen gibt, sind robuste Maße angebracht:

  • Der Median: Werden die Werte nach ihrer Größe geordnet, ist der Wert in der Mitte der Median. Er ist relativ unempfindlich gegenüber extremen Ausreißern.
  • Das untere und obere Quartil: Die Quartile teilen die Daten in vier gleich große Gruppen auf. Das untere Quartil (Q1) hat 25% aller Werte unter sich, während das obere Quartil (Q3) 75% aller Werte unter sich hat.
  • Der Interquartilsabstand (IQA): Der IQA ist ein Streuungsmaß und definiert als der Abstand zwischen den 1. und 3. Quartil. Er ist somit die Breite des Intervalls, in den die Hälfte der Werte liegt.
Verspätungen an der Haltestelle „Kuckelkorn“
Bus 35 55 3A 3B 45 45
Abfahrt 18 Uhr 26 18 Uhr 28 18 Uhr 28 18 Uhr 28 18 Uhr 36 18 Uhr 36
1. Quartil -0:28,0 1:52,0 0:28,0 0:12,0 -1:09,0 0:29,0
Median -0:13,5 4:56,0 0:36,0 1:00,0 0:03,0 1:12,0
3. Quartil 1:04,3 7:27,0 1:54,0 3:28,0 0:50,0 2:46,0
IQA 1:32,3 5:35,0 1:26,0 3:16,0 1:59,0 2:17,0

(alle Angaben in Minuten und Sekunden)
(Lesebeispiel: Die Verspätungen des Busses der Linie 55 zwischen dem 14. Januar und dem 24. April wiesen ein Median von 4 Minuten und 56 Sekunden auf.)

Unter den untersuchten Bussen fällt die Linie 55 auf, welche von Aachen-Lichtenbusch über Kornelimünster und dann durch die Innenstadt kommt und deutlich später als die anderen Busse abfährt. Auch die Streuung der Abfahrtszeiten ist höher als bei den anderen Linien.

Ansonsten scheinen die Busse aus der Stadt etwas später abzufahren, was daran liegen könnte, daß sie länger unterwegs sind. Aber um das belegen zu können, müßten noch mehr Linien betrachtet werden.

Um die Verspätungen genauer analysieren zu können, ist eine Betrachtung der Fahrten über die Zeit notwendig. Bei den obigen Maßen wird unterstellt, daß die Umstände, welche für die Pünktlichkeit verantwortlich sind, in den Monaten gleich geblieben sind.  Dabei könnten Wetter, Schulferien und ähnliches einen Einfluß haben. Außerdem kann man auf diese Wiese herausfinden, ob einzelne Busse für ihre Verhältnisse besonders unpünktlich (oder pünktlich!) gewesen sind. Dies weist auf besondere Ursachen bzw. Ereignisse hin, welche es nachzugehen gilt.

Ein eventueller Vorteil, wenn man sich die Verspätungen notiert, ist, daß sich ein Bus als allgemein pünktlich herausstellt. Auf der anderen Seite habe ich auch schon unpünktlichere Linien erlebt. Als ich in Baesweiler arbeitete, kam der Bus der Linie 51, auf den ich an der Endstation am Reyplatz warten mußte, grundsätzlich zu spät.

Allerdings habe ich bei der Deutschen Bahn schon mehr erlebt. So kam jeder vierte Zug von Bremen nach Köln, mit dem ich am Sonntag vom Wochenende heimfuhr und der um 20 Uhr 48 ankommen sollte, um den Herbst herum mit einer Verspätung von mehr als 45 Minuten an, so daß ich den Anschlußzug nach Aachen verpaßte.

Wie groß ist die Favoritenrolle bei DSDS?

Donnerstag, 12. März, 2009

Zur Zeit läuft bei RTL die 6. Staffel von „Deutschland sucht den Superstar“, einer Show, bei welcher ein Popstar gefunden werden soll. Wenn dabei eine Kelly Clarkson oder eine Leona Lewis entdeckt wird, dann erfüllt das Format seinen Zweck durchaus. Allerdings sehen viele Bildungsbürger die Show eher als Unterschichtenfernsehen an, was man an den Kommentaren merkt, welche zu Berichten wie diesem geschrieben werden. Auch wenn man was an DSDS auszusetzen hat (und das ist so einiges), so finde ich es völlig verkehrt, vor diesem Phänomen die Scheuklappen aufzusetzen. Vielmehr sollte man – wie eigentlich bei jeder Kuriosität – genauer hinsehen und dabei auch Methoden abseits der üblichen Informationsgewinnung verwenden. Als Beispiel soll untersucht werden, wie groß die Favoritenrolle in den einzelnen Staffeln gewesen ist, wobei der Gini-Koeffizient herangezogen wird.

Um das Ausmaß der Favoritenrolle in einer Staffel zu ermitteln, bietet sich die Verteilung der Stimmen auf die einzelnen Kandidaten an. Wenn alle Kandidaten gleichviel Stimmen erhalten, so gibt es keinen Favoriten um den Superstar-Titel. Wenn alle Stimmen auf einen Kandidaten entfallen, so gibt es einen eindeutigen Favoriten. Das ist zumindest die Theorie. Um die verschiedenen Staffeln vergleichen und um diesen Vergleich in einen frühen Stadium machen zu können, sollen die Abstimmungen bei den Mottoshows betrachtet werden, in welchen jeweils die letzten 10 Kandidaten angetreten sind.

Um die Ungleichverteilung der Stimmen zu ermitteln, benötigt man ein Maß. Ein beliebtes Ungleichverteilungsmaß ist der Gini-Koeffizient, welcher im Wesentlichen wiedergibt, wie weit die vorliegende Verteilung von einer Gleichverteilung entfernt ist. In den Wirtschafts- und Sozialwissenschaften wird so mit Vorliebe die Ungleichheit bei den Einkommen und Vermögen gemessen, wobei die Individuen gruppiert werden. Der Gini-Koeffizient liegt bei 0, wenn jeder gleich viel erhält oder besitzt, und er geht gegen 1, wenn nur einer alles bekommt. Der Ausdruck „geht gegen 1“ bedeutet dabei, daß das Maximum bei n Gruppen nicht bei 1, sondern bei (n-1)/n liegt. Bei der Abstimmungen für die 10 Kandidaten kann der Gini-Koeffizient somit höchstens bei 0.9 liegen. Um den Koeffizienten zu normieren, ist es möglich, ihn durch das Maximum zu teilen, so daß er tatsächlich Werte zwischen 0 und 1 annehmen kann. Allerdings steigt er auch in normiertem Zustand mit der Anzahl n der Individuen/Gruppen an.

Es folgen nun die Gini-Koeffizienten für die Top 10 der ersten 5 Staffeln von DSDS. Zu den einzelnen Staffeln sind auch die „Favoriten“ zu sehen, also die Kandidaten, welche zu der Zeit zusammen die Hälfte der Stimmen erhalten haben (aus den Mottoshows selbst geht nicht eindeutig hervor, welcher Kandidat vorne und welcher hinten liegt).

Ungleichheit bei DSDS-Top-10
Staffel Gini-Koeffizient Favoriten
1 0,559 Judith Lefeber, Daniel Küblböck
2 0,339 Philippe Bühler, Anke Wagner, Denise Tillmanns, Elli Erl
3 0,405 Vanessa Jean Dedmon, Nevio Passaro, Mike Leon Grosch
4 0,392 Mark Medlock, Lisa Bund, Francisca Urio
5 0,539 Thomas Godoj

Fett: späterer Sieger
(Quellen: dsds.ch, eigene Berechnungen)

Die größte Ungleichheit bei den Stimmen bestand demnach in der 1. und 5. Staffel, während das Feld in der 2. Staffel am engsten zusammenblieb, was auch daran ersichtlich ist, daß damals 4 Kandidaten die Hälfte der Stimmen erhielten. Bei der Betrachtung der Tabelle fallen einige Sachen auf:

  • Die späteren Sieger Alexander Klaws und Tobias Regner lagen zu der Zeit nicht im vorderen Feld.
  • Mark Medlock hatte zwar als erster DSDS-Teilnehmern in jeder Abstimmung die meisten Stimmen bekommen, der Gini-Koeffizient spiegelt das nicht wieder. Der Grund war, daß es am Anfang mehrere Kandidaten gab, welche Stimmen auf sich ziehen konnten.

Diese Beobachtungen zeigen, daß der Gini-Koeffizient nur eine Zusammenfassung darstellt und nicht einzelne Entwicklungen der Kandidaten wiedergeben kann.

Zum Vergleich kann man auch das Abstimmungsergebnis von Finale des RTL-Supertalents 2008 heranziehen, welches Michael Hirte gewonnen hatte. Hier erhält man einen Gini-Koeffizienten von 0,704!

Egal, wie man zu solchen Formaten steht, es lohnt sich, sie mit einem wachen Auge zu betrachten und dabei auch Methoden anzuwenden, bei denen das Ergebnis nicht im Voraus feststeht.

[UPDATE: In der 3. Mottoshow der aktuellen Staffel gab es – wie so oft –  eine Neuerung: Moderator Marco Schreyl verkündete kurz vor Ende der Abstimmung den Zwischenstand. Demnach entfielen auf die 8 Kandidaten jeweils 19, 18, 13, 12, 12, 10, 9 und 7 Prozent der Stimmen. Wenn dem so ist, dann würde diese Staffel das ausgeglichenste Feld aller bisherigen Staffeln besitzen. Die Einblendung ist auch unter dem Gesichtspunkt verständlich, daß RTL von den Zuschaueranrufen profitiert. (Marco Schreyl hatte dabei übrigens erwähnt, daß sich dabei auch zwischen den Plätzen 4 und5 noch alles entscheiden kann, da auf beide je 12 Prozent entfallen. Wie sich die Positionierung auf den Mittelplätzen auf die eigentliche Prozedur auswirken soll, ist allerdings unklar.)

Statistik surreal

Freitag, 16. Januar, 2009

Auf der Webseite des Wadsworth Atheneums, dem ältesten öffentlichen Kunstmuseum der Vereinigten Staaten, befindet sich eine Anwendung namens SurrealPainter, mit welchem der Besucher aus verschiedenen Hintergründen und Objekten ein surreales Bild erstellen kann. Mit dieser Anwendung, welche Teil einer Werbekampagne gewesen ist, habe ich zum Thema Statistik ein Bild gemacht:

Statistik

Statistik surreal

http://www.wadsworthatheneum.org/painter/galleryView.php?paintingID=10393

Verspätung an der S1

Dienstag, 22. Juli, 2008

Während meines Studiums an der Universität Dortmund fuhr ich von meiner Wohnung in der Nähe des Dortmunder Polizeipräsidiums aus grundsätzlich mit öffentlichen Nahverkehrsmitteln zur Uni. Da ich meistens zum Campus Nord mußte, hatte ich zwei Möglichkeiten zur Auswahl. Entweder fuhr ich mit der Straßenbahn zur Haltestelle „An der Palmweide“ und von dort aus mit dem Bus weiter, oder ich fuhr zum Hauptbahnhof und stieg dort in die S-Bahn S1 um. Besonders die zweite Variante bescherte einem Erlebnisse, auf welche man lieber verzichten würde. Dazu gehörten:

  • Das Deutsche Turnfest von 1990 in Dortmund und Bochum, an welchem ca. 100.000 Menschem teilnahmen, welche die VRR weitgehend mit dem üblichen Zügen befördern wollte, vollgestopfte Züge, in welchem trotzdem eine ebensolche Anzahl Menschen versuchte, einzusteigen, inklusive.
  • Einen Beuys´schen Dreckfleck im Bahnhof Dortmund-Dorstfeld, welcher in den 10 Jahren, die ich in Dortmund verbrachte, dort bestehen blieb.
  • Die Tatsache, daß man Wolkenbrüche in der unterirdisch gelegenen S-Bahn-Haltestelle Campus Nord mitbekam, da das Wasser durch die Decke lief (ich spreche dabei nicht von einzelnen Tropfen, sondern von ganzen Rinnsälen, welche an der Deckenbeleuchtung vorbeiliefen).
  • Eine Hochzeit eines Studienkollegen, welche ich verpaßt habe, da die S-Bahn nach Dortmund erst 20 Minuten Verspätung hatte (also praktisch ausfiel) und der Zug, der nach diesen 20 Minuten fahrplanmäßig kommen sollte, sogar 40 Minuten Verspätung hatte, was man erst erfuhr, als man wieder in den Bahnhof ging.
  • Einen Zug von Bochum nach Dortmund, welcher unterwegs halten mußte, da die Oberleitung abgerissen war, und erstmal an einem der heißeren Tage liegen blieb, was irgendwann dazu führte, daß einige Fahrgäste trotz mehrfacher Warnung aus dem Zug ausstiegen.

Auch wenn der Zug oft pünktlich gefahren ist, so fragt man sich gerade als Statistiker, wie man solchen Pannen vorbeugen kann. Das bezieht sich nicht nur auf Pannen, von denen es heißt, daß man nichts dagegen machen kann, sondern auch auf alltägliche Verspätungen und andere Ärgernisse. Bekanntlich kann man Probleme erst dann beheben, wenn man sie als solche erkennt und bewertet.

Zu diesem Thema gibt es auf der Webseite Log Likelihood.com ein interessantes Projekt. Der Begriff Likelihood stammt aus der Statistik, daher vermute ich, daß zumindest einer der Macher mit dem Fachbereich Statistik der Uni zu tun hat. Schon früher habe ich bei einem Campus-Fest eine Präsentation über das Thema Verspätungen erlebt und dabei u.a. erfahren, daß die Bahn einen ausgefallenen  Zug nicht als verspätet ansieht. Beim „Projekt S1“ sollen die Probleme mit der S1 in einer 30- bis 40-minütigen Dokumentation verarbeitet werden, welche auch auf DVD erhältlich sein soll. Eigentlich hätte die DVD schon letztes Jahr rauskommen sollen, leider verzögert sich die Fertigstellung des Filmes, da die Macher auch andere Verpflichtungen haben, nicht in derselben Stadt leben und einer von ihnen auf eine DSL-Leitung warten muß (ein weiteres diskussionswürdiges Thema).

Bis es soweit ist, muß man sich mit dem Trailer begnügen, welcher bereits eine kleine Fangemeinde geschaffen hat:

  • NilsOle.net: „Das S-Bahn-Trauma im Ruhrgebiet: ‚Die S1 zerstört mein Leben'“ (Aufzählung der Probleme der S1 mit weiterführenden Links)

Heimvorteil im deutschen Fußball: Bilanz 1994-2008

Donnerstag, 26. Juni, 2008

achdem ich über eine Methode berichtet habe, um den Heimvorteil einer Fußballmannschaft während einer Saison zu berechnen, habe ich diese auf die Mannschaften der 1. und 2. Bundesliga angewandt und dabei, sofern das möglich war, die Mittelwerte über die Jahre 1998 bis 2007 berechnet, um den typischen Heimvorteil einer Mannschaft zu ermitteln. In einem weiteren Beitrag habe ich die Mannschaften der beiden höchsten niederländischen Spielklassen, der Eredivisie sowie der Eerste Divisie, untersucht. Da dort über lange Jahre dieselben Mannschaften im bezahlten Fußball spielten, bot sich die Gelegenheit, den Heimvorteil der Vereine für die letzten 15 Jahre zu berechnen, um eine bessere Schätzung für einen bestimmten Verein zu erhalten. Neben dem AGOVV Apeldoorn, der allerdings erst seit 5 Jahren vertreten ist, erwiesen sich der FC Volendam und vor allem Willem II Tilburg als Vereine, welche über die Jahre einen hohen Heimvorteil aufwiesen. Auf der anderen Seite konnte man Fortuna Sittard und der BV Veendam als Vereine mit geringem Heimvorteil bezeichnen. Die Bilanz der letzten 15 Jahre habe ich nun auch für die Vereine der 1. und 2. Bundesliga ermittelt.

Eine wichtige Erkenntnis aus den bisherigen Berechnungen ist, daß die Saisonresultate für einen Verein stark schwanken. Wie sich herausgestellt hat, wies der VfB Stuttgart auch über die letzten 15 Jahre gesehen eine der stärksten Varianzen auf:

Heimvorteil des
VfB Stuttgart
Saison Heimvorteil
1993/94 0,724
1994/95 1,529
1995/96 0,147
1996/97 0,585
1997/98 0,996
1998/99 1,070
1999/00 – 1,162
2000/01 1,125
2001/02 0,195
2002/03 0,621
2003/04 – 0,474
2004/05 1,007
2005/06 – 0,452
2006/07 0,408
2007/08 1,904

(Lesebeispiel: Während der Saison 2007/08 erzielte der VfB Stuttgart im Durchschnitt eine um 1,904 Tor bessere Tordifferenz als bei einem Auswärtsspiel)

Der Heimvorteil des VfB schwankte in den letzten 15 Jahren somit zwischen -1,162 und +1,904. Im Durchschnitt ergibt das einen Heimvorteil von 0,548. Trotz der großen Varianz in den Spielzeiten ist dieser Mittelwert signifikant größer als Null.

Wie zuvor wurde für die Mannschaften, welche im betrachteten Zeitraum in der 1. oder 2. Bundesliga spielten, der Heimvorteil berechnet und der Mittelwert über die letzten 15 Jahre gebildet. Eine halbwegs aussagefähige Schätzung kann man für einen Verein machen, wenn mindestens 5 Spielzeiten vorliegen (oft sind auch mehr nötig):

Heimvorteil der Fußballvereine
der 1. und 2. Bundesliga
Spielzeiten 1993/94 bis 2007/08
Platz Verein Spielzeiten Heimvorteil
1. 1. FC Schweinfurt 1 1,390
2. VfB Oldenburg 1 1,221
3. FSV Zwickau 4 1,098
4. VfB Leipzig 5 0,974
5. FC Gütersloh 3 0,949
6. SSV Reutlingen 3 0,934
7. Erzgebirge Aue 5 0,922
8. VfL Osnabrück 3 0,912
9. FC Homburg 2 0,875
10. SV Meppen 5 0,831
11. Alemannia Aachen 9 0,793
12. 1. FC Saarbrücken 6 0,789
13. Eintracht Braunschweig 3 0,757
14. Energie Cottbus 11 0,756
15. SpVgg Unterhaching 11 0,753
16. Waldhof Mannheim 8 0,729
17. Chemnitzer FC 5 0,727
18. SG Wattenscheid 09 5 0,724
19. VfL Wolfsburg 15 0,707
20. Borussia Mönchengladbach 15 0,699
21. Dynamo Dresden 4 0,661
22. 1. FC Kaiserslautern 15 0,642
23. VfB Lübeck 4 0,578
24. Rot-Weiß Erfurt 1 0,577
25. FSV Mainz 05 15 0,570
26. SC Paderborn 3 0,569
27. Arminia Bielefeld 13 0,565
28. VfB Stuttgart 15 0,548
29. FC St. Pauli 11 0,548
30. SC Freiburg 15 0,540
31. Hertha BSC 15 0,521
32. Hansa Rostock 15 0,520
33. Borussia Dortmund 15 0,519
34. Hamburger SV 15 0,515
35. FC Bayern München 15 0,498
36. SSV Ulm 1846 3 0,493
37. VfL Bochum 15 0,465
38. Karlsruher SC 14 0,452
39. Eintracht Frankfurt 15 0,448
40. FC Augsburg 2 0,447
41. 1. FC Köln 15 0,436
42. 1. FC Nürnberg 14 0,415
43. FC Schalke 04 15 0,411
44. Bayer Leverkusen 15 0,394
45. SpVgg Greuther Fürth 11 0,393
46. Fortuna Köln 7 0,368
47. Union Berlin 3 0,362
48. Hannover 96 13 0,359
49. Kickers Offenbach 4 0,342
50. Eintracht Trier 3 0,341
51. 1860 München 15 0,328
52. Rot-Weiß Oberhausen 7 0,325
53. Sportfreunde Siegen 1 0,313
54. FSV Frankfurt 1 0,309
55. Rot-Weiß Ahlen 6 0,305
56. TSG Hoffenheim 1 0,301
57. TuS Koblenz 2 0,290
58. Werder Bremen 15 0,290
59. Rot-Weiß Essen 4 0,239
60. FC Carl Zeiss Jena 6 0,227
61. MSV Duisburg 15 0,180
62. SV Wehen Wiesbaden 1 0,176
63. Stuttgarter Kickers 6 0,149
64. KFC Uerdingen 05 6 0,130
65. Fortuna Düsseldorf 5 0,096
66. Wacker Burghausen 5 0,060
67. Wuppertaler SV 1 0,038
68. TeBe Berlin 3 – 0,108
69. Jahn Regensburg 1 – 0,110
70. SV Babelsberg 1 – 0,673

(kursiv: Manschaften mit weniger als 5 Spielzeiten)

(Quellen: Soccerway)

Zu den Vereinen mit einem hohen Heimvorteil über mehrere Spielzeiten zählen laut der Tabelle Alemannia Aachen, Energie Cottbus und die SpVgg Unterhaching. Als Vereine mit geringem Heimvorteil lassen sich der MSV Duisburg und Werder Bremen einstufen. Den größten Heimvorteil in einer Saison verzeichnete die Borussia Mönchengladbach in der Saison 2002/03 mit einem Wert von 2,121. Den geringsten Heimvorteil in einer Saison wies der VfB Stuttgart in der Saison 1999/00 mit einem Wert von -1,162 auf.

Die Theorie, daß die Heimvorteil eines Vereins mit der Entfernung zu den anderen Vereinen steigt, scheint sich auch bei dieser Untersuchung zu bestätigen. In diesem Zusammenhang ist auch der SV Meppen zu erwähnen, welcher im Emsland beheimatet ist und 11 Jahre hintereinander in der 2. Bundesliga spielte, so daß ein Abstieg aus der 1. Bundesliga mit der Aussicht verbunden wurde, in Meppen zu spielen. In dieser Untersuchung ist Meppen nur mit 5 Spielzeiten vertreten, kam aber in diesem Zeitraum auf einen durchschnittlichen Heimvorteil von 0,831, was auch statistisch gesehen einen signifikanten Wert darstellt, da der Heimvorteil in den einzelnen Spielzeiten relativ konstant gewesen ist.

Ab der Saison 2008/09 spielen 20 Vereine in der neugegründeten 3. Liga. Also besteht künftig auch die Möglichkeit, auch dort die Heimvorteile der Vereine zu berechnen und für die Schätzung eines langjährigen Heinvorteils zu berücksichtigen.

Unerkannte gefährliche Viertel in Amsterdam

Donnerstag, 19. Juni, 2008

Die Tageszeitung „Algemeen Dagblad“ vergleicht die Kriminalität in den niederländischen Gemeinden mit ihrem Misdaadmeter, wobei man auch näheres über die Verbreitung einzelner Delikte erfährt (näheres dazu in diesem Beitrag). Anläßlich des unlängst erschienenen Misdaadscore für das Jahr 2007 soll das Augenmerk auf eine besondere Gruppe von Vierteln in der Stadt Amsterdam gerichtet werden, welche bisher nicht als kriminell galten, aber es nach den Zahlen definitiv ist. Dieser Vergleich wurde möglich, weil man im neuen Misdaadmeter nicht nur die Fallzahlen von ganz Amsterdam oder den Stadtteilen einsehen kann, sondern auch in den einzelnen Stadtvierteln (das Jahrbuch der Stadt Amsterdam enthält eine geographische Übersicht; nähere Informationen stehen in der niederländischen Wikipedia).

Wenn man ein unsicheres Viertel in Amsterdam nennen soll, so fällt einen zuerst das Rotlichtviertel (gelegen im Viertel „Oude Zijde„) ein. Die Tatsache, daß es auch sonst als Vergnügungsviertel dient, dient als Indiz für eine höhere Kriminalität. In diesem Zusammenhang wird auch die „Nieuwe Zijde„, welche gegenüber der Damrak – der Straße, die vom Hauptbahnhof in die Stadtmitte führt – gelegen ist und ebenfalls zahlreiche Ausgangsmöglichkeiten wie das Bierlokal „In de Wildeman“ aufweist, genannt.

Eine andere Gruppe von Vierteln, welche in den Sinn kommen, sind die sogenannten sozialen Brennpunkte oder Problemviertel. In den Niederlanden wurde im März 2007 eine Liste von 40 Problemvierteln ausgewiesen, welche besondere Investitionen emfangen sollen. Eines dieser Problemviertel ist das Bijlmermeer, welches sich im Verlauf der Zeit zu einem Immigrantenviertel entwickelte. Dieses Viertel wird vor allem von den Leuten genannt, welche schon von Geburt an wußten, daß die Ausländer „das Problem“ sind.

Wenn man den Angaben des Misdaadmeters nachgeht, so stellt sich heraus, daß drei Viertel den Zahlen zufolge mindestens genauso unsicher bzw. deutlich gefährlicher sind. Bei diesen Vierteln handelt es sich um:

  • De Omval (2110 Einwohner): Eine Landzunge südlich der Station Amsterdam Amstel, welche u.a. mit dem Rembrandtturm das höchste Hochhaus von Amsterdam enthält.
  • Amstel III en Bullewijk (110 Einwohner): In diesem Viertel liegt unter anderem die Amsterdam ArenA und das größte Krankenhaus von Amsterdam, das Academisch Medisch Centrum (AMC).
  • Nieuwendammerham (130 Einwohner): Ein an der IJ gelegenes Industriegebiet im Stadtteil Amsterdam-Noord.
  • Westpoort (370 Einwohner): Stadtteil von Amsterdam, welches die westlichen Häfen umfaßt.
  • Buiksloterham (610 Einwohner): Ein westlich von Nieuwendammerham am der IJ gelegenes Industriegebiet von Amsterdam-Noord.

Betrachten wir nun die Kriminalitätsraten der für den Misdaadscore herangezogenen Delikte in den erwähnten Stadtteilen im Verhältnis zur gesamten Stadt Amsterdam.

Autodiebstahl
Stadtteil Vielfaches
Westpoort 42,2
Amstel III en Bullewijk 39,7
Nieuwendammerham 33,6
Buiksloterham 14,3
De Omval 11,5
Burgwallen – Oude Zijde 1,5
Burgwallen – Nieuwe Zijde 1,3
Bijlmer – Centrum D, F en H 1,0
Bijlmer – Oost E, G en K 1,0

Lesebeispiel: Im Stadtteil Westpoort ist die Rate für Autodiebstahl die 42,2-fache im Vergleich zur gesamten Stadt Amsterdam.

Bedrohung
Stadtteil Vielfaches
Amstel III en Bullewijk 99,7
Westpoort 20,6
Nieuwendammerham 33,6
Burgwallen – Nieuwe Zijde 6,6
Burgwallen – Oude Zijde 4,9
Buiksloterham 3,1
De Omval 2,5
Bijlmer – Centrum D, F en H 2,1
Bijlmer – Oost E, G en K 1,1
Mißhandlung
Stadtteil Vielfaches
Amstel III en Bullewijk 79,5
Westpoort 21,1
Burgwallen – Nieuwe Zijde 11,4
Burgwallen – Oude Zijde 9,0
Buiksloterham 7,2
Nieuwendammerham 3,6
De Omval 3,6
Bijlmer – Centrum D, F en H 1,9
Bijlmer – Oost E, G en K 1,2
Überfall
Stadtteil Vielfaches
Amstel III en Bullewijk 33,8
Westpoort 30,1
Nieuwendammerham 14,3
Burgwallen – Nieuwe Zijde 10,5
Buiksloterham 9,1
Burgwallen – Oude Zijde 5,5
Bijlmer – Centrum D, F en H 1,9
De Omval 1,8
Bijlmer – Oost E, G en K 0,8
Straßenraub
Stadtteil Vielfaches
Amstel III en Bullewijk 28,3
Burgwallen – Oude Zijde 23,3
Burgwallen – Nieuwe Zijde 16,7
Westpoort 14,7
Nieuwendammerham 6,0
Bijlmer – Oost E, G en K 2,0
Buiksloterham 1,9
Bijlmer – Centrum D, F en H 1,8
De Omval 1,7
Wohnungseinbruch
Stadtteil Vielfaches
Burgwallen – Oude Zijde 2,2
De Omval 1,9
Burgwallen – Nieuwe Zijde 1,8
Nieuwendammerham 1,7
Bijlmer – Centrum D, F en H 1,1
Bijlmer – Oost E, G en K 1,0
Amstel III en Bullewijk 0,0
Buiksloterham 0,0
Westpoort 0,0
Kraftfahrzeugeinbruch
Stadtteil Vielfaches
Amstel III en Bullewijk 131,6
Westpoort 27,7
Nieuwendammerham 12,8
Buiksloterham 5,7
De Omval 5,0
Burgwallen – Nieuwe Zijde 3,2
Burgwallen – Oude Zijde 2,0
Bijlmer – Oost E, G en K 0,7
Bijlmer – Centrum D, F en H 0,6
Diebstahl aus Box, Garage usw.
Stadtteil Vielfaches
Amstel III en Bullewijk 7,0
Nieuwendammerham 6,0
Buiksloterham 5,1
De Omval 2,6
Bijlmer – Centrum D, F en H 2,4
Westpoort 2,1
Bijlmer – Oost E, G en K 2,0
Burgwallen – Oude Zijde 0,6
Burgwallen – Nieuwe Zijde 0,2
Diebstahl von Moped oder Mofa
Stadtteil Vielfaches
Westpoort 18,4
Amstel III en Bullewijk 15,4
Burgwallen – Nieuwe Zijde 3,8
Buiksloterham 3,7
Burgwallen – Oude Zijde 2,3
De Omval 1,3
Bijlmer – Centrum D, F en H 0,7
Bijlmer – Oost E, G en K 0,3
Nieuwendammerham 0,0
Betrug
Stadtteil Vielfaches
Amstel III en Bullewijk 108,5
Westpoort 39,4
Burgwallen – Nieuwe Zijde 17,8
Burgwallen – Oude Zijde 6,3
Buiksloterham 5,1
Nieuwendammerham 3,4
De Omval 1,5
Bijlmer – Centrum D, F en H 1,1
Bijlmer – Oost E, G en K 1,0
Vandalismus gegen Autos
Stadtteil Vielfaches
Amstel III en Bullewijk 71,8
Westpoort 24,7
Nieuwendammerham 9,7
Buiksloterham 6,8
De Omval 4,6
Burgwallen – Oude Zijde 2,4
Burgwallen – Nieuwe Zijde 2,0
Bijlmer – Oost E, G en K 0,8
Bijlmer – Centrum D, F en H 0,8
Taschendiebstahl
Stadtteil Vielfaches
Amstel III en Bullewijk 92,0
Burgwallen – Nieuwe Zijde 55,1
Burgwallen – Oude Zijde 21,6
Westpoort 15,1
De Omval 1,2
Buiksloterham 0,9
Nieuwendammerham 0,8
Bijlmer – Centrum D, F en H 0,4
Bijlmer – Oost E, G en K 0,2

(Quellen: Algemeen Dagblad, CBS Statline)

Trotz ihrer geringen Einwohnerzahl weisen diese Stadtviertel teilweise dramatisch hohe Kriminalitätsraten auf.

Welche Gefahren stecken hinter diesen Mauern?

Amsterdam-Westpoort: Welche Gefahren stecken hinter diesen Mauern?

Der geneigte Leser mag den Eindruck gewinnen, daß die Zahlen nicht das aussagen, was sie auszusagen scheinen. In diesem Fall sollte er sich bewußt machen, daß das nichts schlechtes, sondern etwas gutes ist. Denn Resultate, welche nicht den Erwartungen entsprechen, sind der beste Weg zur Erlangung neuen Wissens.

Zum Schluß sollen noch die gemäß dem Misdaadscore sichersten Stadtviertel von Amsterdam vorgestellt werden (mit mindestens 4000 Einwohnern):

  1. Middelveldsche Akerpolder en Sloten (14950 Einwohner): Sloten ist ein Dorf an der Grenze zwischen Amsterdam und Haarlemmermeer.
  2. Rijnbuurt (8570 Einwohner): Ein Viertel im Stadtteil ZuiderAmstel.
  3. Gein (11980 Einwohner): Ein Viertel im Stadtgebiet Gaasperdam am Rand von Amsterdam-Zuidoost.

Warum kommt der nächste Bus so spät?

Donnerstag, 12. Juni, 2008

Der geneigte Leser hat es vielleicht schon selber erlebt: Man kommt an eine Bushaltestelle und sieht nur die Rücklichter von seinem Bus, weil dieser extrem pünktlich abfährt (zuweilen sogar Minuten vor der eigentlichen Abfahrtszeit). Wenn man dann auf den nächsten Bus wartet, so hat dieser für gewöhnlich Verspätung. Wenn man sich bewußt wird, daß man den ersten Bus locker erreicht hätte, wäre dieser so spät abgefahren wäre, und daß man neben dem verpaßten Bus auch noch die Verspätung des nächsten Busses über sich ergehen lassen muß, vermutet man schnell, daß irgendwelche bösen Mächte am Werk sind. Wie bei vielen Verschwörungstheorien ist die Wahrheit nichts besonderes; in diesem Fall liegt ein einfaches statistisches Phänomen vor.

Um das Geheimnis zu erklären, sind nur ein paar einfache Annahmen notwendig. Die Wirklichkeit ist zwar komplizierter, aber auf diese Weise erhält man einen besseren Einblick:

  • Angenommen, es gibt für die angestrebte Fahrt zwei Busse, Bus A und Bus B. Bus B fährt direkt nach Bus A.
  • Die allgemeinen Bedingungen, welche sich auf die Fahrtzeit eines Busses (und somit auf eventuelle Verspätungen) auswirken, sind für beide Busse gleich.
  • Die Fahrt von Bus A hat keine Auswirkungen auf die Fahrt von Bus B. Diese Annahme ist notwendig, um für die Überlegungen die Anwesenheit von „bösen Mächten“ auszuschließen.

Wenn sich z.B. Bus A und Bus B im Schnitt jeweils mit 5 Minuten Verspätung abfahren, so bedeutet das nicht, daß beide Busse dann immer exakt 5 Minuten zu spät abfahren, sondern sie haben mal mehr und mal weniger Verspätung (und können u.U. sogar pünktlich sein!). Diese Variation gehört zu den Busfahrten und ist das Ergebnis der Rahmenbedingungen. Man kann zwar nicht vorhersagen, wann ein bestimmter Bus fährt, aber wann auf lange Sicht die Busse insgesamt fahren.

Was passiert also, wenn man Bus A verpaßt, weil dieser pünktlich abfuhr (also mit 0 Minuten Verspätung)? Weil die Pünktlichkeit von Bus A keinen Einfluß auf Bus B hat, fährt dieser genauso wie sonst. Da Bus B im Schnitt mit 5 Minuten Verspätung abfährt, macht er das auch, wenn Bus A pünktlich war. Also muß man in diesem Fall auf Bus B länger warten.

Das statistische Phänomen, welches dahinter steckt, ist die Regression zur Mitte. In diesem Fall werden die extremen Fahrten von Bus A (extrem pünktlich bzw. extrem spät) durch den Zufall bestimmt. Die Fahrten von Bus B, welche mit den extrem pünktlichen Fahrten von Bus A verglichen werden, bilden einen Durchschnitt, in welchem sich das Zufallselement herausrechnet. Somit rückt ein Durchschnittswert für Bus B gemessen an den extremen Fahrten von Bus A zum allgemeinen Durchschnitt der Fahrten von Bus B.

Dies ist wieder ein Fall, wo durch die Anwendung statistischen Wissen Klarheit geschaffen wird. Diese Erkenntnis kann selbstverständlich auch auf ähnlich gelagerte Fälle angewandt werden.

Oliver Kalkofe hat den statistischen Verstand

Freitag, 16. Mai, 2008

Der „konstruktive Medienkritiker“ Oliver Kalkofe hat laut seinem Lebenslauf eine Ausbildung zum Fremdsprachenkorrespondenten und Wirtschaftsdolmetscher in Englisch und Französisch absolviert. In seiner Fernsehsendung „Kalkofes Mattscheibe“ führt er schlechtes Fernsehen vor und zeigt mit sehr deutlichen Mitteln, was er davon hält. Dieselben Mittel in Form eines ausgesuchten Wortschatzes verwendet er auch in seiner Kolumne „Kalkofes letzte Worte“, welche in der Fernsehzeitschrift „TV Spielfilm“ erscheint. Besonders in diesen Kolumnen wird deutlich, daß hinter seinen typischen Formulierungen eine Fülle an durchdachten Gedanken steckt.

In einer der jüngsten Kolumnen setzt er sich mit der Tendenz im Fernsehen auseinander, auf Innovation zu verzichten und stattdessen altbewährte Formate zu produzieren, weil sie nachgewiesenermaßen bisher Erfolg hatten (eine Kritik, die auch Gore Verbinski im Zusammenhang mit Videospielen geäußert hat). Dabei merkt Kalkofe an, daß die Verantwortlichen sich auf Statistiken stützen, welche darlegen, welche Faktoren – im untersuchten Zeitraum – zum Erfolg geführt haben. Er gibt zu bedenken, daß ein neues Format besser beim Publikum ankommen kann als ein übernommenes:

„Der maximale Effekt beim Gewinnen der Publikums-Sympathie ist nun mal nicht die Wiederholung, sondern die Überraschung! Der Zuschauer lässt sich in erster Linie begeistern von dem was NEU ist und von dem er vorher noch gar nicht wusste, dass es das überhaupt geben würde.“

Dieser Ansatz spiegelt sich bekanntlich auch im Kano-Modell wieder, wo eine Gruppe von Eigenschaften eines Produktes oder Dienstleistung, die „Erfreuer“ (engl. delighter), beim Kunden überproportional ankommen. Diese Erfreuer werden von Kunden nicht erwartet. Im Zusammenhang mit dem Umgang mit den Zuschaueranalysen kommt Kalkhofe zu einer der ultimativen Weisheiten über die Statistik:

„Die tollste Statistik kann … nur helfen, wenn man nicht zu blöd ist, sie auch richtig zu lesen.“

Besser hätte man das nicht ausdrücken können. Man kann wohl davon ausgehen, daß Oliver Kalkofe kein Experte in statistischen Methoden ist. Trotzdem ist er durch bloße Betrachtung der Programmgestaltung zu dieser Erkenntnis gekommen. Nebenbei bemerkt, kann besagte Unkenntnis nicht als Argument dafür genommen werden, daß Kalkofes Erkenntnis falsch ist.

In der Kolumne äußert Kalkofe noch eine weitere Kritik, welche noch über die entsprechende Kritik von Verbinski hinausgeht. Seiner Meinung nach haben vom Ausland übernommene deutsche Fernsehformate das Problem, daß sie Kopien der Originale darstellen, jedoch „ohne das, was das jeweilige Original eben überraschend oder überragend machte“. Ein anschauliches Beispiel aus der jüngsten Zeit ist die Fernsehserie „Das iTeam – die Jungs an der Maus“, welche eine Kopie der britischen Serie „The IT Crowd“ ist. Die deutsche Serie wurde nach zwei Folgen aus dem Programm genommen, aber glücklicherweise gibt es im Internet Vergleiche zwischen einzelnen Szenen wie in dieser Video-Kritik (so daß es einem glücklicherweise erspart bleibt, sich die Serie selber anzusehen). Man muß sich unweigerlich fragen, ob die Fernsehmacher bei ihren Werken sich überhaupt vergewissern, ob ihre Sendungen die beabsichtigte Wirkung beim Zuschauer überhaupt haben.

Lesern der Literatur von und über W. Edwards Deming ist dieses Phänomen wohlbekannt. Dort ist das klassische Beispiel vom Möbelhersteller zu finden, welches Klaviere herstellen wollte und zu diesem Zweck ein Klavier kaufte und auseinandernahm. Die so hergestellten Klaviere waren perfekte Kopien mit der Ausnahme, daß sie nicht spielen konnten (wie auch das Originalklavier, welches zwecks Rückgabe wieder zusammengebaut wurde). Ein weiteres Beispiel handelte von kopierten Kopiergeräten, welche nicht kopieren konnten.

Kalkofes Kolumne zeigt, daß wichtige Erkenntnisse (korrekter Umgang mit Statistik, Bedeutung von Innovation) auch von Leuten gemacht bzw. übernommen werden können, welche nicht aus dem Fachgebiet kommen (in diesem Fall Statistik bzw. Betriebswirtschaft).