Ein Vorhersageversuch

15 (oder 14 oder 16 oder 17, je nachdem wen man fragt) Spieltage sind in der aktuellen DEL-Saison nun gespielt. Und die DEL-Tabelle (mit ein paar zusätzlichen Statistiken) sieht wie folgt aus:

 GP: Spiele, GF: Tore, GA: Gegentore, GD: Tordifferenz, PDO: Summe aus Schuss- und Fangquote, SF%: Schussanteil

GP: Spiele, GF: Tore, GA: Gegentore, GD: Tordifferenz, PDO: Summe aus Schuss- und Fangquote, SF%: Schussanteil

Nun sollten aufmerksame Leser dieses Blogs wissen, dass PDO ein grobes Mass für das Scheibenglück eines Teams ist. Soll heissen: Die Schussquote und Fangquote einer Mannschaft schwankt über den Verlauf einer Saison sehr stark, man sollte also wenn eine Mannschaft nach 15 Spielen 10% ihrer Schüsse verwandelt, nicht unbedingt davon ausgehen, dass das auch in Zukunft so sein wird.Das Scheibenglück* ist einer der Faktoren, die aus dem Eishockey einen sehr, sehr schlecht vorhersagbaren Sport machen. Wenn man jetzt aber versuchen wollte, die Tabelle am Ende des Jahres vorherzusagen, muss man es berücksichtigen. Und um genau so eine Vorhersage soll es heute einmal gehen.

Vorüberlegungen

Dazu vorher noch einmal eine kurze Veranschaulichung der Logik:

  • Wir wollen Vorhersagen, wie viele Punkte eine Mannschaft holt.
  • Dabei bemerken wir, dass das Torverhältnis zu einem bestimmten Zeitpunkt ein besserer Vorhersager für zukünftige Punktzahlen ist, als die aktuelle Punktzahl.
    • Das liegt daran, dass manche Mannschaften einige enge Spiele am Stück gewinnen. Es ist aber bekannt, dass das nicht anhält. (siehe hier)
  • Nun bemerken wir aber ausserdem, dass das Schussverhältnis zu einem bestimmten Zeitpunkt ein besserer Vorhersager für das zukünftige Torverhältnis ist, als das aktuelle Torverhältnis.
    • Das liegt daran, dass manche Mannschaften einige Spiele am Stück einen besonders hohen Anteil ihrer Schüsse in Tore verwandeln bzw. die Torhüter einen besonders hohen Anteil der gegnerischen Schüsse abwehren. Es ist aber bekannt, dass das nicht anhält.

Um das ganze etwas genauer zu beweisen, habe ich mir die letzten zwei Saisons herausgesucht und die Vorhersagekraft der Statistiken überprüft:

Wer meinen Blog schon lange mitliest (oder mir einfach so glaubt), weiss, dass man zukünftige Torverhältnisse und Punktzahlen am besten mit dem Schussverhältnis vorhersagt. Das beweise ich hier ein wenig genauer. Wer an den statistischen Details weniger interessiert ist, kann diesen Teil gerne überspringen.

Hier aufgetragen ist das Bestimmtheitsmass der jeweiligen Statistiken. Was hier überprüft wird ist, wie gut sich mit (z.B.) dem Schussverhältnis nach 15 Spielen das Schussverhältnis in den verbleibenden 37 Spielen vorhersagen lässt. Je höher das Bestimmtheitsmass, desto besser geht das.
Man sieht ganz deutlich, dass das Schussverhältnis ein sehr sehr stabiler Wert ist und schon nach 15 Spielen eine gute Aussagekraft bietet, deutlich besser als die anderen Werte.

Nun überprüfen wir auf die gleiche Art und Weise, wie sich mit Hilfe der Statistiken das Torverhältnis in der restlichen Saison vorhersagen lässt:

Es ist erkenntlich, dass das Schussverhältnis ein recht guter Vorhersager für das zukünftige Torverhältnis ist. Besser als das aktuelle Torverhältnis und deutlich besser als der PDO-Wert. Am deutlichsten macht sich das zu Saisonbeginn nach 15 Spielen bemerkbar.

Also haben wir nun unseren Ausgangspunkt, um das Torverhältnis für den Rest der Saison vorherzusagen. Wir werden versuchen, anhand des Schussverhältnisses nach 15 Spieltagen, das Torverhältnis der restlichen Saison vorherzusagen. Dieses Torverhältnis rechnen wir dann wiederum in Punkte um und addieren diese dann zur aktuellen Punktzahl um unseren geschätzten Endwert zu bekommen.

Von Schüssen zu Toren

Wir gehen also von den Schüssen aus, um die Tore vorherzusagen. Eine Möglichkeit wäre, die Schussqualität der einzelnen Teams völlig zu ignorieren und einfach nur mit den durchschnittlichen Fang- und Schussquoten zu rechnen. Um unsere Vorhersage aber etwas zu verbessern, bauen wir die Schussquote und die Fangquote noch in unsere Vorhersage mit ein. Aber eben nicht die aktuellen Werte, sondern regredierte Werte. Sprich, wir ziehen die Werte einfach ein Stück weit zum Mittelwert zurück.

Denn wir wissen zum Beispiel, dass unsere beste Vermutung für die Schussquote eines Teams in den Spielen 16-52 ist, die Schussquote aus den Spielen 1 - 15 um 90%  zum Mittelwert zurückzuziehen. Also, wenn Ingolstadt nach 15 Spielen 11.3% schiesst und der Mittelwert 9.3% ist, ist unsere beste Vermutung für den Wert in den Spielen 16 - 52, den aktuellen Wert um 90% zum Mittelwert zu schrumpfen, also auf 10% des vorherigen Abstands vom Mittelwert:
Erw. S% = 10% * (S% - Durchschn. S%) + Durchschn. S% = 10% * (11.3% - 9.3%) + 9.3% = 9.5%.

Das gleiche wird nun für jedes Team gemacht. Mit unseren geschätzten Schussquoten und den Schüssen pro Spiel können wir nun die erwarteten Tore und Gegentore für den Rest der Saison berechnen:

erw. Tore = Schüsse * erw. Schussquote
erw. Gegentore = Schüsse gegen * (1 - erw. Fanquote)

Das ganze habe ich für drei Varianten gerechnet.

  • konservativ: Die Regression, wie man sie aus den Daten erwarten würde
  • aggressiv: Merklich weniger Regression, die Quoten bleiben also näher am aktuellen Wert (80% Schussquote, 60% Fangquote)
  • m. 13/14: Hier wurden die Schussverhältnisse der letzten Saison noch miteinberechnet (zu 30%) und mit der konservativen Regression gerechnet. Am meisten bemerkbar am Beispiel Köln, die diese Saison ein Schussverhältnis von 47.6% haben, letzte Saison noch 56.1%. Die Kölner schneiden daher in dieser Variante deutlich besser ab.

Von Toren zu Punkten

Um diese Torverhältnisse nun in Punkte umzurechnen, nehmen wir die allseits beliebte James'sche Pythagoräische Erwartung:

Download.png

Multipliziert man die Punktquote mit der Anzahl der verfügbaren Punkte, erhält man die Anzahl der erzielten Punkte. Also berechnen wir aus unseren Torverhältnissen für die Spiele 16 (bzw. 17/18) - 52 die erwarteten Punkte in diesen Spielen und damit die erwartete Endpunktzahl:

Man sieht, das Modell mag PDO-Katastrophen (Straubing und Köln) und Teams mit gutem Schussverhältnis und hat was gegen Teams mit hohem PDO-Wert und schlechtem Schussverhältnis (Krefeld - 42.5% Schussverhältnis, yikes... - und Hamburg). 

Natürlich können noch einige Faktoren das Ergebnis ruinieren. Sowohl Pech und Glück - Verletzungen, eine unglückliche Torverteilung (hoch gewinnen, oft knapp verlieren), Scheibenglück (PDO) - als auch echte Leistungsänderungen beeinflussen wie genau die Vorhersage am Ende wirklich ist.
Um einen kleinen Einblick zu bekommen, wie genau das Modell ist, habe ich die gleiche Rechnung mal für die letzte Saison gemacht. Dabei kam nach 15 Spieltagen folgendes heraus:

Das schwankt von "PERFEKT!!!1111" im Falle von Iserlohn bis "nicht mal in der Nähe" bei Berlin, Hamburg oder Köln. Im Durchschnitt liegt das Modell um 8.8 Punkte daneben. Das wird sich im Laufe der Saison verbessern, ist aber immer noch weit genug weg, dass ich die Vermerkung "Spoiler Alert" getrost aus dem Titel des Artikels weglassen kann.

 

*Nebenbei: Ich habe kein Problem damit, wenn jemand eine hohe Schussquote nicht als "Glück", sondern als "herausragende Form" bezeichnet. Solange wir uns einig sind, dass man auf keinen Fall davon ausgehen darf, dass das so bleibt.