Special Teams - Warum die Erfolgsquote nicht ausreicht

A hitter should be measured by his success in that which he is trying to do, and that which he is trying to do is create runs.
It is startling, when you think about it, how much confusion there is about this. I find it remarkable that, in listing offenses, the league will list first - meaning best - not the team which scored the most runs, but the team with the highest batting average.
It should be obvious that the purpose of an offense is not to compile a high batting average.
- Bill James, 1979 Baseball Abstract

Diese Idee ist natürlich vernünftig und im Eishockey wird das eigentlich auch richtig gemacht.  Wer nach der besten Offensive fragt, wird momentan als Antwort wohl "Nürnberg" (ein Spiel weniger als München!) bekommen. Aber wie genau funktioniert das bei den Special Teams?

Wenn ich frage, welches Team der Liga hat das beste Powerplay hat, dann ist die häufigste Antwort sicherlich: München, schliesslich konvertieren sie 22% ihrer Powerplays. Das primäre Ziel eines Teams sollte es ja aber eigentlich nicht sein, eine möglichst hohe Powerplayquote zu haben, sondern möglichst viele Tore zu schiessen. Also ist Düsseldorf die richtige Antwort? Nein, denn die DEG hatte ja mehr Chancen, also hat sie ein schlechteres Powerplay, hat aber insgesamt gesehen mehr von ihrem Powerplay profitiert.

Der wirkliche Einfluss der Qualität eines Powerplays (oder Unterzahlspiels) ist also nur ein Teil eines grösseren Bilds. Wenn man darüber nachdenkt, sollte jedem klar sein, dass die Anzahl der Powerplays einen grossen Einfluss auf den Ausgang eines Spiels oder einer Saison haben (wie gross betrachten wir gleich).

Meine Vermutung ist, dass im Eishockey diesbezüglich kein Unterschied zwischen kurzfristiger und langfristiger vorhersagender Relevanz gemacht wird. 

Soll heissen: Wenn ich ein Eishockeyspiel schaue und meine Mannschaft kassiert eine Strafe, dann ist es für mich wichtig, zu wissen, wie hoch die Wahrscheinlichkeit ist, dass der Gegner jetzt ein Tor schiesst. Deswegen blendet der Sender dann ein, in wie viel Prozent seiner Powerplays der Gegner ein Tor schiesst und meine Lieblingsmannschaft in Unterzahl keines zulässt. Das ist im Kontext der Übertragung auch die vernünftige zuschauerfreundliche Information.

Wenn es allerdings darum geht, den Einfluss von Special Teams auf die Saison zu beurteilen, reicht die einfache Information der Erfolgsquote nicht aus. Mit diesem Hintergrund stürzen wir uns mal in die Zahlen:

Gelegenheiten und Erfolgsquote

Als erstes betrachten wir, wie so häufig, die Verlässlichkeit der einzelnen Statistiken. Hier vergleichen wir die Powerplay- bzw. Unterzahlquote und die Anzahl der Powerplays bzw. Unterzahlspiel, die ein Team bekommt.

Um die Verlässlichkeit der einzelnen Grössen zu messen, suchen wir die Beziehung zwischen dem Vorjahreswert (Jahr 1) und dem im darauffolgenden Jahr (Jahr 2).

Wenn die Regressionsgerade (unsere beste Vermutung für eine lineare Formel, die aus den Vorjahreswerten den Wert des nächsten Jahres "vorhersagt") sehr gut zu den Werten passt, ist die Grösse verlässlich (wie z.B. Spiele, Punkte, Tore, Gegentore, Schussverhältnis). Wir können also aus dem Vorjahreswert eine gute Vermutung über den Wert des nächsten Jahres formulieren.

Wenn die Abweichungen zwischen Punkten und Gerade gross sind, ist der Wert entsprechend nicht sehr verlässlich (z.B. Schussquote).

Man sieht, dass die Werte nicht sehr nahe beieinanderliegen, sondern recht willkürlich verteilt sind, sodass unsere Gerade die Lage der Punkte eben nur sehr schlecht beschreiben kann. Die Powerplayquote schwankt also recht stark von Jahr zu Jahr.

Bei den Powerplays (Powerplaysituationen) sieht das ganze schon deutlich ordentlicher aus. Die Anzahl an Powerplays, die sich ein DEL-Team pro Spiel erarbeitet, scheint sehr wohl ein reproduzierbares Talent zu sein.

Das Gleiche einmal fürs Unterzahlspiel:

Die Unterzahlquote ist etwas stabiler als die Powerplayquote, doch auch hier muss man den Wert stark zur Mitte zurückschrumpfen um eine vernünftige Vermutung für den Wert des nächsten Jahres zu bekommen.

Wie erwartet, ist die Anzahl der ein Powerplay verursachenden Strafen - nicht jede Strafe resultiert in einem PP für den Gegner - sehr wohl kontrollierbar. Was sich auch mit der Erfahrung decken sollte. Es gibt eben Mannschaften, die häufiger auf der Bank sitzen.

Sowohl die Powerplayquote als auch die Unterzahlquote schwanken von Jahr zu Jahr sehr stark, während die herausgeholten Über- bzw. Unterzahlspiele eher konstant bleiben.

Dazu stellen sich nun 2 Fragen:

  1. Was hat grössere Auswirkungen: Wie man im PP/PK spielt oder wie gross der Anteil der Chancen ist, die man sich herausspielt?
  2. Warum schwanken denn die Erfolgsquoten so sehr?

Die erste Frage lässt sich recht leicht beantworten.

Letztes Jahr bekam das durchschnittliche DEL-Team ca. 243,1 Powerplays. Die Standardabweichung (Ein Mass für die Streuung einer Grösse um den Mittelwert. Grosse Standardabweichung - weite Streuung) betrug 20.9 Powerplays.

Das heisst, dass 68.3% aller DEL-Teams zwischen 222,25 und 263,95 Powerplays bekommen haben (ca. Teams). Wir würden also jedes Jahr 2 Teams erwarten, deren Wert grösser als eine Standardabweichung vom Mittelwert entfernt liegt und zwei Teams, deren Wert eine Standardabweichung unter dem Mittelwert liegt. Ein Wert von einer Standardabweichung über dem Mittelwert ist also ziemlich gut.

Die durchschnittliche Powerplayquote betrug 16,6%. Die Standardabweichung 2,4%.

Entsprechend fürs Penaltykilling:

Durchschnittlich 243,1 Mal in Unterzahl. Standardabweichung: 14,5

Durchschnittlich 83,4% Erfolgsquote. Standardabweichung: 1,8%

Vergleichen wir drei Fälle:

Einmal haben wir ein durchschnittliches Powerplay/Penaltykilling und sind durchschnittlich häufig in Überzahl/Unterzahl.

Im zweiten Fall erarbeitet sich unsere Beispielmannschaft sehr viele Powerplays, verwertet dann aber nur wie ein durchschnittliches DEL-Team.

Und schliesslich der Fall für eine sehr gute Powerplaytruppe, die allerdings nur durchschnittlich häufig das Eis betritt.

FallIn ÜberzahlPP%PPT
Durchschn. viele PPs, durchschn. PP%243.116.6%40.35
Viele PPs, durchschn. PP%264.016.6%43.82
Durchschn. viele PPs, gute PP%243.119.0%46.19
FallIn UnterzahlPK%PKGT
Durchschn. viele PKs, durchschn. PK%243.183.4%40.35
Viele PKs, durchschn. PK%228.583.4%37.93
Durchschn. viele PKs, gute PK%243.185.2%35.97

Ein gutes Powerplay/Penaltykilling hat also einen grösseren Einfluss auf unser Special Teams Torkonto als eine entsprechend gleich grosse Fähigkeit, Strafen zu provozieren/zu vemeiden.

Mehr Powerplays/weniger Unterzahl bringen natürlich nicht nur Mehrwert im Sinne von mehr Powerplaytoren/weniger Gegentoren in Unterzahl sondern auch Powerplays, die nicht mit einem Tor gekrönt werden, haben einen positiven Einfluss. Da man im Powerplay so viel weniger Gegentore bekommt, erhöhen sich die Chancen auf Punkte. Auch werden im gegnerischen Unterzahlteam häufig nicht die besten Spieler spielen und jede Minute, in der der gegnerische Trainer seine besten Offensivkräfte auf der Bank lassen muss, ist ein kleiner Gewinn für uns.

Nun zur zweiten Frage:

Genauere Analyse der Special Teams-Leistungen

Um die Gründe für die schwankenden Erfolgsquoten zu finden, begeben wir uns aus Datenmangel (die DEL veröffentlicht nur allgemeine Schussstatistiken) nach Schweden. Die SHL veröffentlicht nämlich Schussdaten für Powerplay und Unterzahlspiele aller Teams.

Hier untersucht werden:

PP SF/60 (Schüsse pro 60 Min PP-Eiszeit)
PPG/60 (Tore pro 60 Min PP-Eiszeit)
PK SA/60 (gegnerische Schüsse pro 60 Min PK-Eiszeit)
PKGA/60 (Gegentore pro 60 Min PP-Eiszeit)
PP S% (PP-Schussquote)
PK SV% (PK-Fangquote)

Um den Post nicht noch weiter zu verlängern, lasse ich hier jetzt mal die Diagramme weg (wer die Diagramme sehen möchte: Kein Thema, einfach ne Mail schreiben!).

Die wichtigsten Kenngrössen hier bleiben weiterhin der Korrelationskoeffizient R, der uns angibt, wie gross der lineare Zusammenhang der beiden Datenreihen ist und das Bestimmtheitsmass R^2, das uns aussagt, wieviel Prozent der Abweichungen des einen Wertes wir durch Abweichungen des anderen Wertes erklären können.


Erklärung Korrelationskoeffizient/Bestimmtheitsmass:

Ein hohes R/R^2 deutet auf eine starke Korrelation hin, also wenn X steigt, steigt auch Y, ein R/R^2 nahe 0 bedeutet, X verhält sich sehr unabhängig von Y.

z.B.: Wenn man eine hohe Anzahl Schüsse im Powerplay im Vorjahr hatte, ist es nicht unwahrscheinlich, dass man auch in der darauffolgenden Saison wieder viele Schüsse im PP aufs Tor bringt (hohes R/R^2). Wie viele Schüsse man hingegen in Unterzahl zulässt, hat fast gar nichts damit zu tun, wie viele Gegentore man im nächsten Jahr in Unterzahl kassiert (Sehr niedriges R/R^2).


Die negative Korrelation zwischen Fangquote und Gegentoren liegt darin begründet, dass eine höhere Fangquote eben zu weniger Gegentoren führt.

Die Unterschiede, die in der PP-Schussquote bestehen, sind also definitiv grösser als bei gleicher Spielstärke. Das ist natürlich durchaus sinnvoll, da Spielwitz im Powerplay deutlich leichter auszuspielen ist und direkter belohnt wird und dort meistens auch nur die absolut besten Spieler der jeweiligen Mannschaften spielen.

Was aber nicht davon ablenken sollte, dass auch hier wieder die Schusshäufigkeit deutlich stabiler ist und deswegen einen ebenso wichtigen Einfluss als Vorhersager hat.

Quasi: Bei gleicher Spielstärke dominiert auf Dauer das Schussverhältnis über der Schussqualität. Im Powerplay müssen beide berücksichtigt werden.

Was das Unterzahlspiel angeht, stossen wir hier auf die gleichen Probleme, auf die auch Patrick D. in seiner Untersuchung der Special Teams schon gestossen ist:

Es ist schwerer, in Unterzahl vernünftige Grössen zur Vorhersage künftiger Leistungen zu finden. Am ehesten geeignet ist hier noch die Fangquote.

Allgemein ist ersichtlich, dass Leistungen im Powerplay, bzw. in Unterzahl schwer vorauszusagen sind. Das würde ich vor allem auf die geringe Stichprobengrösse zurückführen. Bei lediglich 2-5 Powerplays pro Team pro Spiel, ist es eben schwer nach 50+ Spielen gute Aussagen machen zu können.

Was allerdings bemerkenswert ist (hier wäre ich mal auf eure Ideen für Begründungen gespannt):

In Unterzahl scheint die Fangquote ein Talent zu sein, also Torhüter/Schussqualität sind der entscheidende Faktor. Im Powerplay sind Schussanzahl und -qualität nahezu gleichwertig. So wirklich stichhaltige Argumente fallen mir dazu bisher nicht ein....

Morgen betrachten wir dann, wie sich die Fähigkeit, Überzahl zu provozieren/Unterzahl zu vermeiden optimal quantifizieren lässt.