Statistika:Cyklističtí bozi a ti druzí

 

Gaussovskému rozdělení nějaké vlastnosti, například letální nebo efektivní dávky, se říká rozdělení přirozené. Když ovšem dojde na cyklistické závody, "přirozené rozdělení" bývá obvykle nepřirozené. A z toho všeho vyplývá, že čím víc trénujeme, tím menší máme pravděpodobnost vyhrát...

Graf rozdělení efektu nějakého léčiva (nebo tréninku) reprezentuje takzvanou Gaussovu křivku - vizpředchozí díl miniseriálu . Zobrazuje stav „přirozeného rozdělení četností“. Co to znamená? Přirozené rozdělení četností vzniká ve chvíli, kdy námi pozorovaný, sčítaný a do grafu vynášený jev je způsoben součtem mnoha náhodných (nebo pseudonáhodnými, t.j. takovými, jejichž příčinu úplně přesně neznáme) vlivů o přibližně stejné významnosti a jejich celkové působení není ničím omezené.

Nejjednodušším modelem je házení několika kostkami. Představte si, že házíte vždy pěti kostkami naráz a do grafů vynášíte, kolikrát vám padl jak vysoký součet. Rozsah možných součtů je od 5 do 30, nejčastěji vám ale budou padat součty dvanáct a třináct (pro ně je na 5 kostkách nejvíc kombinací), kdežto 5 a 30 padne nejméněkrát (je vždy jen jedna kombinace pro každou z nich). Hodíte li dostatečný počet vrhů, graf bude mít podobu charakteristického symetrického „zvonu“, Gaussovy křivky. Je zajímavé, že v reálném světě není přirozené rozdělení ani zdaleka pravidlem. Ilustrovat se to dá i na cyklistice.

Představte si situaci, kdy seberete 1000 mužů z ulice a necháte je zajet časovku do vrchu v Řevnicích a rozložení jejich časů vynesete do grafu. V takové situaci bude zřejmě rozložení přirozené, nebo alespoň přirozenému velmi blízké, faktory jako věk, trénovanost, technika a talent se tu budou navzájem kombinovat náhodně a bez zvláštní selekce. Pokud ovšem v té skupině nebude tisíc mužů, ale pět set mužů a pět set žen, graf se změní a gaussovsky vypadat nebude – bude mít dva vrcholky. V kombinaci faktorů bude jeden, který bude mít daleko vyšší váhu než ostatní a to je pohlaví. Ženská výkonnost v cyklistice, průměrná i maximální, je citelně nižší než mužská a v grafu proto vytvoří jeden vrchol průměrný ženský a druhý průměrný mužský čas. Rozložení je tedy matematicky non-přirozené, což je zcela přirozené, neb je za tím přirození ;-).

 

Taková „statistika pro základní školy“ může napovědět mnohé – například proč je snadné postoupit na KPŽ (dnes Kolo Pro Život, za mých mladých let to byly krajské přebory žactva :-) nebo podobné vysoce masové soutěži ze dvoustého místa na osmdesáté, zatímco u postupu ze 20 místa na bednu je obtížnost blízká nekonečnu.

Vytvoříme si modelovou situaci. Výkon v našem teoretickém závodě ovlivňuje 10 rovnocenných faktorů, kategorií ve kterých můžete disponovat od 1 do 10 výkonnostních bodů (řekněme síla, vytrvalost, váha, výška, rychlost, věk, trénink, materiál, zkušenost). Celkem je tedy možno teoreticky získat dohromady minimálně 10 a maximálně 100 bodů. O pořadí v závodě v našem modelu rozhodne prostý součet bodů ze všech kategorií, bez ohledu na to, v kterých vlastnostech dosáhli závodníci kolika bodů – to abychom dostáli pravidlům přirozeného rozložení. Při rovnosti bodů nechť pak rozhodně veliká a všemocná Štestěna přímo na pásce. A teď necháme počítač vymyslet 100 závodníků a náhodně jim přidělit body do kategorií (bude pro každého „házet“ 10x desetistrannou kostkou) a podle součtu těchto náhodných hodů jim přidělíme pořadí.

Pořadí  výkonnostních bodů
1.  78 
2.-3.  71 
4.-5.  69 
6.  67 
7.-8.  66 
9.-10.  65 
11.-14.  64 
15.-16.  63 
17.-20.  62 
21.  61 
22.-23.  60
24.-27.  59 
28.-32.  58 
33.-35.  57 
36.-39.  56 
40.-41.  55 
42.-44.  54 
45.-50.  53 
51.-54.  52 
55.-60.  51 
61.-67.  50 
68.-75.  49 
76.-77.  48 
78.-80.  47 
81.-83.  46 
84.-87.  45 
88.  44 
89.-92  43 
93.  42 
94.-95.  41 
96.  40 
97.  39 
98.  38 
99.  37 
100.  29 

 

V tabulce vidíte, že v tomto konkrétním kole zvítězil závodník s počtem bodů 78 a na bednu s ním vystoupili další dva borci s rovným součtem 72 (v cíli to tedy bylo i na druhém a třetím místě o štěstí). Průměrný závodník v závodě měl přitom 53 (přesně 53,45) bodu, přičemž typický, „normální“ závodník, s nejčastějším počtem bodů jich měl 49 (tzv. modus). Závodníci „modusoví“ se součtem 49 bojovali o 67 místo ze 100 (bylo jich 8), závodníci „průměrní“ s 53 body o 44 místo.

Rozložení bodů "v závodě"

No a teď probereme šance na polepšení si. Představte si, že se na příští kolo závodu dostaví stejná squadra závodníků a jen jeden jediný si ve své sbírce bodů polepší o jediný bod, jak na tom asi bude? Pokud to bude závodník „normální“ má šanci bojovat ne o 67, ale o 60 místo, závodník „průměrný“ bude najednou bojovat o 41 místo proti původnímu 44. A co na bedně? Smůla. Pokud se zlepší o jediný bod jeden z těch, kteří nezvítězili, jediný rozdíl bude, že o druhé místo nebude bojovat ve spurtu. Na to, aby porazil toho prvního by se potřeboval zlepšit o celých 7 bodů!

 

A aby toho nebylo málo. Situace podobná našemu modelu je sice statisticky „přirozená“, nebo blízká přirozené (jak vidno, 100 lidí je pořád málo i tady graf deformuje „chyba malých čísel), v reálném životě nastává jen u těch nejmasovějších závodů, kam přijede opravdu každý. V případě vrcholového sportu, pohárových závodů, ale i amatérských lig se o přirozeném rozložení mluvit rozhodně nedá. Rozložení talentů tu není náhodné, je cíleně a cílevědomě ovlivňované. Trénovanost není plynule rozložená od nuly po maximum, všichni trénují, seč jim čas a síly stačí (a většinou ještě víc). Dokonce i přirozené dispozice nejsou nahodile a rovnoměrně rozložené – zatím co ti talentovanější dosahují pokroku a dobrých výsledků rychleji, ti méně talentovaní po čase ztrácejí motivaci a odcházejí. V každé takové skupině časem roste koncentrace jedinců, u nichž je kombinace všech původně náhodných faktorů (talent, zázemí, trénovanost, píle atd.) výhodnější než je v populaci běžné. Časem tu ti „normální“ a „průměrní“ nejsou ve středu výsledkové listiny, ale spíš na jejím konci, průměrem jsou ti se 75 body ze sta a vítězové mají jen o pár bodíků méně než cyklistický pámbůh.

Rozložení časů na časovce do vrchu v Řevnicích

 

Pokud uděláme graf z konkrétního závodu (na obrázku jsou výsledky časovky v Řevnicích z roku 2007), zjistili zjistíme že rozložení zase neodpovídá gaussovsky přirozenému, je asymetrické a většina časů je lepších než čas průměrný. I tady bude hrát roli nějaký dominantní faktor nebo faktory, silnější než většina ostatních. Graf tady nezachycuje stav běžné populace, ale specificky vytříděnou skupinu. V této skupině časem roste koncentrace jedinců, u nichž je kombinace všech původně náhodných faktorů (talent, zázemí, trénovanost, píle atd.) výhodnější než je v populaci běžné. Připomíná to přirozený darwinovský vývoj, statisticky je to ovšem opět „non-přirozené“ rozdělení.

Poučení, které mi z toho vyplývá je poněud rozporuplné. Totiž čím více a lépe budeme (my všichni cyklisté dohromady) trénovat, mít lepší kola a tak dále, tím menší je pravděpodobnost že budeme (my jako každý z nás sám za sebe) vítězit. Máme dvě možnosti - buď se o to přesto pokusit (tomu se říká "Americký sen" - 1. Warren Buffett a 40 milionů, co si opravuje zuby zvejkačkou :-) a nebo mít prostě radost ze samotné "cesty" (čínsky "tao" nebo japonsky "do").