Statistika:Cyklističtí bozi a ti druzí

Gaussovskému rozdělení nějaké vlastnosti, například letální nebo efektivní dávky, se říká rozdělení přirozené. Když ovšem dojde na cyklistické závody, „přirozené rozdělení“ bývá obvykle nepřirozené. A z toho všeho vyplývá, že čím víc trénujeme, tím menší máme pravděpodobnost vyhrát…

Graf rozdělení efektu nějakého léčiva (nebo tréninku) reprezentuje takzvanou Gaussovu křivku – vizpředchozí díl miniseriálu . Zobrazuje stav „přirozeného rozdělení četností“. Co to znamená? Přirozené rozdělení četností vzniká ve chvíli, kdy námi pozorovaný, sčítaný a do grafu vynášený jev je způsoben součtem mnoha náhodných (nebo pseudonáhodnými, t.j. takovými, jejichž příčinu úplně přesně neznáme) vlivů o přibližně stejné významnosti a jejich celkové působení není ničím omezené.

Nejjednodušším modelem je házení několika kostkami. Představte si, že házíte vždy pěti kostkami naráz a do grafů vynášíte, kolikrát vám padl jak vysoký součet. Rozsah možných součtů je od 5 do 30, nejčastěji vám ale budou padat součty dvanáct a třináct (pro ně je na 5 kostkách nejvíc kombinací), kdežto 5 a 30 padne nejméněkrát (je vždy jen jedna kombinace pro každou z nich). Hodíte li dostatečný počet vrhů, graf bude mít podobu charakteristického symetrického „zvonu“, Gaussovy křivky. Je zajímavé, že v reálném světě není přirozené rozdělení ani zdaleka pravidlem. Ilustrovat se to dá i na cyklistice.

Představte si situaci, kdy seberete 1000 mužů z ulice a necháte je zajet časovku do vrchu v Řevnicích a rozložení jejich časů vynesete do grafu. V takové situaci bude zřejmě rozložení přirozené, nebo alespoň přirozenému velmi blízké, faktory jako věk, trénovanost, technika a talent se tu budou navzájem kombinovat náhodně a bez zvláštní selekce. Pokud ovšem v té skupině nebude tisíc mužů, ale pět set mužů a pět set žen, graf se změní a gaussovsky vypadat nebude – bude mít dva vrcholky. V kombinaci faktorů bude jeden, který bude mít daleko vyšší váhu než ostatní a to je pohlaví. Ženská výkonnost v cyklistice, průměrná i maximální, je citelně nižší než mužská a v grafu proto vytvoří jeden vrchol průměrný ženský a druhý průměrný mužský čas. Rozložení je tedy matematicky non-přirozené, což je zcela přirozené, neb je za tím přirození ;-).

Taková „statistika pro základní školy“ může napovědět mnohé – například proč je snadné postoupit na KPŽ (dnes Kolo Pro Život, za mých mladých let to byly krajské přebory žactva 🙂 nebo podobné vysoce masové soutěži ze dvoustého místa na osmdesáté, zatímco u postupu ze 20 místa na bednu je obtížnost blízká nekonečnu.

Vytvoříme si modelovou situaci. Výkon v našem teoretickém závodě ovlivňuje 10 rovnocenných faktorů, kategorií ve kterých můžete disponovat od 1 do 10 výkonnostních bodů (řekněme síla, vytrvalost, váha, výška, rychlost, věk, trénink, materiál, zkušenost). Celkem je tedy možno teoreticky získat dohromady minimálně 10 a maximálně 100 bodů. O pořadí v závodě v našem modelu rozhodne prostý součet bodů ze všech kategorií, bez ohledu na to, v kterých vlastnostech dosáhli závodníci kolika bodů – to abychom dostáli pravidlům přirozeného rozložení. Při rovnosti bodů nechť pak rozhodně veliká a všemocná Štestěna přímo na pásce. A teď necháme počítač vymyslet 100 závodníků a náhodně jim přidělit body do kategorií (bude pro každého „házet“ 10x desetistrannou kostkou) a podle součtu těchto náhodných hodů jim přidělíme pořadí.

Pořadí výkonnostních bodů
1. 78 
2.-3. 71 
4.-5. 69 
6. 67 
7.-8. 66 
9.-10. 65 
11.-14. 64 
15.-16. 63 
17.-20. 62 
21. 61 
22.-23. 60
24.-27. 59 
28.-32. 58 
33.-35. 57 
36.-39. 56 
40.-41. 55 
42.-44. 54 
45.-50. 53 
51.-54. 52 
55.-60. 51 
61.-67. 50 
68.-75. 49 
76.-77. 48 
78.-80. 47 
81.-83. 46 
84.-87. 45 
88. 44 
89.-92 43 
93. 42 
94.-95. 41 
96. 40 
97. 39 
98. 38 
99. 37 
100. 29 

V tabulce vidíte, že v tomto konkrétním kole zvítězil závodník s počtem bodů 78 a na bednu s ním vystoupili další dva borci s rovným součtem 72 (v cíli to tedy bylo i na druhém a třetím místě o štěstí). Průměrný závodník v závodě měl přitom 53 (přesně 53,45) bodu, přičemž typický, „normální“ závodník, s nejčastějším počtem bodů jich měl 49 (tzv. modus). Závodníci „modusoví“ se součtem 49 bojovali o 67 místo ze 100 (bylo jich 8), závodníci „průměrní“ s 53 body o 44 místo.

No a teď probereme šance na polepšení si. Představte si, že se na příští kolo závodu dostaví stejná squadra závodníků a jen jeden jediný si ve své sbírce bodů polepší o jediný bod, jak na tom asi bude? Pokud to bude závodník „normální“ má šanci bojovat ne o 67, ale o 60 místo, závodník „průměrný“ bude najednou bojovat o 41 místo proti původnímu 44. A co na bedně? Smůla. Pokud se zlepší o jediný bod jeden z těch, kteří nezvítězili, jediný rozdíl bude, že o druhé místo nebude bojovat ve spurtu. Na to, aby porazil toho prvního by se potřeboval zlepšit o celých 7 bodů!

A aby toho nebylo málo. Situace podobná našemu modelu je sice statisticky „přirozená“, nebo blízká přirozené (jak vidno, 100 lidí je pořád málo i tady graf deformuje „chyba malých čísel), v reálném životě nastává jen u těch nejmasovějších závodů, kam přijede opravdu každý. V případě vrcholového sportu, pohárových závodů, ale i amatérských lig se o přirozeném rozložení mluvit rozhodně nedá. Rozložení talentů tu není náhodné, je cíleně a cílevědomě ovlivňované. Trénovanost není plynule rozložená od nuly po maximum, všichni trénují, seč jim čas a síly stačí (a většinou ještě víc). Dokonce i přirozené dispozice nejsou nahodile a rovnoměrně rozložené – zatím co ti talentovanější dosahují pokroku a dobrých výsledků rychleji, ti méně talentovaní po čase ztrácejí motivaci a odcházejí. V každé takové skupině časem roste koncentrace jedinců, u nichž je kombinace všech původně náhodných faktorů (talent, zázemí, trénovanost, píle atd.) výhodnější než je v populaci běžné. Časem tu ti „normální“ a „průměrní“ nejsou ve středu výsledkové listiny, ale spíš na jejím konci, průměrem jsou ti se 75 body ze sta a vítězové mají jen o pár bodíků méně než cyklistický pámbůh.

Pokud uděláme graf z konkrétního závodu (na obrázku jsou výsledky časovky v Řevnicích z roku 2007), zjistili zjistíme že rozložení zase neodpovídá gaussovsky přirozenému, je asymetrické a většina časů je lepších než čas průměrný. I tady bude hrát roli nějaký dominantní faktor nebo faktory, silnější než většina ostatních. Graf tady nezachycuje stav běžné populace, ale specificky vytříděnou skupinu. V této skupině časem roste koncentrace jedinců, u nichž je kombinace všech původně náhodných faktorů (talent, zázemí, trénovanost, píle atd.) výhodnější než je v populaci běžné. Připomíná to přirozený darwinovský vývoj, statisticky je to ovšem opět „non-přirozené“ rozdělení.

Poučení, které mi z toho vyplývá je poněud rozporuplné. Totiž čím více a lépe budeme (my všichni cyklisté dohromady) trénovat, mít lepší kola a tak dále, tím menší je pravděpodobnost že budeme (my jako každý z nás sám za sebe) vítězit. Máme dvě možnosti – buď se o to přesto pokusit (tomu se říká „Americký sen“ – 1. Warren Buffett a 40 milionů, co si opravuje zuby zvejkačkou 🙂 a nebo mít prostě radost ze samotné „cesty“ (čínsky „tao“ nebo japonsky „do“).