Ako prieskumy ovplyvňuje malá vzorka?

Tento článok je pre mňa prvý svojho druhu. Vznikol pro-bono spoluprácou s prieskumnou agentúrou Median SK. Cieľom tejto spolupráce je prinášať zaujímavé informácie skryté v bežných dátach agentúry. Tie často sedia na diskoch serverov, bez toho aby boli publikované pre verejnosť. Ako povolaním analytik, najmä pre mediálne domy v zahraničí, považujem toto za veľkú stratu pre spoločnosť. Informácie by sa mali šíriť voľne, pomáhať nám lepšie rozumieť svetu okolo. Články nie sú reklamou, hoci verím, že vás zaujmú.

Určite ste tento typ prieskumov videli aj vy: dôvera v politikov a inštitúcie podľa politických strán, ale aj tzv. druhá voľba voličov, či podiel tzv. váhavých voličov u jednotlivých strán. Naposledy ma zaujala preferencia kandidáta Ivana Korčoka podľa politických strán. Celé zle. V médiách sú publikované v pravidelných intervaloch, a v rovnakých aj vyvolávajú série vášní na sociálnych sieťach a u aj u politických komentátorov.

A čitatelia na sociálnych sieťach z nich potom občas predikujú morálny a mentálny úpadok spoločnosti, netušiac že robia z komára somára. Áno, prieskumy ponúkajú odpovede na dôležité spoločenské a politické otázky. Interpretácia je však dôležitá, a pri nej si musíme dávať pozor na veľkosť vzorky. V nasledujúcom článku predstavím, čo sa to môže v prieskumoch s malou vzorkou diať, aké presné sú tieto odhady, a kde sa najčastejšie dejú chyby v interpretácii.

Velkost Odchylky Prieskumu Podla Velkosti Vzorky | Opolitike

Na začiatok, spoločné majú tieto prieskumy najmä to, že chcú rozumieť zmýšľaniu voličov jednotlivých strán. Na tom nie je nič zlé a analyticky nesprávne. Problém nastáva v momente, keď zabudneme, že sa pozeráme na odhady, a to najmä odhady z malej vzorky.

Na grafe vyššie môžeme vidieť približné veľkosti odchýlok. Tieto odchýlky pritom závisia najmä od veľkosti vzorky. Prieskumné agentúry na Slovensku používajú bežne veľkosť reprezentatívnej vzorky okolo 1 000 opýtaných. Naozaj málokedy robia prieskumy na vzorke väčšej, ako napríklad 2 000 opýtaných. Z môjho pozorovania je najväčšou prekážkou už len samotná logistika získania takéhoto počtu odpovedí v dostatočne krátkom čase. Druhá prekážka môže byť tiež ekonomická efektivita takéhoto prieskumu. Veľkostná kategória 1 000 je na grafe vyššie vyznačená.

Ako môžeme vidieť napravo od vyznačenia, dvojnásobná veľkosť vzorky nezaručuje dvojnásobnú presnosť. Dvojnásobná veľkosť však zaručuje minimálne dvojnásobné náklady na zber: osobne, telefonicky, emailom. Všetky náklady sa počítajú.

Ekonomika prieskumných agentúr

V nejakom momente však ekonomicky už nemá zmysel zbierať ďalšie dáta. Určite si pamätáte na výsledok volieb z roku 2020. Jednému z kandidujúcich subjektov vtedy chýbalo na postup do parlamentu 0,04 % hlasov. Podľa mojich prepočtov by zachytiť túto presnosť vyžadovalo prieskum so vzorku opýtaných viac, ako je počet obyvateľov na Slovensku. Ak sa mylím, niekto ma určite opraví.

Problém, o ktorom som sa rozhodol písať, sa však nachádza naľavo. S klesajúcou veľkosťou počtu opýtaných narastá veľkosť odchýlky. Ak hovoríme o detailných preferenciách konkrétnych strán, musíme myslieť na veľkosť vzorky. Preferenčne silné strany, aj keď to znie paradoxne, sa nachádzajú dnes medzi 10 % a 20 %. Paradoxne preto, že aj pri 20 % sa bavíme o približne iba 15 % zo všetkých opýtaných, a teda iba možno 1/7 populácie. Áno, najväčšie strany na Slovensku dnes neoslovujú viac než polovicu populácie. Naopak, ich sympatizantov je o niečo viac ako obyvateľov ľubovoľného kraja (VÚC).

Na čo sa občas zabúda pri diskusiách o preferenciách je to, že do výpočtu veľkosti vzorky vstupuje aj podiel ľudí, ktorí chcú voliť, resp. vedia si vybrať z ponúknutých politických strán. Toto číslo odráža približný podiel voličov-nevoličov na Slovensku za posledné roky vo voľbách. Odhadnúť ho v rámci prieskumu však je pomerne náročné. V prieskumných agentúrach sa k úmyslu voliť a vybrať si z ponúknutých strán hlási približne 70 % opýtaných. Počet respondentov pre silné strany (okolo 20 %) je teda:

1 000 * 0,7 * 0,2 = 140

Pre strany okolo 5%: 

1 000 * 0,7 * 0,05 = 35

V prvom rade však musia respondenti zodpovedať kvótam na kategórie, aby bola vzorka skutočne reprezentatívna. Tu nastáva prvý, podľa mňa úplne kľúčový problém. Vzorka v tomto prípade nie je reprezentatívna.

Ako sa tvorí reprezentatívna vzorka? 

Pozrime sa na reprezentatívnosť a na to, ako sa tvorí. Ako som priblížil v dávnejšom článku, rôzne prieskumné agentúry zbierajú dáta rôzne. Zber (telefonicky = CATI, osobne = CAPI, online = CAWI) umožňuje rôznu hĺbku zbierania dát. Je jednoduchšie zbierať veľmi detailné dáta online, ako sa pýtať na veľmi detailné dáta osobne. Ľudia sú na osobnom dopytovaní skôr z otázok unavení, osobné dotazovanie je preto náročnejšie. Nižšie môžeme vidieť kategórie, ktoré používajú agentúry pre priblíženie sa k reprezentatívnosti.

Prieskumná agentúraZákladné demografické kategórieNad rámec základných
Agentúra FOCUSpohlavie, vek, vzdelanie*2, národnosť, krajveľkosť sídla bydliska
Agentúra AKOpohlavie, vek, vzdelanie, národnosť, kraj
Median SKpohlavie, vek, vzdelanie, národnosť, krajveľkosť sídla bydliska, minulé voličské správanie, vek + vzdelanie
Agentúra IPSOSpohlavie, vek, vzdelanie, národnosť, krajveľkosť sídla bydliska, vek + pohlavie, vek + vzdelanie, ekonomický status, príjem, minulé voličské správanie
NMS Market Research Slovakiapohlavie, vek, vzdelanie, národnosť, krajveľkosť sídla bydliska, pracovné zaradenie*3, minulé voličské správanie

Predstavte si vzorku 100 ľudí. Ak chceme, aby bola reprezentatívna na populáciu Slovenska, potrebujeme, podľa tabuľky vyššie, splniť kritériá. V článku o tom, koľko voličov je v mestách, som písal, prečo je pre presnosť prieskumov dôležité vážiť podľa veľkosti sídla a vzdelania. Sú to kľúčové kategórie, ktoré na Slovensku definujú politickú orientáciu voličov. Nie každá agentúra to robí. Na vzorke 100 ľudí, po aplikovaní 3 z 5 kategórií, sa dostaneme do situácie, že VŠ vzdelaných mužov z Trnavského kraja vo vzorke je … presne jeden. A to sme ešte nezarátali jeho vek a národnosť.

Odhady vychádzajú z pravdepodobností. Napríklad pravdepodobnosť výskytu občianky slovenskej národnosti, vo veku 18-24 rokov, so stredoškolským vzdelaním, v Trnavskom kraji, v tejto vzorke bude:

0,51* 0,85 * 0,09 * 0,36 * 0,11 = 0,1%

pohlavie * národnosť * vek * vzdelanie * kraj = pravdepodobnosť

Pravdepodobnosť namiesto počtov ľudí vo vzorke. Pozrime sa na to, ako vyzerajú skutočné dáta. 

Je alebo nie je, podľa Vášho názoru, Rusko hrozba pre Slovenskú republiku?

Akí sú vlastne voliči strán, ktorí sú Rusku naklonení? Aký podiel voličov schvaľuje postoje politikov, ktorých ich majú v parlamente zastupovať? Táto otázka je ťažká. Často kvôli nesprávnej interpretácii z malej vzorky. Ako vyzerajú dáta agentúry Median SK za rok 2023?

Porovnajte grafy odpovedí na túto otázku medzi zberom vykonaným v januári 2023:

Prieskum Median Sk Podiel Odpovedi Podla Modelu Januar 2023 Je Rusko Pre Hrozba Pre Slovensku Republiku | Opolitike

 A zberom vykonaným vo februári 2023: 

Prieskum Median Sk Podiel Odpovedi Podla Modelu Februar 2023 Je Rusko Pre Hrozba Pre Slovensku Republiku | Opolitike

Vidíte rozdiel? Čo sa stalo s SNS?! Ako je možné, že voliči strany SNS zmenili názor tak výrazne z mesiaca na mesiac? Ako je možné, že strana, kde v januári takmer 54 % považovalo Rusko za hrozbu (určite + skôr), zmenila názor z mesiaca na mesiac, padla na 18 %? Je naozaj možné, že v SNS len tak zrazu nepovažuju Putina a Rusko za hrozbu o 300 % menej? Čo výrazne sa muselo udiať, že taká masa ľudí zmenila názor? A zmenila vôbec? 

Pozrime sa na iný mesiac. Ako vyzerali názory v júni 2023? 

Prieskum Median Sk Podiel Odpovedi Podla Modelu Jun 2023 Je Rusko Pre Hrozba Pre Slovensku Republiku | Opolitike

Vidíte posuny u SMERu? Vidíte, že Rusko za hrozbu od februára považuje v júni úplne rovnaký podiel voličov SMER-SD, hoci vo februári to bolo o 14 p.b. viac? Čo sa u nich deje?

Deje sa presne to, čo v odstavcoch hore opisujem. Malá vzorka, v pripade SNS do 30, v prípade SMER do 100, spôsobuje pomerne pomerne veľké výkyvy dát, keď sa ich snažíme naporcovať ešte na menšie . V prípade SNS ide počas 7 mesiacov dát, ktoré mám k dizpozícii, o štandardnú odchýlku medzimesačne o 16 p.b., plus aj mínus.

V prípade SMER-SD ide o odchýlku 7 p.b., plus aj mínus. Malá vzorka sa premieta do väčších skokov a nestabilného podielu dát. Pričom názory na politiku, ekonomiku (pravica-ľavica, konzervatívci-liberáli), preferencie strán, geopolitickú orientáciu, sa v čase výrazne nemenia. Dáta však môžu vyzerať rôzne, najmä ak ich nesprávne interpretujeme. Príklady môžete občas vidieť v exkluzívnych prieskumoch pre Na Telo pre TV Markíza, pre Na Hrane pre TV JOJ, alebo aj pre Denník N.

Ako riešiť problém s malými vzorkami?

Odpoveď sa môže zdať banálna; sú to väčšie vzorky. Ako som však už na úvod písal, reprezentatívne vzorky okolo 1 000 ľudí sú niekedy na hrane uskutočniteľnosti pre jednu jedinú agentúru. Sú tu limity možnosti, ako napríklad vyšší počet telefonátov za krátke obdobie. Podľa svetových čísel, keďže slovenské agentúry tie svoje nezverejňujú, je potrebné na získanie 1 000 člennej vzorky potrebné obvolať 10x väčší počet ľudí. Pre vzorku 2 000 alebo 4 000 by bolo potrebné v priebehu krátkeho času obvolať 20,000 až 40 000 telefónnych čísel. To si vyžaduje obrovskú kapacitu agentúry, čo do počtu ľudí alebo techniky.

Podobne to bude by pri osobnom dopytovaní, ktoré je ešte náročnejšie. Nájsť 4x či 8x násobne viac ľudí odpovedaj[cich v dotazníku si vyžaduje 4x až 8x násobne viac vyškolených anketárov. Tí zároveň musia byť rovnomerne rozložení v rámci vlastnej siete po celom Slovensku. Pri existujúcej anketárskej sieti 100 anketárov, to znamená o 300 až 700 ľudí viac. Čo je logistická a náborová úloha, na ktorú sa veľké agentúry musia poriadne pripraviť a investovať nemalé peniaze. Zmena zo 100 zamestnancov/ dodávateľov na 400 je zmena fungovania firmy, dovolím si povedať filozoficky a od základov.

Najjednoduchšie to vychádza asi pri požiadavke, aby online prieskumy mali zber dát s väčšou vzorkou. Ale aj tu platí, že ľudia v online paneloch musia byť zaplatení za svoj čas pri vypĺňaní prieskumov, náklady tiež rastú násobne (2x, 4x, 8x). Predstavte si, že by ste každú odpoveď v online paneli odmenili sumou € 1, čiže € 1 000 za reprezentatívnu vzorku – v ideálnom prípade. Pre 8x väčšiu vzorku razom potrebujete mať rozpočet na odmeny vo výške € 8 000 eur. Osem násobok svojho rozpočtu však na stole nájde máloktorý zadávateľ k dispozícií, naraz.

Riešenie však existuje.

Vážený priemer prieskumov za dlhšie obdobie

Je úplne v poriadku, že odhad prieskumu sa netrafí do výsledku. Ide predsa o odhad. Teoreticky by mal byť v rámci veľkosti štatistickej odchýlky, ale aj tu ide len o teoriu. Dôležité je, čo sa deje pri opakovanom odhade; t.j. ako ďaleko sme od skutočnej hodnoty. 

V podstate by teda opakované odhady mali triafať v okolí skutočnej hodnoty. Vďaka tomu môžeme použiť väčšie množstvo odhadov v čase, a spraviť ich vážený priemer. Vážený priemer prieskumov by mal zmenšovať náhodné výkyvy hore a dole od skutočnej hodnoty, ktorú sa snažíme odhadnúť. S postupom času, po 2 a 3 meraniach, môžeme vidieť, že s rastúcou kumulatívnou vzorkou, náš vážený priemer prestáva výrazne oscilovať hore a dole. Stabilizuje sa. Ukážme si to na príklade strany Republika:

JanFebMarAprMayJunJul
Republika, všetci19314229404821
Republika, súhlas = hrozba3643374
Republika, podiel v prieskume15.8%19.1%9.5%10.3%7.5%14.7%19.4%
Republika, vážený priemer15.8%17.8%14.0%13.1%11.7%12.4%13.0%
Počet oslovených v prieskume856947115898811021088720

V tabuľke vyššie vidíme počet respondentov rozhodnutých pre stranu Republika po mesiacoch a počet z nich, ktorí považujú Rusko za hrozbu (súčet odpovedí “určite je + skôr je”). Na podieloch nižšie v tabuľke môžeme vidieť, ako sa čísla líšia s postupným rastom väčšej vzorky, z ktorej počítame vážený priemer, po rastúcom počte meraní. 

Argumentom proti tomuto spôsobu analýzy nálad spoločnosti môže byť strata pohľadu na medzimesačné zmeny. Aké medzimesačné zmeny však chceme merať v jednotkách opýtaných na takmer 1000 člennej vzorke? Logicky, zmeny pri takto veľkej odchýlke nedávajú zmysel, a nedajú sa vysvetliť publikovanými informáciami ani zmenou názoru u voličov. Určite dáva väčší zmysel interpretácia, že rozdiely medzi mesiacmi sú výsledkom malej vzorky a vysokej variácie. Menej dáva zmysel, že názory voličskej skupiny Republiky sa výrazne menia vo svojom názore na Rusko. Vážený priemer výrazne znižuje výkyvy v odhadoch.

A na záver, pozrime sa na všetky strany, a ich názor na Rusko ako hrozbu. Čísla zahŕňajú 7 mesiacov zberu agentúry Median SK, jedná sa teda o vážený priemer za mesiace január až júl.

Prieskum Median Sk Vazeny Priemer Za Rok 2023 Je Rusko Hrozba Pre Slovensku Republiku 1 | Opolitike

Na záver ešte jedna poznámka. Agentúra Median SK tieto porovnania bežne nezverejňuje. Keď hovorím bežne, myslím po každom z meraní pre agentúru alebo pre konkrétneho klienta. Dlhodobejšie meranie nálad však prebieha. A raz za čas výjde v agregovanej podobe, ktorú osobne pokladám za presnejšiu, než exkluzívne odhady s odchýlkou +/- 15%.


Poďakovanie

Ďakujem, že ste dočítali až sem. Zaujal vás článok? Napíšte svoj názor do komentára alebo mi napíšte priamo na mail (kontakt). Môžete sa tiež prihlásiť do newslettra, a ja vám pošlem najnovšie texty na stránke, keď ich publikujem.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *