Wybraliśmy nowego prezydenta Polski. Jak zwykle internet zalała seria mapek z wynikami. Ale czy mapki to wszystko co można wyciągnąć?
Mapkami podniecają się wszyscy, ale tak właściwie co one mówią o wynikach wyborów i osobach, które oddały swój głos? Dlaczego Andrzej Duda wygrał w jednych rejonach, a Rafał Trzaskowski w innych?
Oczywiście media teraz nieco onanizują się tym, że jeden kandydat wygrał więcej gmin, a inny więcej województw (proporcjonalnie oczywiście). Mapkę narysować można zawsze (zresztą z wynikami po gminach publikowałem na Twitterze jako jeden z pierwszych – dlatego warto śledzić mnie na Twitterze), o tutaj:
Bardziej Duda czy Trzaskowski?
— Łukasz Prokulski (@lemur78) 13 lipca 2020
Pierwsza mapa na poziomie gmin, nikt tego jeszcze nie pokazał. Tak, wyniki z #PKW jeszcze niepełne.#WyboryPrezydenckie2020 #Wybory2020 #bazarek #wyborybezbolu
Szeruj, retwituj!
PS. #WidaćZabory pic.twitter.com/cJyF7G0boY
Mapka z poparciem Dudy w gminach:
czy też mapka z poparciem Trzaskowskiego w gminach:
Albo jaka była przewaga Dudy nad Trzaskowskim:
albo jeszcze bardziej bezpośrednio – kto wygrał w każdej z gmin:
Oczywiście widać zabory, co też można pokazać na mapie:
Wszystkie te mapy już widzieliście. Tyle tylko, że to wszystko nie mówi nam niczego o ludziach, którzy głosowali na jednego lub drugiego kandydata.
Nie mamy pieniędzy na badana typu exit poll. Ale mamy internet, dostęp do danych z GUS i tego się uczepimy.
Przerwa na reklamę:
Jak analizować dane i jak może to pomóc w biznesie? Wskazówki i przepisy znajdziesz w książe Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji.
Najpierw jednak jeszcze coś geograficznego. Na mapach widać, że na Trzaskowskiego głosowały gminy skupione wokół dużych miast. Sprawdźmy zatem czy odległość gminy od miasta wojewódzkiego (tego województwa do którego należy gmina) jakoś przekłada się na rozkład głosów?
Przy zerze mamy oczywiście gminy będące stolicami województw (dla Warszawy przyjąłem, że jest to Śródmieście). Właściwie coś tam widać – im dalej od wielkiego miasta tym więcej głosów na Andrzeja Dudę. Ale później krzywa się wypłaszcza a nawet spada (to akurat może być wynik kilku outlierów). No w nieskończoność nie może też rosnąć, bo przecież maksymalnie można zdobyć 100%, a nawet to jest mało prawdopodobne.
Dla przypomnienia:
- Duda zdobył maksymalnie 95.24% głosów (w gminie Godziszów, powiat janowski, województwo lubelskie),
- zaś Trzaskowski 77.96% (na Wilanowie w Warszawie).
Wykres ten może być nieco mylący w skali kraju – niektóre województwa są duże i w związku z tym dalej jest z gmin na obrzeżach do stolicy województwa. Podzielmy więc wykres na poszczególne województwa:
Teraz widać na przykład bardzo ładnie tak zwany obwarzanek warszawski – stolica i najbliższe gminy głosują na Trzaskowskiego (i ogólnie przeciw PiS), a te dalsze wręcz przeciwnie. Pomysł na podział województwa mazowieckiego na dwie części znamy? Oto przyczyna.
Teraz będzie już mniej geograficznie. Poszukamy korelacji (które jak wiemy wcale nie muszą oznaczać przyczyny jakiegoś zjawiska oraz wcale nie muszą go tłumaczyć) z różnymi informacjami jakie udało mi się znaleźć w Banku Danych Lokalnych na stronach GUSu. Przeważnie są to dane z 2018 roku i najczęściej na poziomie powiatów.
Powyżej wykres wiążący dochód gminy (tutaj odrzucone zostało 5% najbogatszych gmin, które głosują mniej więcej pół na pół). Widać, że gminy o niższych dochodach głosują za Andrzejem Dudą. Ale rozkład dochodu gmin jest dość skupiony wokół średniej (bez tych 5% najbogatszych: 4670 zł z odchyleniem standardowym 550 zł), więc nie wiem czy należy wyciągać z tego daleko idące wnioski.
To ciekawe, ale jednocześnie mylące. Bo w dużych miastach jest więcej rodzin pobierających 500+, czyż nie? Podzielmy więc liczbę rodzin uprawnionych do pobierania 500+ przez liczbę osób (w przybliżeniu – precyzyjniej dzielimy przez liczbę uprawnionych do głosowania, bo akurat to jest pod ręką):
Osoby, które pobierają 500+ są wdzięczne rządowi i głosują w związku z tym na prezydenta, który jasno mówił o tym że to dzięki niemu ta pomoc socjalna. Jak na mapie narysuje się udział rodzin 500+ do uprawnionych do głosowania to wcale nie widać zaborów, co może nie być oczywiste.
Znowu odrzuciliśmy 1% powiatów z najwyższym dochodem brutto na głowę. Czy bogatsi chętniej głosują na Trzaskowskiego? Tych bardzo bogatych (powiatów) mamy niewiele, ale najbardziej interesujące są okolice 3500-4200 zł brutto. Uwaga – to dane za 2018 rok.
Przerwa na reklamę:
Do analizy danych często używany jest Python – czegoś więcej niż prostych wykresów nauczysz się z książki Data science od podstaw. Analiza danych w Pythonie.
Skoro zarobki to i zatrudnienie. Jak wygląda poparcie Rafała Trzaskowskiego w poszczególnych powiatach w zależności od tego w jakim sektorze pracują ludzie? Na początek finanse (a konkretnie coś co w GUS figuruje jako działalność finansowa i ubezpieczeniowa; obsługa rynku nieruchomości):
W tego typu działalności pracuje się głównie w większych miastach, nie dziwne więc że tam gdzie więcej pracujących w finansach i okolicach tam większe poparcie dla Trzaskowskiego.
Następni to ludzie pracujący w handlu i innych usługach (według GUS: handel; naprawa pojazdów samochodowych; transport i gospodarka magazynowa; zakwaterowanie i gastronomia; informacja i komunikacja):
GUS nie podaje jak część pracowników usług to handel, ale chyba wiele się nie pomylę, jak powiem że znaczna. Ważne jest też to, że w GUSie raportowane są firmy powyżej 9 pracowników, a zatem pan Kazio i jego rodzinna firma w której pracuje on, żona, córka i zięć się tutaj nie pojawią. A taką firmą może być sklepik na wsi.
Rolnictwo, leśnictwo, łowiectwo i rybactwo:
Tutaj chyba nie ma zaskoczenia – im bardziej rolnicze tereny tym więcej głosów na Dudę. A wiecie gdzie jest więcej terenów rolniczych? Tak, właśnie tam (też #widaćzabory).
Przemysł i budownictwo:
Zrobiłem sobie mapkę, aby sprawdzić gdzie jest więcej przemysłu i budownictwa. I to zgadza się z tym, gdzie wygrywa PO (z grubsza).
Sprawdźmy teraz jak na wyniki ma wpływ struktura wieku w powiatach. Czy powiaty, gdzie jest większy udział osób starszych chętniej głosują na Dudę czy na Trzaskowskiego? Nie odpowiemy tym samym na pytanie kogo wybierają osoby starsze, ale otrzymamy jakieś spojrzenie, jakieś przypuszczenie. Aby wiedzieć na kogo głosują osoby w danym wieku musielibyśmy ich po prostu zapytać.
I to jest bardzo ciekawy wykres, bardzo nieoczywisty.Niejako do połowy wszystko się może zgadzać – im więcej starszych tym mniejsze poparcie dla Trzaskowskiego. Ale dlaczego później się to zagina ku górze?
W pierwszej dziesiątce powiatów z największym udziałem (ponad 14.7%) osób starszych mamy:
Powiat | Województwo | Mieszkańcy 70+ [%] | Wynik Trzaskowskiego [%] |
---|---|---|---|
Sopot | pomorskie | 18.7 | 72.2 |
Gdynia | pomorskie | 14.2 | 70.1 |
Jelenia Góra | dolnośląskie | 14.3 | 64.4 |
Łódź | łódzkie | 15.0 | 63.8 |
Katowice | śląskie | 14.7 | 61.5 |
hajnowski | podlaskie | 16.8 | 61.1 |
Tarnów | małopolskie | 13.9 | 48.7 |
bielski | podlaskie | 15.5 | 39.8 |
siemiatycki | podlaskie | 14.5 | 37.4 |
krasnostawski | lubelskie | 14.3 | 30.6 |
Początek tabeli to duże miasta lub zachodnia Polska. Powiat hajnowski jest specyficzny dla ściany wschodniej – tam wygrał Hołownia, więc nic dziwnego że głosy przeszły na Trzaskowskiego. A kolejne powiaty to już zwycięstwo Dudy.
Zobaczmy jak to wygląda w innych grupach wiekowych, tym razem patrząc dla odmiany na poparcie dla Andrzeja Dudy:
I to co widzimy teraz jest na pierwszy rzut oka zaskakujące! Jak to – im więcej starszych osób tym mniej głosów na Dudę? A co z 13 emeryturą, nic to nie dało? Ano pewnie dało, tylko że z tych danych tego nie widać.
Dlaczego Dudzie spada w grupie najstarszych? Trzeba sprawdzić w detalach, ale może być tak jak widzieliśmy już wyżej – najwięcej najstarszych osób jest w większych miastach (może łatwiej tam zadbać o zdrowie?) a w większych miastach Trzaskowski był lepszy.
Dalsze praca z wynikami wyborów prezydenckich 2020 roku przeprowadzimy w połączeniu z wynikami Narodowego Spisu Powszechnego. Niestety dostępne są dane ze spisu przeprowadzonego w 2011 roku. Dziewięć lat to dość dużo, ale niniejszy post to tylko zabawa (chociaż mam nadzieję, że interesująca). Pewnie niektóre wskaźniki się zmieniły, ale czy bardzo? Dowiemy się po publikacji wyników z kolejnego spisu (który ma się odbyć od 1 kwietnia do 30 czerwca 2021 roku).
Czy warunki mieszkaniowe, w jakiej żyją ludzie w poszczególnych powiatach mają odbicie w tym jak głosują?
Im większe mieszkania w powiecie (średnia ich powierzchnia na osobę) tym mniej głosów na Andrzeja Dudę. Patrząc na mapę – nie widać zaborów. No ale wielkość przestrzeni mieszkalnej dla jednej osoby można potraktować jako pewnego rodzaju wyznacznik zamożności.
A czy ilość osób mieszkających w mieszkaniu (bez względu na jego wielkość) ma jakieś znaczenie? Intuicyjnie czujemy że tak – pewnie jest korelacja pomiędzy wielkością mieszkania i liczbą mieszkających w nim osób.
Wynik zgodnie z przewidywaniami – im więcej osób w mieszkaniu tym większe poparcie dla Andrzeja Dudy. W nieco ponad 74% powiatów, gdzie mieszkają co najmniej 3 osoby w mieszkaniu (w domyśle: rodzice plus co najmniej jedno dziecko) wygrał Duda.
Trochę innym wskaźnikiem jest liczba osób w gospodarstwie domowym (ale w sumie dlaczego innym?):
Widzimy w przybliżeniu to samo. Tutaj Duda zgarnia aż 82% powiatów ze średnią liczbą osób w gospodarstwie większą od trzech.
Na koniec zostało nam wykształcenie mieszkańców. To nie jest wykształcenie wyborców tak wprost. To jest zestawienie odsetka osób z danym wykształceniem (stan na 2011 rok) z tym jaką część głosów zebrał wygrany kandydat w kolejnych powiatach. Nie można powiedzieć, że ludzie z wyższym wykształceniem głosowali na Trzaskowskiego na podstawie tych wykresów. Można za to powiedzieć, że w powiatach gdzie jest więcej osób z wyższym wykształceniem wygrał przeważnie Trzaskowski. Ale konkretnie:
Przerwa na reklamę:
Cały ten tekst powstał z użyciem języka R. Uczyłem się go z książki Język R. Receptury. Analiza danych, statystyka i przetwarzanie grafiki..
Jeśli Ci się podobało albo przyda się do czegoś to podziel się wpisem ze światem (odpowiednie guziczki poniżej). Wpadnij też na Dane i Analizy na Facebooku – tam więcej takich smaczków (szczególnie dla praktyków). Nieco więcej smaczków znajdziesz też w nie-tak-bardzo cyklicznym newsletterze, którego archiwum tutaj.
Możesz też rzucić piniądz ;-) autorowi, czy tam postawić witrualną kawę – czy gdzieś widziałeś podobne analizy?
Jeszcze są inne możliwości wizualizacji kartograficznej, np. kartogram anamorficzny
https://www.facebook.com/aleksandra.kolanek/posts/3421311711213834
A co to są wyborcy w wieku 0-14 i 15-19?
Jak się chcemy przyczepić to szukajmy tego, do czego przyczepienie się ma sens. Tytuł wykresu to „Udział osób w poszczególnych grupach wiekowych z % głosów oddanych na Andrzeja Dudę w powiecie”. Gdzie tutaj jest mowa o wyborcach w wieku 0-14 lub 15-19 lat?
Mowa jest o procencie mieszkańców w powiecie przynależących do odpowiedniej grupy wiekowej. Bez względu na to czy mają prawa wyborcze czy nie.
A wykres ten ma dużo sensu akurat, bo weryfikuje na ile 500+ się przyczyniło do głosów oddanych na Dudę. Im więcej dzieci tym przynajmniej teoretycznie więcej otrzymujących 500+.