Stworzyłeś aplikację, która śledzi zachowania polityczne kandydatów w wyborach samorządowych w Warszawie. Jak ona działa?

Dr Paweł Matuszewski*: Aplikacja pobiera surowe dane, które udostępniają Facebook, Twitter i YouTube. Następnie dokonuje obliczeń i wyświetla przede wszystkim w formie wykresów wybrane statystyki podsumowujące.

Jakie kategorie danych są zbierane?

W przypadku Facebooka są to takie informacje, jak liczba postów zamieszczanych przez kandydatów, liczba polubień, fanów, udostępnień, komentarzy, ile się mówi o poszczególnych kandydatach.

Jeśli chodzi o Twittera, to są dane, o czym piszą kandydaci, liczba obserwujących, liczba polubień ich tweetów, liczba retweetów, kto ich retweetuje, ale także tweety o samych kandydatach, jakich hashtagów używają tweetujący oraz lokalizacja użytkowników, którzy piszą o kandydatach.

Z kolei w przypadku serwisu YouTube na razie są to dane o liczbie filmów o kandydatach wraz z datą publikacji, tytułem i opisem, a także statystyki wyświetleń i stosunek kciuków w górę do kciuków w dół. Tych danych jest więcej, ale nie wszystkie są jeszcze uwzględniane przez aplikację.

Czy aplikacja zajmuje się tylko zbieraniem danych?

Nie, celem aplikacji jest wydobycie wiedzy z surowych danych. W najprostszej formie dotyczy to porównania różnych statystyk. Jednakże oprócz tego aplikacja pokazuje również tematy, które poruszają kandydaci, sentyment wypowiedzi o kandydatach, emocje, które im towarzyszą, a nawet ich wizerunek.

Za pomocą aplikacji zebraliśmy już dane, obrobiliśmy je. Czy następnie możemy je jakoś wykorzystać, aby przewidzieć zachowania wyborcze?

Trzeba pamiętać, że media społecznościowe to tylko jedna z rzeczywistości, w której funkcjonujemy i nie można zaobserwowanych tam zachowań przenosić bezpośrednio na rzeczywistość offline. Jest kilka poważnych zastrzeżeń co do traktowania tego, co tam się dzieje jako prognostyki zachowań wyborczych. Pierwsza kwestia jest taka, że zakres wyborców nie pokrywa się ze zbiorem użytkowników. Na przykład, reagować na posty kandydatów w Warszawie mogą wszyscy z dowolnego miejsca na świecie, ale niekoniecznie są oni osobami, które będą głosować w stolicy. Mimo to będą dawać polubienia, retweetować, pisać komentarze etc., stwarzając być może jedynie złudzenie, że kandydat ma szersze poparcie niż jego konkurencja. Aktywne w internecie mogą też być osoby, które nie mają jeszcze praw wyborczych, pomimo, że są z Warszawy. Wreszcie, to, co się dzieje w sieci, może być efektem działania botów, które np. mogą automatycznie reteetować, lubić i komentować czyjeś wpisy. Wówczas statystyki będą sztucznie zawyżane.

Druga kwestia dotyczy interpretacji wskaźników. Nie można założyć, że jeśli ktoś polubi, udostępni lub skomentuje określoną liczbę tweetów danego kandydata, to z pewnością na niego zagłosuje. Tego typu aktywność w najlepszym razie może być traktowana jako wyraz preferencji, ale nie może być traktowana na równi z aktem głosowania.

Jeśli aktywność tego typu może być traktowana jako wyraz preferencji, to czy wtedy nie rośnie jednak prawdopodobieństwo zagłosowania na danego kandydata?

Wyobraźmy sobie, że na tydzień przed wyborami wyborca polubi jeden wpis kandydata X i dwa wpisy kandydata Y. Czy to oznacza, że zagłosuje na Y? Być może jest większe prawdopodobieństwo, że tak się stanie, ale operujemy w takiej sytuacji na bardzo małym materiale dowodowym. A tak to często wygląda. W trakcie sześciu tygodni przed wyborami parlamentarnymi w 2015 r. nieznaczna większość, bo 51,4 proc. osób, które było aktywne na stronach partii politycznych i kandydatów na szefa rządu, kliknęło tylko jeden raz przycisk „lubię to”. Większość niczego nie skomentowała. Myśląc o mediach społecznościowych i słysząc statystyki idące w dziesiątki tysięcy, można mieć złudne wyobrażenie, że użytkownicy są tam niezwykle aktywni. Tymczasem indywidualne wskaźniki pokazują, że częsta aktywność jest domeną mniejszości.

No właśnie, a co z tymi, którzy korzystają z mediów społecznościowych, ale są bardziej obserwatorami, niż aktywnymi uczestnikami dyskusji?

Dotykamy tu kolejnego aspektu używania mediów społecznościowych. Nieznany jest odsetek osób, które z nich korzystają, ale nie pozostawiają po sobie żadnego śladu. Zapoznają się oni z różnymi treściami, aktualizują swoje przekonania i być może rozmawiają z innymi ludźmi, wywierając na nich wpływ, ale skala tego zjawiska na podstawie tych danych, które są udostępniane, jest trudna do oszacowania. W kontekście wcześniejszej uwagi można jedynie podejrzewać, że jest to dość liczne grono.

Następnym problemem jest reprezentatywność. Największy odsetek użytkowników mediów społecznościowych jest wśród osób poniżej 35 roku życia, z wykształceniem wyższym lub z dużych miast. Natomiast przeciętny wyborca wygląda zupełnie inaczej. Do mniej więcej wieku emerytalnego prawdopodobieństwo uczestniczenia w wyborach rośnie wraz z liczbą lat, ale z kolei wraz z nią spada prawdopodobieństwo korzystania z mediów społecznościowych. Inaczej mówiąc, np. na Twitterze mamy nadreprezentację osób młodych, zainteresowanych polityką, wykształconych i z dużych miast w stosunku do tego, kim jest realny wyborca. Ta grupa nie pokrywa się w swojej strukturze ze zbiorem osób, które głosują.

Czy media społecznościowe w ogóle są dla nas ważnym źródłem informacji o polityce?

Według badań CBOS z 2017 r. niecałe 5 proc. Polaków wskazuje Facebooka jako źródło, po które sięga w pierwszej kolejności, aby zdobyć informacje o polityce i najnowszych wydarzeniach. Podkreślmy, że chodzi o traktowanie Facebooka jako głównego źródła. Nie było to pytanie o ogólne korzystanie z tej platformy. Oznacza to, że te informacje polityczne są zdobywanie najczęściej gdzie indziej: na portalach informacyjnych, które rządzą się innymi prawami niż media społecznościowe, w prasie, telewizji, etc. Media społecznościowe to tylko jeden z obszarów zdobywania takich informacji i jak się okazuje, przynajmniej w przypadku Polski, wcale nie najważniejszy.

Wychodzi na to, że nawet w erze Big Data próba wykorzystania danych z mediów społecznościowych do przewidywania zachowań wyborczych jest dość karkołomna.

Jestem pod tym względem umiarkowanym optymistą. Tak jak wspominałem wcześniej, nie można bezpośrednio przekładać statystyk na wynik wyborczy. Gdyby tak to się odbywało, to w 2015 r. rząd większościowy utworzyłaby Partia Wolność a premierem zostałby Janusz Korwin-Mikke. Tymczasem ugrupowanie to nie dostało się nawet do parlamentu. Istnieją zespoły, także w Polsce, które zajmują się taką predykcją i niektóre nawet odnoszą pewne sukcesy. Najczęściej takie prognozy oparte są na analizie wydźwięku wypowiedzi. Media społecznościowe jednak bardzo dynamicznie się rozwijają i zupełnie inaczej pod tym względem wyglądały wybory w 2011, 2015 i inaczej będą wyglądać wybory obecne i przyszłoroczne. Zmieniają się zarówno statystyki uczestnictwa, jak i same platformy. Facebook pod względem tego, jakie daje możliwości działania i pod względem algorytmów, które działają w jego tle, jest już inną platformą w porównaniu do 2011 a nawet 2015 r. Żeby mówić o sukcesie takich predykcji, trzeba wielokrotnie udowodnić, że stosowane modele dobrze sobie radzą w tak zmiennym środowisku. Pamiętajmy, że nawet zepsuty zegar dwa razy na dobę pokazuje prawidłową godzinę. Jednostkowy sukces jest zatem najwyżej zwiastunem, że się idzie w dobrym kierunku, ale nie jest 100 proc. potwierdzeniem, że wszystko działa. Myślę jednak, że w przyszłości, wraz ze wzrostem liczby danych, które będziemy posiadać, będą też rosły szanse na budowę przyzwoicie sobie radzących modeli prognostycznych.

Jako socjolog widzę jednak nie tylko ograniczenia metodologiczne, ale też teoretyczne. Nie jest mi znana żadna praca, która przekonująco wyjaśniałaby, jaki jest związek między danymi w mediach społecznościowych a realnymi zachowaniami wyborczymi. Żyjemy co prawda w erze Big Data, ale uważam, że nie należy tych wielkich zbiorów danych i algorytmów, które je przetwarzają fetyszyzować. Boleśnie się o tym przekonał taki gigant jak Google, któremu wydawało się, że analiza słów wpisywanych w wyszukiwarkę podparta mniej lub bardziej skomplikowanymi modelami prognostycznymi wystarczy, aby przewidzieć zachorowania na grypę. Tylko, że modele prognostyczne stosujące kryteria statystyczne i nie rozumiejące mechanizmów społecznych stojących za przetwarzanymi przez nie danymi, zaczęły pracować na informacjach, które w ludzkim rozumieniu były nieistotne. W konsekwencji program Google Flu Trends zaliczył serię wpadek, przeszacowując m.in. występowanie grypy w sezonie 2012/13 o 50 proc. Nie wystarczy dane przetwarzać, trzeba bardzo dobrze rozumieć, czego one dotyczą.

Z tego wszystkiego wyłania się wręcz ostrzeżenie: obecnie media społecznościowe nie tylko nie pomagają nam przewidzieć zachowań wyborczych, ale mogą istotnie zniekształcać rzeczywistość polityczną.

Zależy jak rozumiemy rzeczywistość polityczną. Istnieje jakiś realny rozkład przekonań politycznych polskich wyborców, a w dniu wyborów widzimy, jakie są preferencje polityczne tych, którzy zdecydowali się zagłosować. Mamy też media społecznościowe i wszystko co się w nich dzieje. Żadna z tych rzeczywistości nie jest bardziej realna od drugiej. Częściowo się one zazębiają, ale nie oznacza to, że się pokrywają. Nie możemy ich ze sobą zestawiać i twierdzić, że to, co się dzieje w jednej będzie miało bezpośrednie odzwierciedlenie w drugiej. Zbyt wiele je od siebie różni.

Wróćmy do stworzonej przez Ciebie aplikacji. Czy zbierane przez nią dane mogą być źródłem informacji, które można wykorzystać w kampanii?

Pisząc tę aplikację, nie celowałem w to, aby stworzyć narzędzie dla sztabów wyborczych. Z tego względu np. pokazywane są dane z ostatnich dwóch tygodni, aby uniemożliwić bardziej wyrafinowane analizy. Chciałem stworzyć raczej narzędzie dla potencjalnych wyborców, którzy chcą się czegoś dowiedzieć na temat kandydatów i co mogłoby im pomóc w podjęciu decyzji wyborczej, czyli np. tego, o czym piszą kandydaci, jakie są ich główne tematy wypowiedzi i na co kładą akcent w swoim programie, z jakim zainteresowaniem się spotykają, jakie są ich słabe a jakie mocne strony. Te wszystkie informacje są zawarte albo wprost w aplikacji, albo aplikacja do nich prowadzi, np. w postaci linków do filmów na YouTube.

Zacznijmy w takim razie od Patryka Jakiego – jakie tematy pojawiają się wokół tego kandydata i czym się wyróżnia?

Na pierwszej stronie aplikacji, gdzie widać, kto i pod jakim względem aktualnie prowadzi, najczęściej pojawiające się nazwisko to Patryk Jaki, ale pojawiają się też inni kandydaci jak Rafał Trzaskowski, Jacek Wojciechowicz, czy Janusz Korwin-Mikke.

Jeśli chodzi o tematy wpisów na FB i TT, dość łatwo możemy zauważyć, że Patryk Jaki dużo miejsca poświęca spotkaniom z mieszkańcami. W ciągu ostatnich dwóch tygodni dominował temat transportu, zwłaszcza drugiej linii metra, a także sportu i infrastruktury sportowej. Pojawia się także kwestia reprywatyzacji, Hanny Gronkiewicz-Waltz, portu lotniczego i zapóźnień Warszawy w porównaniu do stolic innych krajów.

A co użytkownicy mediów społecznościowych sądzą o Patryku Jakim?

W zakładce dotyczącej jego wizerunku dominują określenia negatywne, co nie jest akurat niczym nadzwyczajnym w przypadku wypowiedzi na temat polityków. Istotne mogą się jednak okazać proporcje i to, czego dotyczą zarzuty. Bycie zarozumiałym („bufon”) nie jest np. uniwersalną cechą, którą wytyka się kandydatom. Z drugiej strony na wykresie znajdują się takie cechy pozytywne, jak rozsądek, inteligencja i kompetencja.

Jak wypada Rafal Trzaskowski?

W przypadku Rafała Trzaskowskiego większość statystyk pokazuje, że dużo osób się nim interesuje, choć są one aktualnie nieco gorsze niż w przypadku Patryka Jakiego.

W tematach kandydata Koalicji Obywatelskiej dominują teraz inwestycje i Powstanie Warszawskie a także spotkania z wyborcami i nieco rzadziej kwestie związane z wymiarem sprawiedliwości lub manipulacją (akcja „Mów Prawdę”). Wizerunek jest bardzo zbliżony do Patryka Jakiego. Różnice dotyczą np. zarzutu o bierność i nieco inny rozkład akcentów.

Co aplikacja mówi nam o Janie Śpiewaku?

Jan Śpiewak w tym zestawieniu wypada zdecydowanie najmniej korzystnie pod względem statystyk aktywności użytkowników. Kandydat ten ostatnio dużo miejsca poświęcał reprywatyzacji w Warszawie, budowie Parku Centralnego i sprzeciwiał się powstaniu tzw. „Nycz Tower”. Przy wizerunku częściej niż obu poprzednim kandydatom zarzuca się mu bierność. Dość znaczny odsetek wypowiedzi wskazuje na prowokacyjny charakter, co może być związane z niedawną wulgarną wypowiedzią Andrzeja Celińskiego na jego temat. Wyraźnie częściej niż u innych pojawiają się wokół jego nazwiska słowa związane z inteligencją, a także podkreślające niezależność.

W ogólnym zestawieniu na stronie głównej aplikacji widać, że o ile na Facebooku czy Twitterze dominują Patryk Jaki i Rafał Trzaskowski, to już w przypadku YouTube w pewnych kategoriach pojawia się Jacek Wojciechowicz czy Paweł Tanajno. Skąd te różnice między serwisami?

Trzeba pamiętać, jakie dane są zbierane z poszczególnych serwisów. Przypomnijmy, że w przypadku YouTube aplikacja korzysta z oficjalnych kont kandydatów, a nie wszyscy takowe posiadają. Na przykład Patryk Jaki w innych mediach społecznościowych podaje, że jego kanał to PatrykJakiTV, tylko że takiego kanału jak na razie nie ma. Jest tylko kanał prowadzony przez fanów, a ponieważ nie jest to konto oficjalne, to nie wlicza się do statystyk.
Na tę chwilę statystyki dla YouTube’a trzeba traktować bardzo ostrożnie, bo w odróżnieniu od Twittera i Facebooka nie ma porównania między oficjalną aktywnością wszystkich kandydatów.

Ponadto trzeba brać pod uwagę zachowania samych kandydatów. Np. Andrzej Celiński, kiedy był jeszcze kandydatem SLD, zapowiedział, że nie będzie uczestniczył w prekampanii i faktycznie od 23.06. niczego nie zatweetował. Nie mając tej wiedzy można pomyśleć, że polityk mniej angażował osoby, które go obserwują, ale prawda jest taka, że nie było jego wpisów a zatem i reakcji na nie.

Co o kandydatach możemy wyczytać z danych o lokalizacji? Czy ujawniają się tu jakieś zależności?

Po pierwsze trzeba zaznaczyć, że dane o lokalizacji pochodzą tylko z Twittera. Po drugie, jest to lokalizacja tylko zadeklarowana, a nie taka, jaką np. uzyskuje się na podstawie GPS, ponieważ większość użytkowników Twittera nie udostępnia takich danych. Dlatego trzeba być bardzo ostrożnym z wyciąganiem wniosków.

Można natomiast wyróżnić trzy grupy użytkowników: tych, którzy deklarują, że są z Warszawy, tych, którzy deklarują, że są spoza Warszawy oraz tych, którzy nie podali żadnej lokalizacji. Wpisy od osób deklarujących, że piszą z Warszawy, w tej chwili stanowią średnio kilkanaście procent ogółu. Pozostałe należą mniej więcej po równo do osób, które mają wpisaną lokalizację inną niż warszawska i do osób, które w ogóle nie mają wpisanej lokalizacji. W związku z tym można przypuszczać, że większość dyskusji wokół aktywności kandydatów jest toczona między osobami spoza Warszawy. Innymi słowy opinie, które można przeczytać, tylko w pewnym, prawdopodobnie niedużym, odsetku należą do osób, które faktycznie oddadzą głos na któregoś z kandydatów, na temat których się wypowiadają.

Ma to szczególne znaczenie w przypadku wyborów samorządowych, gdzie lokalizacja jest kluczowa i decyduje o miejscu głosowania. Inne znaczenie będzie to miało oczywiście w przypadku wyborów prezydenckich, które mają charakter ogólnopolski.

*Dr Paweł Matuszewski – socjolog, analityk danych związany z Instytutem Politologii Uniwersytetu Kardynała Stefana Wyszyńskiego w Warszawie, przewodniczący zarządu Oddziału Warszawskiego Polskiego Towarzystwa Socjologicznego. Napisał monografię „Cyberplemiona. Analiza zachowań użytkowników Facebooka w trakcie kampanii parlamentarnej” (w druku) oraz „Logika przekonań społecznych” (2017). Jest autorem kilkudziesięciu artykułów z zakresu socjologii polityki, socjologii internetu, socjologii opinii publicznej i metodologii badań społecznych. Twórca aplikacji „Wybory samorządowe 2018”, która śledzi zachowania polityczne kandydatów na prezydenta Warszawy.