O datech

Co jsou to geolokační data?

#

Geolokační data mobilních operátorů využívají údaje o pohybu/pobytu SIM karet v rámci sítě vysílačů (BTS). Každá SIM karta se pravidelně hlásí k nejbližšímu vysílači (tzv. periodický update). Z toho je zřejmá informace, v dosahu kterého vysílače se SIM karta v daný moment nachází. Každá SIM karta (pokud je aktivní) vytvoří denně desítky až stovky takových záznamů. Díky vysoké četnosti záznamů lze identifikovat místo či dobu pobytu. V případě změny místa pobytu lze odvodit, že se SIM karta v mezidobí přemístila, tj. pohyb. Na základě analýzy těchto záznamů v delším časovém období lze mapovat denní mobilitu celé populace a vysledovat základní rytmy dopravního chování obyvatel.     

Údaje ze signalizační sítě mobilních operátorů nevyužívají technologii GPS, a tak nelze zjistit přesnou polohu. Jediná informace, kterou signalizační sít dává je, že v daný moment byla SIM karta v dosahu daného vysílače. V případě znalosti územního pokrytí jednotlivými vysílači je pak možné tuto síť promítnout na území celého státu a lokalizovat tak SIM karty do jednotlivých obcí. Právě tento mechanismus je hlavní technologickou výzvou při získávání geolokačních dat.

Charakteristika dat

  • data všech 3 provozovatelů mobilní sítě (T-Mobile, O₂, Vodafone)
  • 4 nezávislá měření (podzim 2021, jaro 2022, léto 2022, zima 2022/2023)
  • každé měření v délce 28 dní

 

V rámci získávání a primární analýzy dat bylo sledováno několik typů pohybu/pobytu. Základním sledovaným atributem bylo místo rezidentství, které bylo přiděleno každé analyzované SIM kartě. Další atributy byly SIM kartám přidělovány na základě jejich dopravního chování v období celých analyzovaných 28 dní na základě četnosti návštěvy jednotlivých obcí a celkového počtu hodin zde strávených. Vůči jedné obci může mít SIM karta jen jeden z následujících atributů:

  • Rezident – nejčastější místo přenocování
  • Dojížďka za prací/školou – alespoň 13 návštěv, alespoň 50 hodin
  • Intenzivní dojížďka za službami – alespoň 4 návštěvy, alespoň 8 hodin
  • Občasná dojížďka za službami – alespoň 2 návštěvy, alespoň 4 hodiny
  • Druhé bydlení – alespoň 6 přenocování v pravidelném rytmu
  • Nocující návštěvník – alespoň 1 přenocování
  • Návštěvník – 1 návštěva alespoň o délce 3 hodin

 

Výsledná databáze představuje model mobility obyvatel české republiky. Je výsledkem celé řady metodických kroků, díky kterým je zohledněn vliv tzv. multiSIM a bezSIM. Čili vliv osob, které disponují více než jednou SIM kartou, kterou aktivně využívají. Bez metodického zohlednění tohoto faktu by byly ve výsledné databázi započítávány vícekrát. Naproti tomu existují osoby, které nedisponují žádnými SIM kartami (především děti a v menší míře senioři). Ty naopak v databázi nejsou započítány vůbec, a proto jsou ve výsledných databázích modelovány jako speciální kategorie. Dále je zohledněn vliv virtuálních operátorů, vliv dlouhodobě neaktivních SIM karet či vliv tzv. technických SIM karet (M2M) a dalších, které nejsou v mobilních telefonech. Výsledný model je tak zobecnitelný na celou populaci a představuje zcela unikátní zdroj informací o mobilitě obyvatel Česka.

 

Výsledné datasety

Každý sběr dat obsahuje 3 databáze:

  1. Údaj o počtu rezidentů obce a jejich charakteristika dle dopravního chování (kategorie: poč. rezidentů; poč. rezidentů bez SIM karty; poč. nevyjíždějících, vyjíždějících denně, intenzivně, občasně; druhé bydlení; nocující návštěvník; návštěvník)
  2. meziobecní dojížďka (OD matice uvádějící počet osob cestujících mezi obcemi dle jednotlivých typů pohybu, tj. denní/intenzivní/občasná dojížďka, druhé bydlení, nocující návštěvníci a návštěvníci) 
  3. Počet přítomných osob v obci – 24 h, 7 dní v týdnu (počet osob přítomných v obci v každou hodinu týdne; rozděleno dle rezidentů, denně/intenzivně/občasně dojíždějících, druhé bydlení, nocující návštěvníci a návštěvníci).

 

Získávání dat a jejich charakteristika jsou podrobně popsány v dokumentu Metodický postup řešení, který doprovází každou datovou sadu a je ke stažení zde:

 

Anonymizace

Využívání dat mobilních operátorů je zcela bezpečné z hlediska anonymity dat. Výsledné údaje jsou neztotožnitelné s jakoukoli osobou či její potenciální konkrétní cestou. Veškeré analyzované údaje byly již na straně operátorů anonymizovány a agregovány (časová i prostorová agregace). Navíc data prošla celou řadou metodických kroků (popsány v metodickém postupu řešení), které znemožňují zpětné dohledání primárních údajů. Výsledná data tak představují statistiku o geolokačních datech, nikoli data samotná.

Zároveň databáze neobsahují z důvodu anonymizace konkrétní údaje, pokud byla hodnota jevu nižší než 7. Všechny údaje jsou dále mírně zahlazovány v řádech maximálně jednotek procent, a to z důvodu znemožnění případného dopočtu nízkých nezveřejnitelných hodnot.

 

Možnosti využití dat ve veřejné správě

Data mají široké uplatnění napříč veřejnou správou, a to jak pro státní správu, její lokalizaci, organizaci a koordinaci, tak pro samosprávu na krajské i obecní úrovni.

  • Územní plánování a rozvojové koncepce
  • Lokalizace služeb veřejné správy
  • Dopravní plánování
  • Občanská vybavenost, veřejné služby a technická infrastruktura
  • Krizové řízení
  • Cestovní ruch

 

Podrobněji jsou příklady využití geolokačních dat mobilních operátorů v praxi veřejné správy popsány v této story mapě.