Skip to content

Materiály pro workshop na FF UK 31. 10. 2024 v rámci série Vybraná témata analýzy dat

Notifications You must be signed in to change notification settings

petrbouchal/ffuk-r-publicdata

Repository files navigation

Kde vzít otevřená data a jak s nimi pracovat efektivně

Materiály pro workshop na FF UK 31. 10. 2024 v rámci série Vybraná témata analýzy dat. Záznam na Youtube. Kromě přístupu k otevřeným datům veřejného sektoru jsou ve slidech a příkladech pokryty i nástroje na práci s velkým množstvím dat: arrow, duckdb a knihovny v R pro rychlou transformaci dat.

Tento repozitář obsahuje podklady pro workshop o veřejných datech v R:

Co dělají které soubory:

  • 00_preprocess.R: předpřipravuje podmnožinu dat, která by trvala příliš dlouho (číselník organizací) při workshopu. Není třeba pouštět.

  • data-processed/orgs_proc.parquet: předpřipravený číselník organizací

  • 0_setup.R: instalace potřebných balíků, stažení, načtení a přeuložení dat

  • 1_explorace.R: kód na zkoušení hledání v katalogu a načtení dat ČSÚ

  • 2_ukol.R: skript i s komentáři pro řešení ukázkového úkolu

  • 2_ukol.qmd: totéž ve formě Quarto dokumentu - vygenerovaná verze online

  • 3_ukol-usporne.R: úkol bez komentářů a náhledů dat

  • 4_eurostat.R: řešení úkolu k mezinárodnímu srovnání

  • 5_out-of-memory.R: možnosti, jak s daty pracovat s využitím Arrow a parquet.

  • index.qmd: zdrojový soubor slides

  • duckplyr.R + dtrplyr.R: nepoužito nehotové, zachováno pro případné další využití

Dependencies jsou zachyceny v renv.lock, ale systém renv je vypnutý. Lze zapnout pomocí renv::activate() a následně renv::restore().

About

Materiály pro workshop na FF UK 31. 10. 2024 v rámci série Vybraná témata analýzy dat

Resources

Stars

Watchers

Forks