Repositório para coletar e processar texto de atos oficiais a partir de busca na API do Querido Diário
Toda a lista segue a ordem de consumo, ou seja, o arquivo listado seguinte é produzido a partir do arquivo listado anterior, mesmo que em seções (1, 2, ...) diferentes
- Em 1-resultados tem:
nome_do_arquivo + _bruto
: resultados conforme o QD entreganome_do_arquivo + _filtro
: resultados com colunas marcadas por palavras-chave de interessenome_do_arquivo + _repeticoes
: resultados marcados casos o miolo dos excertos seja repetidonome_do_arquivo + _proximidade
: resultados marcados caso seus textos sejam parecidos (usando jaro_winkler_similarity)
- Em 2-resultados_analisados tem:
nome_do_arquivo + _verificado
: resultados lidos por humano e classificados quanto ao seu grau de adesão
- Em 3-decretos tem:
- arquivos TXT para cada decreto considerado
- Em 4-segmentos_de_decretos tem:
- arquivos JSON para cada decreto segmentado em parágrafos
- Atualizar o arquivo criterios_de_pesquisa.py com as configurações da busca
- Executar
python3 main.py
, que vai: