Sobre

Repositório para coletar e processar texto de atos oficiais a partir de busca na API do Querido Diário

Arquivos gerados

Toda a lista segue a ordem de consumo, ou seja, o arquivo listado seguinte é produzido a partir do arquivo listado anterior, mesmo que em seções (1, 2, ...) diferentes

Em 1-resultados tem:

nome_do_arquivo + _bruto: resultados conforme o QD entrega
nome_do_arquivo + _filtro: resultados com colunas marcadas por palavras-chave de interesse
nome_do_arquivo + _repeticoes: resultados marcados casos o miolo dos excertos seja repetido
nome_do_arquivo + _proximidade: resultados marcados caso seus textos sejam parecidos (usando jaro_winkler_similarity)

Em 2-resultados_analisados tem:

nome_do_arquivo + _verificado: resultados lidos por humano e classificados quanto ao seu grau de adesão

Em 3-decretos tem:

arquivos TXT para cada decreto considerado

Em 4-segmentos_de_decretos tem:

arquivos JSON para cada decreto segmentado em parágrafos

Fluxo

Atualizar o arquivo criterios_de_pesquisa.py com as configurações da busca
Executar python3 main.py, que vai:

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
scripts_auxiliares		scripts_auxiliares
scripts_de_coleta		scripts_de_coleta
scripts_de_marcacoes		scripts_de_marcacoes
scripts_de_tratamento_de_texto		scripts_de_tratamento_de_texto
.gitignore		.gitignore
README.md		README.md
criterios_de_pesquisa.py		criterios_de_pesquisa.py
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sobre

Arquivos gerados

Fluxo

About

Releases

Packages

Languages

trevineju/quedenormas

Folders and files

Latest commit

History

Repository files navigation

Sobre

Arquivos gerados

Fluxo

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages