Miguel Fiandor Gutiérrez
- Intro
- Qué es?
- Qué datos vamos a usar?
- Enlaces importantes
- Documentación
- Descargar
- Instalar
- Tour
- Añadir docs
- Ejecutar
- Analizar docs
- Text
- NER
- Emails
- Buscar
- Varios: ordenar, favs, ...
- Filtros
- Búsquedas por metadata
- Búsquedas avanzadas
- Búsquedas por lotes
- Ejercicios
- Extras: plugins, soporte, traducción, ...
Datashare is a free open-source desktop application developed by non-profit International Consortium of Investigative Journalists (ICIJ).
Datashare allows investigative journalists to:
- access all their documents in one place locally on their computer while securing them from potential third-party interferences
- search pdfs, images, texts, spreadsheets, slides and any files, simultaneously
- automatically detect and filter by people, organizations and locations
- BOE: https://www.boe.es/datosabiertos/ejemplo_script_boe.php
- TCU
- Apache Lista de Correo
- Alcaldías
- Luxleaks: DocumentCloud
- Windows https://icij.gitbook.io/datashare/windows/install-datashare-on-windows
- Apple https://icij.gitbook.io/datashare/mac/install-datashare-on-mac
- Linux https://icij.gitbook.io/datashare/linux/install-datashare-on-linux
- NO RECOMENDADO usar las instalaciones con docker
- Desinstalar cualquier versión anterior
- Instalar nueva versión
- Parar Datashare
- Parar containedores docker de redis y elasticsearch
- Eliminar imagenes de dichas versiones
- Descargar un nuevo script de una versión nueva
- Dar persmisos de ejecución al script
- Ejecutar el script
- Parar Datashare
- Borrar ficheros
- Borrar índice elasticsearch
- Borrar cola redis
docker exec -ti datashare_elasticsearch_1 curl -XDELETE http://localhost:9200/local-datashare/
docker exec -ti datashare_redis_1 redis-cli
127.0.0.1:6379> FLUSHALL
docker stop datashare datashare_elasticsearch_1 datashare_redis_1
- Idioma
- Plugins
- Extensiones
Ver número de docs
- Extraer Nombres, Lugares y Organizaciones
- Filtrar
- Mostrar en vista de documento
- Borrar
Ver número de docs
- Texto extraído
- Vista previa
- Etiquetas y detalles
- Entidades identificadas
"alcaldes"
"andalucía"
"asociación"
"hotmail"
- Modo vista de resultados
Ctrl+F
- Ordenar documentos
- Favoritos
- Etiquetar documentos
- Recomendar documentos
- Favoritos
- Etiquetas
- Recomendado por
- Tipo de archivo
- Fechas de creación
- Idiomas
- Personas
- Organizaciones
- Ubicaciones
- Rutas
- Niveles de extracción
- Fecha de indexación
- mismo autor
- mismo lenguaje
- ...
https://icij.gitbook.io/datashare/all/search-with-operators
- Operadores de búsqueda: AND, OR, NOT
- Wildcards ? *
- Fuzziness ~
- Exact phrase ""
- Proximity ""~
- Boosting operators ""^ ()^
- Regex: ("Ada Lovelace" OR "Ado Lavelace") AND paris AND /...@.../
- Campos de metadata
- operadores >,=,<: metadata.tika_metadata_creation_date:>=2010-01-01
- rango de números: [min TO max] {min TO max}
- Ejemplo 1: Alcaldes csv
- Visitar un resultado
- Ejemplo 2: Alcaldes csv con proximidad 2
- Visitar un resultado
- Ejemplo 3: Alcaldes csv sin full phrase
- Filtrar los resultados obtenidos
- Ejemplo 4: Alcaldes csv con fuzzy 2
- Descargar resultados
- Ejemplo 5: Alcaldes csv en una ruta
- Ver preview de un BOE
- Aplicar filtro: de 01/01/2019 a 12/01/2020
- Aplicar filtro: de 01/01/2019 a 12/01/2020
- Aplicar filtro por metadata.tika_metadata_author de un doc
- Buscar por NE.location='pontevedra'
- Instalar plugin Email
- Ordenar valores en filtro Email por ocurrencia ascendente
- Fechas de creación para los pdf de la carpeta BOE
- Batch search
- Filtrar emails: solo de 'gmail'
- Filtrar emails: ¿hay algún hotmail?
- Añadir documentos
- Filtrar documentos
- Buscar documentos
- Busqueda con operadores y regex
- Etiquetar documentos
- Atajos de teclado
- Búsquedas masivas (por lotes)
- Plugins https://github.com/ICIJ/datashare/wiki/Client-%E2%80%BA-Plugins
- Extensions https://github.com/ICIJ/datashare/wiki/Backend-%E2%80%BA-Extensions
- Backend API
- Client API
- Client Hooks
- Client Widgets
- Client Components
- Widgets
- Filters
- Pages
- Others