Skip to content

Pipeline de procesamiento de datos y datasets para entrenamiento de PictoNet

Notifications You must be signed in to change notification settings

hspencer/pictonet-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PictoNet Data

Sistema de gestión y procesamiento de datos para PictoNet. Maneja la recolección, limpieza y preparación de datasets para el entrenamiento.

Componentes Principales

📁 collectors/

  • quickdraw.py: Integración con Google Quick Draw Dataset
  • arasaac.py: Colector de pictogramas ARASAAC
  • openmoji.py: Procesamiento de OpenMoji

📁 processors/

  • svg_cleaner.py: Limpieza y normalización de SVGs
  • normalizer.py: Estandarización de formatos

📁 datasets/

  • generator.py: Generación de datasets de entrenamiento
  • validator.py: Validación de calidad de datos

📁 metadata/

  • labels.json: Etiquetas y categorías
  • mappings.json: Mapeos entre conceptos y pictogramas

Fuentes de Datos Soportadas

  • Google Quick Draw Dataset
  • ARASAAC
  • OpenMoji
  • Material Design Icons

Instalación

poetry install

Uso

from pictonet_data.collectors import QuickDrawCollector
from pictonet_data.processors import SVGCleaner

# Recolectar datos
collector = QuickDrawCollector()
raw_data = collector.collect("chair")

# Procesar SVGs
cleaner = SVGCleaner()
processed_data = cleaner.clean(raw_data)

Pipeline de Datos

  1. Recolección de fuentes múltiples
  2. Limpieza y normalización
  3. Validación de calidad
  4. Generación de dataset final

About

Pipeline de procesamiento de datos y datasets para entrenamiento de PictoNet

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages