UGCNormal/tokenizer at master · avanco/UGCNormal

History

Name		Name	Last commit message	Last commit date
parent directory ..
data		data
Makefile		Makefile
README.txt		README.txt
help		help
lex.yy.c		lex.yy.c
webtok		webtok
webtok.lex		webtok.lex

README.txt

WebTok

***********************************

Author: Lucas Avanço
Date: 02/04/2014
Version: alpha

************************************

WebTok é um tokenizador desenvolvido para textos da Web, embora também possa
ser utilizado para textos de outra natureza.

************************************

- No diretório 'data' há alguns arquivos textos que você pode utilizar para
  testar o tokenizador WebTok.

************************************

- PASSOS PARA UTILIZAR O WebTok:
1. Em um terminal simplesmente rode o comando 'make' para compilar e gerar o
executável:
	$ make

2. O executável gerado espera uma entrada vinda da entrada padrão. Para
tokenizar um arquivo texto, rode assim:
	$ ./webtok < entrada.txt
O resultado é mostrado na saída padrão, no próprio terminal.
Para produzir um arquivo com o resultado da tokenização, faça:
	$ ./webtok < entrada.txt > saida.txt

************************************

Características:
- Desenvolvido utilizando a ferramenta geradora de analisadores léxicos GNU
  Flex 2.5
- Código gerado em C
- Trata espaços extras ou ausentes
- Identifica pontuação
- Não separa multi-words (i.e: 'custo-benefício')
- Não separa valores numéricos (i.e: '1.2', '3,99')
- Identifica Emoticons ( ':)', 'Xp', etc....)
- Independe de encoding do arquivo de entrada (latin1, utf-8, etc...)
- Identifica e separa os seguintes casos comuns em textos de web (512MB, 1024kb, etc...)
- Feito em GNU/Linux e para GNU/Linux, mas deve funcionar sem problemas em
  MS-Windows e MAC-OS :)

************************************

Mais:
Bugs encontrados podem ser reportados para [email protected]
Fico muito grato a quem puder reportar os problemas encontrados :)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tokenizer

tokenizer

README.txt

Files

tokenizer

Directory actions

More options

Directory actions

More options

Latest commit

History

tokenizer

Folders and files

parent directory

README.txt