Skip to content

Latest commit

 

History

History
 
 

preprocess

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

Preprocess 预处理

在预训练之前,我们需要对数据集(或称文料corpus)进行预处理,将文料中的文字透过分词器tokenizer进行编码,最后输出成能够投入预训练的数据集。