README.md

Preprocess 预处理

在预训练之前，我们需要对数据集(或称文料corpus)进行预处理，将文料中的文字透过分词器tokenizer进行编码，最后输出成能够投入预训练的数据集。