We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
在预训练之前,我们需要对数据集(或称文料corpus)进行预处理,将文料中的文字透过分词器tokenizer进行编码,最后输出成能够投入预训练的数据集。