SmilesTransformer/data/chembl_30 at main · gmattedi/SmilesTransformer

History

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
chembl_30_chemreps_proc.csv.gz		chembl_30_chemreps_proc.csv.gz
chembl_30_chemreps_proc_test.csv.gz		chembl_30_chemreps_proc_test.csv.gz
chembl_30_chemreps_proc_train.csv.gz		chembl_30_chemreps_proc_train.csv.gz
chembl_30_chemreps_proc_valid.csv.gz		chembl_30_chemreps_proc_valid.csv.gz
process_smiles.py		process_smiles.py

README.md

Processed ChEMBL30 chemreps

python ProcessLibrary.py \
    -i chembl_30_chemreps.csv \
    -o chembl_30_chemreps_proc.smi \
    -s SMILES -id name -o_sep ' ' --chunk_size 10000 --max_len 80

That is:

Dropping SMILES > 80 chars, desalting, neutralising, canonicalising
Deduplicated by SMILES
Keep SMILES that only contain tokens with more than 1000 occurrences across the corpus
train_test_split with sklearn (0.95 train, 0.025 valid, 0.025 test)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chembl_30

chembl_30

README.md

Files

chembl_30

Directory actions

More options

Directory actions

More options

Latest commit

History

chembl_30

Folders and files

parent directory

README.md