これは何？

この記事では、2021年に Google Brain が発表した Vision Transformer (ViT) に関する論文「AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE」を実装したもの。（解説記事：https://qiita.com/zisui-sukitarou/items/d990a9630ff2c7f4abf2 ）

各ファイルについて

論文内で紹介されている ViT モデルを実装したもの。

自作した ViT を使って、torchvision.datasets.CIFAR10 を識別する。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.gitignore		.gitignore
README.md		README.md
vit_model.py		vit_model.py
vit_valid.ipynb		vit_valid.ipynb