この記事では、2021年に Google Brain が発表した Vision Transformer (ViT) に関する論文「AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE」を実装したもの。(解説記事:https://qiita.com/zisui-sukitarou/items/d990a9630ff2c7f4abf2 )
論文内で紹介されている ViT モデルを実装したもの。
自作した ViT を使って、torchvision.datasets.CIFAR10
を識別する。