Add SETR.

cq186 · May 27, 2021 · 038e99b · 038e99b
1 parent e2ff0b3
commit 038e99b
Showing 14 changed files with 1,042 additions and 24 deletions.
diff --git a/configs/_base_/cityscapes_769x769_setr.yml b/configs/_base_/cityscapes_769x769_setr.yml
@@ -0,0 +1,22 @@
+_base_: './cityscapes.yml'
+
+train_dataset:
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.25
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [769, 769]
+    - type: RandomHorizontalFlip
+    - type: RandomDistort
+      brightness_range: 0.5
+      contrast_range: 0.5
+      saturation_range: 0.5
+    - type: Normalize
+
+val_dataset:
+  transforms:
+    - type: Padding
+      target_size: [2048, 1024]
+    - type: Normalize
diff --git a/configs/setr/README.md b/configs/setr/README.md
@@ -0,0 +1,15 @@
+# Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
+
+## Reference
+
+> Zheng, Sixiao, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu et al. "Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers." arXiv preprint arXiv:2012.15840 (2020).
+
+## Performance
+
+### CityScapes
+
+| Model | Backbone | Head | Resolution | Training Iters | mIoU(slice) | Links |
+|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
+|Segmentation Transformer|Vision Transformer|Naive|769x769|40000|77.29%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/setr_naive_large_cityscapes_769x769_40k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/setr_naive_large_cityscapes_769x769_40k/train.log) \| [vdl]()|
+|Segmentation Transformer|Vision Transformer|PUP|769x769|40000|78.08%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/setr_pup_large_cityscapes_769x769_40k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/setr_pup_large_cityscapes_769x769_40k/train.log) \| [vdl]() |
+|Segmentation Transformer|Vision Transformer|MLA|769x769|40000|76.52%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/setr_mla_large_cityscapes_769x769_40k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/setr_mla_large_cityscapes_769x769_40k/train.log) \| [vdl]() |
diff --git a/configs/setr/setr_mla_large_cityscapes_769x769_40k.yml b/configs/setr/setr_mla_large_cityscapes_769x769_40k.yml
@@ -0,0 +1,33 @@
+_base_: '../_base_/cityscapes_769x769_setr.yml'
+
+model:
+  type: SegmentationTransformer
+  backbone:
+    type: ViT_large_patch16_384
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/vit_large_patch16_384.tar.gz
+  num_classes: 19
+  backbone_indices: [5, 11, 17, 23]
+  head: mla
+  align_corners: True
+
+optimizer:
+  weight_decay: 0.0
+
+lr_scheduler:
+  end_lr: 1.0e-4
+
+iters: 40000
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+  coef: [1, 0.4, 0.4, 0.4, 0.4]
+
+test_config:
+    is_slide: True
+    crop_size: [769, 769]
+    stride: [512, 512]
diff --git a/configs/setr/setr_naive_large_cityscapes_769x769_40k.yml b/configs/setr/setr_naive_large_cityscapes_769x769_40k.yml
@@ -0,0 +1,32 @@
+_base_: '../_base_/cityscapes_769x769_setr.yml'
+
+model:
+  type: SegmentationTransformer
+  backbone:
+    type: ViT_large_patch16_384
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/vit_large_patch16_384.tar.gz
+  num_classes: 19
+  backbone_indices: [9, 14, 19, 23]
+  head: naive
+  align_corners: True
+
+optimizer:
+  weight_decay: 0.0
+
+lr_scheduler:
+  end_lr: 1.0e-4
+
+iters: 40000
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+  coef: [1, 0.4, 0.4, 0.4]
+
+test_config:
+    is_slide: True
+    crop_size: [769, 769]
+    stride: [512, 512]
diff --git a/configs/setr/setr_pup_large_cityscapes_769x769_40k.yml b/configs/setr/setr_pup_large_cityscapes_769x769_40k.yml
@@ -0,0 +1,33 @@
+_base_: '../_base_/cityscapes_769x769_setr.yml'
+
+model:
+  type: SegmentationTransformer
+  backbone:
+    type: ViT_large_patch16_384
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/vit_large_patch16_384.tar.gz
+  num_classes: 19
+  backbone_indices: [9, 14, 19, 23]
+  head: pup
+  align_corners: True
+
+optimizer:
+  weight_decay: 0.0
+
+lr_scheduler:
+  end_lr: 1.0e-4
+
+iters: 40000
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+  coef: [1, 0.4, 0.4, 0.4, 0.4]
+
+test_config:
+    is_slide: True
+    crop_size: [769, 769]
+    stride: [512, 512]
diff --git a/paddleseg/core/train.py b/paddleseg/core/train.py
@@ -60,7 +60,8 @@ def train(model,
           num_workers=0,
           use_vdl=False,
           losses=None,
-          keep_checkpoint_max=5):
+          keep_checkpoint_max=5,
+          test_config=None):
     """
     Launch training.
 
@@ -77,9 +78,10 @@ def train(model,
         log_iters (int, optional): Display logging information at every log_iters. Default: 10.
         num_workers (int, optional): Num workers for data loader. Default: 0.
         use_vdl (bool, optional): Whether to record the data to VisualDL during training. Default: False.
-        losses (dict): A dict including 'types' and 'coef'. The length of coef should equal to 1 or len(losses['types']).
+        losses (dict, optional): A dict including 'types' and 'coef'. The length of coef should equal to 1 or len(losses['types']).
             The 'types' item is a list of object of paddleseg.models.losses while the 'coef' item is a list of the relevant coefficient.
         keep_checkpoint_max (int, optional): Maximum number of checkpoints to save. Default: 5.
+        test_config(dict, optional): Evaluation config.
     """
     model.train()
     nranks = paddle.distributed.ParallelEnv().nranks
@@ -204,8 +206,13 @@ def train(model,
             if (iter % save_interval == 0
                     or iter == iters) and (val_dataset is not None):
                 num_workers = 1 if num_workers > 0 else 0
+
+                if test_config is None:
+                    test_config = {}
+
                 mean_iou, acc, _, _, _ = evaluate(
-                    model, val_dataset, num_workers=num_workers)
+                    model, val_dataset, num_workers=num_workers, **test_config)
+
                 model.train()
 
             if (iter % save_interval == 0 or iter == iters) and local_rank == 0:

diff --git a/paddleseg/cvlibs/config.py b/paddleseg/cvlibs/config.py
@@ -349,6 +349,10 @@ def _load_object(self, cfg: dict) -> Any:
 
         return component(**params)
 
+    @property
+    def test_config(self) -> Dict:
+        return self.dic.get('test_config', {})
+
     @property
     def export_config(self) -> Dict:
         return self.dic.get('export', {})

diff --git a/paddleseg/models/__init__.py b/paddleseg/models/__init__.py
@@ -35,5 +35,6 @@
 from .emanet import *
 from .isanet import *
 from .dnlnet import *
+from .setr import *
 from .sfnet import *
 from .shufflenet_slim import ShuffleNetV2
diff --git a/paddleseg/models/backbones/__init__.py b/paddleseg/models/backbones/__init__.py
@@ -16,3 +16,4 @@
 from .resnet_vd import *
 from .xception_deeplab import *
 from .mobilenetv3 import *
+from .vit import *