Merge pull request Stability-AI#89 from Stability-AI/dango.patch.atte…

…n_overflow * Force cast to fp32 to avoid atten layer overflow
maosatgithub · Dec 7, 2022 · 8bde0cf · 8bde0cf
2 parents f547c4a + e1797ae
commit 8bde0cf
Showing 1 changed file with 12 additions and 2 deletions.
diff --git a/ldm/modules/attention.py b/ldm/modules/attention.py
@@ -16,6 +16,9 @@
 except:
     XFORMERS_IS_AVAILBLE = False
 
+# CrossAttn precision handling
+import os
+_ATTN_PRECISION = os.environ.get("ATTN_PRECISION", "fp32")
 
 def exists(val):
     return val is not None
@@ -167,9 +170,16 @@ def forward(self, x, context=None, mask=None):
 
         q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> (b h) n d', h=h), (q, k, v))
 
-        sim = einsum('b i d, b j d -> b i j', q, k) * self.scale
+        # force cast to fp32 to avoid overflowing
+        if _ATTN_PRECISION =="fp32":
+            with torch.autocast(enabled=False, device_type = 'cuda'):
+                q, k = q.float(), k.float()
+                sim = einsum('b i d, b j d -> b i j', q, k) * self.scale
+        else:
+            sim = einsum('b i d, b j d -> b i j', q, k) * self.scale
+
         del q, k
-
+    
         if exists(mask):
             mask = rearrange(mask, 'b ... -> b (...)')
             max_neg_value = -torch.finfo(sim.dtype).max