use at::optional to pass in None for gridencoder and shencoder

raipranav384 · Sep 5, 2022 · f37c5ca · f37c5ca
1 parent c68e05d
commit f37c5ca
Show file tree

Hide file tree

Showing 7 changed files with 67 additions and 78 deletions.
diff --git a/gridencoder/grid.py b/gridencoder/grid.py
@@ -44,16 +44,15 @@ def forward(ctx, inputs, embeddings, offsets, per_level_scale, base_resolution,
  if calc_grad_inputs:
  dy_dx = torch.empty(B, L * D * C, device=inputs.device, dtype=embeddings.dtype)
  else:
- dy_dx = torch.empty(1, device=inputs.device, dtype=embeddings.dtype) # placeholder... TODO: a better way?
+ dy_dx = None
 
- _backend.grid_encode_forward(inputs, embeddings, offsets, outputs, B, D, C, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners)
+ _backend.grid_encode_forward(inputs, embeddings, offsets, outputs, B, D, C, L, S, H, dy_dx, gridtype, align_corners)
 
  # permute back to [B, L * C]
  outputs = outputs.permute(1, 0, 2).reshape(B, L * C)
 
  ctx.save_for_backward(inputs, embeddings, offsets, dy_dx)
  ctx.dims = [B, D, C, L, S, H, gridtype]
- ctx.calc_grad_inputs = calc_grad_inputs
  ctx.align_corners = align_corners
 
  return outputs
@@ -65,26 +64,25 @@ def backward(ctx, grad):
 
  inputs, embeddings, offsets, dy_dx = ctx.saved_tensors
  B, D, C, L, S, H, gridtype = ctx.dims
- calc_grad_inputs = ctx.calc_grad_inputs
  align_corners = ctx.align_corners
 
  # grad: [B, L * C] --> [L, B, C]
  grad = grad.view(B, L, C).permute(1, 0, 2).contiguous()
 
  grad_embeddings = torch.zeros_like(embeddings)
 
- if calc_grad_inputs:
+ if dy_dx is not None:
  grad_inputs = torch.zeros_like(inputs, dtype=embeddings.dtype)
  else:
- grad_inputs = torch.zeros(1, device=inputs.device, dtype=embeddings.dtype)
+ grad_inputs = None
 
- _backend.grid_encode_backward(grad, inputs, embeddings, offsets, grad_embeddings, B, D, C, L, S, H, calc_grad_inputs, dy_dx, grad_inputs, gridtype, align_corners)
+ _backend.grid_encode_backward(grad, inputs, embeddings, offsets, grad_embeddings, B, D, C, L, S, H, dy_dx, grad_inputs, gridtype, align_corners)
 
- if calc_grad_inputs:
+ if dy_dx is not None:
  grad_inputs = grad_inputs.to(inputs.dtype)
- return grad_inputs, grad_embeddings, None, None, None, None, None, None
- else:
-  return None, grad_embeddings, None, None, None, None, None, None
+
+ return grad_inputs, grad_embeddings, None, None, None, None, None, None
+
 
 
 grid_encode = _grid_encode.apply

diff --git a/gridencoder/src/gridencoder.cu b/gridencoder/src/gridencoder.cu
@@ -79,7 +79,6 @@ __global__ void kernel_grid(
  const int * __restrict__ offsets, 
  scalar_t * __restrict__ outputs, 
  const uint32_t B, const uint32_t L, const float S, const uint32_t H,
- const bool calc_grad_inputs, 
  scalar_t * __restrict__ dy_dx,
  const uint32_t gridtype,
  const bool align_corners
@@ -109,7 +108,7 @@ __global__ void kernel_grid(
  for (uint32_t ch = 0; ch < C; ch++) {
  outputs[ch] = 0; 
  }
- if (calc_grad_inputs) {
+ if (dy_dx) {
  dy_dx += b * D * L * C + level * D * C; // B L D C
  #pragma unroll
  for (uint32_t d = 0; d < D; d++) {
@@ -175,9 +174,9 @@ __global__ void kernel_grid(
  outputs[ch] = results[ch]; 
  }
 
- // prepare dy_dx for calc_grad_inputs
+ // prepare dy_dx
  // differentiable (soft) indexing: https://discuss.pytorch.org/t/differentiable-indexing/17647/9
- if (calc_grad_inputs) {
+ if (dy_dx) {
 
  dy_dx += b * D * L * C + level * D * C; // B L D C
 
@@ -344,14 +343,14 @@ __global__ void kernel_input_backward(
 
 
 template <typename scalar_t, uint32_t D>
-void kernel_grid_wrapper(const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *outputs, const uint32_t B, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, scalar_t *dy_dx, const uint32_t gridtype, const bool align_corners) {
+void kernel_grid_wrapper(const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *outputs, const uint32_t B, const uint32_t C, const uint32_t L, const float S, const uint32_t H, scalar_t *dy_dx, const uint32_t gridtype, const bool align_corners) {
  static constexpr uint32_t N_THREAD = 512;
  const dim3 blocks_hashgrid = { div_round_up(B, N_THREAD), L, 1 };
  switch (C) {
- case 1: kernel_grid<scalar_t, D, 1><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 2: kernel_grid<scalar_t, D, 2><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 4: kernel_grid<scalar_t, D, 4><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 8: kernel_grid<scalar_t, D, 8><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
+ case 1: kernel_grid<scalar_t, D, 1><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, dy_dx, gridtype, align_corners); break;
+ case 2: kernel_grid<scalar_t, D, 2><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, dy_dx, gridtype, align_corners); break;
+ case 4: kernel_grid<scalar_t, D, 4><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, dy_dx, gridtype, align_corners); break;
+ case 8: kernel_grid<scalar_t, D, 8><<<blocks_hashgrid, N_THREAD>>>(inputs, embeddings, offsets, outputs, B, L, S, H, dy_dx, gridtype, align_corners); break;
  default: throw std::runtime_error{"GridEncoding: C must be 1, 2, 4, or 8."};
  }
 }
@@ -363,39 +362,38 @@ void kernel_grid_wrapper(const float *inputs, const scalar_t *embeddings, const
 // H: base resolution
 // dy_dx: [B, L * D * C]
 template <typename scalar_t>
-void grid_encode_forward_cuda(const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *outputs, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, scalar_t *dy_dx, const uint32_t gridtype, const bool align_corners) {
+void grid_encode_forward_cuda(const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *outputs, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, scalar_t *dy_dx, const uint32_t gridtype, const bool align_corners) {
  switch (D) {
- case 1: kernel_grid_wrapper<scalar_t, 1>(inputs, embeddings, offsets, outputs, B, C, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 2: kernel_grid_wrapper<scalar_t, 2>(inputs, embeddings, offsets, outputs, B, C, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 3: kernel_grid_wrapper<scalar_t, 3>(inputs, embeddings, offsets, outputs, B, C, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 4: kernel_grid_wrapper<scalar_t, 4>(inputs, embeddings, offsets, outputs, B, C, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- case 5: kernel_grid_wrapper<scalar_t, 5>(inputs, embeddings, offsets, outputs, B, C, L, S, H, calc_grad_inputs, dy_dx, gridtype, align_corners); break;
- default: throw std::runtime_error{"GridEncoding: D must be 1, 2, 3, 4, or 5."};
+ case 2: kernel_grid_wrapper<scalar_t, 2>(inputs, embeddings, offsets, outputs, B, C, L, S, H, dy_dx, gridtype, align_corners); break;
+ case 3: kernel_grid_wrapper<scalar_t, 3>(inputs, embeddings, offsets, outputs, B, C, L, S, H, dy_dx, gridtype, align_corners); break;
+ case 4: kernel_grid_wrapper<scalar_t, 4>(inputs, embeddings, offsets, outputs, B, C, L, S, H, dy_dx, gridtype, align_corners); break;
+ case 5: kernel_grid_wrapper<scalar_t, 5>(inputs, embeddings, offsets, outputs, B, C, L, S, H, dy_dx, gridtype, align_corners); break;
+ default: throw std::runtime_error{"GridEncoding: C must be 1, 2, 4, or 8."};
  }
 
 }
 
 template <typename scalar_t, uint32_t D>
-void kernel_grid_backward_wrapper(const scalar_t *grad, const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *grad_embeddings, const uint32_t B, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, scalar_t *dy_dx, scalar_t *grad_inputs, const uint32_t gridtype, const bool align_corners) {
+void kernel_grid_backward_wrapper(const scalar_t *grad, const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *grad_embeddings, const uint32_t B, const uint32_t C, const uint32_t L, const float S, const uint32_t H, scalar_t *dy_dx, scalar_t *grad_inputs, const uint32_t gridtype, const bool align_corners) {
  static constexpr uint32_t N_THREAD = 256;
  const uint32_t N_C = std::min(2u, C); // n_features_per_thread
  const dim3 blocks_hashgrid = { div_round_up(B * C / N_C, N_THREAD), L, 1 };
  switch (C) {
  case 1: 
  kernel_grid_backward<scalar_t, D, 1, 1><<<blocks_hashgrid, N_THREAD>>>(grad, inputs, embeddings, offsets, grad_embeddings, B, L, S, H, gridtype, align_corners); 
- if (calc_grad_inputs) kernel_input_backward<scalar_t, D, 1><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
+ if (dy_dx) kernel_input_backward<scalar_t, D, 1><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
  break;
  case 2: 
  kernel_grid_backward<scalar_t, D, 2, 2><<<blocks_hashgrid, N_THREAD>>>(grad, inputs, embeddings, offsets, grad_embeddings, B, L, S, H, gridtype, align_corners);
- if (calc_grad_inputs) kernel_input_backward<scalar_t, D, 2><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
+ if (dy_dx) kernel_input_backward<scalar_t, D, 2><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
  break;
  case 4: 
  kernel_grid_backward<scalar_t, D, 4, 2><<<blocks_hashgrid, N_THREAD>>>(grad, inputs, embeddings, offsets, grad_embeddings, B, L, S, H, gridtype, align_corners);
- if (calc_grad_inputs) kernel_input_backward<scalar_t, D, 4><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
+ if (dy_dx) kernel_input_backward<scalar_t, D, 4><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
  break;
  case 8: 
  kernel_grid_backward<scalar_t, D, 8, 2><<<blocks_hashgrid, N_THREAD>>>(grad, inputs, embeddings, offsets, grad_embeddings, B, L, S, H, gridtype, align_corners);
- if (calc_grad_inputs) kernel_input_backward<scalar_t, D, 8><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
+ if (dy_dx) kernel_input_backward<scalar_t, D, 8><<<div_round_up(B * D, N_THREAD), N_THREAD>>>(grad, dy_dx, grad_inputs, B, L);
  break;
  default: throw std::runtime_error{"GridEncoding: C must be 1, 2, 4, or 8."};
  }
@@ -409,72 +407,71 @@ void kernel_grid_backward_wrapper(const scalar_t *grad, const float *inputs, con
 // grad_embeddings: [sO, C]
 // H: base resolution
 template <typename scalar_t>
-void grid_encode_backward_cuda(const scalar_t *grad, const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *grad_embeddings, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, scalar_t *dy_dx, scalar_t *grad_inputs, const uint32_t gridtype, const bool align_corners) {
+void grid_encode_backward_cuda(const scalar_t *grad, const float *inputs, const scalar_t *embeddings, const int *offsets, scalar_t *grad_embeddings, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, scalar_t *dy_dx, scalar_t *grad_inputs, const uint32_t gridtype, const bool align_corners) {
  switch (D) {
- case 1: kernel_grid_backward_wrapper<scalar_t, 1>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, calc_grad_inputs, dy_dx, grad_inputs, gridtype, align_corners); break;
- case 2: kernel_grid_backward_wrapper<scalar_t, 2>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, calc_grad_inputs, dy_dx, grad_inputs, gridtype, align_corners); break;
- case 3: kernel_grid_backward_wrapper<scalar_t, 3>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, calc_grad_inputs, dy_dx, grad_inputs, gridtype, align_corners); break;
- case 4: kernel_grid_backward_wrapper<scalar_t, 4>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, calc_grad_inputs, dy_dx, grad_inputs, gridtype, align_corners); break;
- case 5: kernel_grid_backward_wrapper<scalar_t, 5>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, calc_grad_inputs, dy_dx, grad_inputs, gridtype, align_corners); break;
- default: throw std::runtime_error{"GridEncoding: D must be 1, 2, 3, 4, or 5."};
+ case 2: kernel_grid_backward_wrapper<scalar_t, 2>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, dy_dx, grad_inputs, gridtype, align_corners); break;
+ case 3: kernel_grid_backward_wrapper<scalar_t, 3>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, dy_dx, grad_inputs, gridtype, align_corners); break;
+ case 4: kernel_grid_backward_wrapper<scalar_t, 4>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, dy_dx, grad_inputs, gridtype, align_corners); break;
+ case 5: kernel_grid_backward_wrapper<scalar_t, 5>(grad, inputs, embeddings, offsets, grad_embeddings, B, C, L, S, H, dy_dx, grad_inputs, gridtype, align_corners); break;
+ default: throw std::runtime_error{"GridEncoding: C must be 1, 2, 4, or 8."};
  }
 }
 
 
 
-void grid_encode_forward(const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor outputs, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, at::Tensor dy_dx, const uint32_t gridtype, const bool align_corners) {
+void grid_encode_forward(const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor outputs, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, at::optional<at::Tensor> dy_dx, const uint32_t gridtype, const bool align_corners) {
  CHECK_CUDA(inputs);
  CHECK_CUDA(embeddings);
  CHECK_CUDA(offsets);
  CHECK_CUDA(outputs);
- CHECK_CUDA(dy_dx);
+ // CHECK_CUDA(dy_dx);
 
  CHECK_CONTIGUOUS(inputs);
  CHECK_CONTIGUOUS(embeddings);
  CHECK_CONTIGUOUS(offsets);
  CHECK_CONTIGUOUS(outputs);
- CHECK_CONTIGUOUS(dy_dx);
+ // CHECK_CONTIGUOUS(dy_dx);
 
  CHECK_IS_FLOATING(inputs);
  CHECK_IS_FLOATING(embeddings);
  CHECK_IS_INT(offsets);
  CHECK_IS_FLOATING(outputs);
- CHECK_IS_FLOATING(dy_dx);
+ // CHECK_IS_FLOATING(dy_dx);
 
  AT_DISPATCH_FLOATING_TYPES_AND_HALF(
  embeddings.scalar_type(), "grid_encode_forward", ([&] {
- grid_encode_forward_cuda<scalar_t>(inputs.data_ptr<float>(), embeddings.data_ptr<scalar_t>(), offsets.data_ptr<int>(), outputs.data_ptr<scalar_t>(), B, D, C, L, S, H, calc_grad_inputs, dy_dx.data_ptr<scalar_t>(), gridtype, align_corners);
+ grid_encode_forward_cuda<scalar_t>(inputs.data_ptr<float>(), embeddings.data_ptr<scalar_t>(), offsets.data_ptr<int>(), outputs.data_ptr<scalar_t>(), B, D, C, L, S, H, dy_dx.has_value() ? dy_dx.value().data_ptr<scalar_t>() : nullptr, gridtype, align_corners);
  }));
 }
 
-void grid_encode_backward(const at::Tensor grad, const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor grad_embeddings, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, const at::Tensor dy_dx, at::Tensor grad_inputs, const uint32_t gridtype, const bool align_corners) {
+void grid_encode_backward(const at::Tensor grad, const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor grad_embeddings, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const at::optional<at::Tensor> dy_dx, at::optional<at::Tensor> grad_inputs, const uint32_t gridtype, const bool align_corners) {
  CHECK_CUDA(grad);
  CHECK_CUDA(inputs);
  CHECK_CUDA(embeddings);
  CHECK_CUDA(offsets);
  CHECK_CUDA(grad_embeddings);
- CHECK_CUDA(dy_dx);
- CHECK_CUDA(grad_inputs);
+ // CHECK_CUDA(dy_dx);
+ // CHECK_CUDA(grad_inputs);
 
  CHECK_CONTIGUOUS(grad);
  CHECK_CONTIGUOUS(inputs);
  CHECK_CONTIGUOUS(embeddings);
  CHECK_CONTIGUOUS(offsets);
  CHECK_CONTIGUOUS(grad_embeddings);
- CHECK_CONTIGUOUS(dy_dx);
- CHECK_CONTIGUOUS(grad_inputs);
+ // CHECK_CONTIGUOUS(dy_dx);
+ // CHECK_CONTIGUOUS(grad_inputs);
 
  CHECK_IS_FLOATING(grad);
  CHECK_IS_FLOATING(inputs);
  CHECK_IS_FLOATING(embeddings);
  CHECK_IS_INT(offsets);
  CHECK_IS_FLOATING(grad_embeddings);
- CHECK_IS_FLOATING(dy_dx);
- CHECK_IS_FLOATING(grad_inputs);
+ // CHECK_IS_FLOATING(dy_dx);
+ // CHECK_IS_FLOATING(grad_inputs);
 
  AT_DISPATCH_FLOATING_TYPES_AND_HALF(
  grad.scalar_type(), "grid_encode_backward", ([&] {
- grid_encode_backward_cuda<scalar_t>(grad.data_ptr<scalar_t>(), inputs.data_ptr<float>(), embeddings.data_ptr<scalar_t>(), offsets.data_ptr<int>(), grad_embeddings.data_ptr<scalar_t>(), B, D, C, L, S, H, calc_grad_inputs, dy_dx.data_ptr<scalar_t>(), grad_inputs.data_ptr<scalar_t>(), gridtype, align_corners);
+ grid_encode_backward_cuda<scalar_t>(grad.data_ptr<scalar_t>(), inputs.data_ptr<float>(), embeddings.data_ptr<scalar_t>(), offsets.data_ptr<int>(), grad_embeddings.data_ptr<scalar_t>(), B, D, C, L, S, H, dy_dx.has_value() ? dy_dx.value().data_ptr<scalar_t>() : nullptr, grad_inputs.has_value() ? grad_inputs.value().data_ptr<scalar_t>() : nullptr, gridtype, align_corners);
  }));
 
 }
diff --git a/gridencoder/src/gridencoder.h b/gridencoder/src/gridencoder.h
@@ -9,7 +9,7 @@
 // offsets: [L + 1], uint32_t
 // outputs: [B, L * C], float
 // H: base resolution
-void grid_encode_forward(const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor outputs, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, at::Tensor dy_dx, const uint32_t gridtype, const bool align_corners);
-void grid_encode_backward(const at::Tensor grad, const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor grad_embeddings, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const bool calc_grad_inputs, const at::Tensor dy_dx, at::Tensor grad_inputs, const uint32_t gridtype, const bool align_corners);
+void grid_encode_forward(const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor outputs, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, at::optional<at::Tensor> dy_dx, const uint32_t gridtype, const bool align_corners);
+void grid_encode_backward(const at::Tensor grad, const at::Tensor inputs, const at::Tensor embeddings, const at::Tensor offsets, at::Tensor grad_embeddings, const uint32_t B, const uint32_t D, const uint32_t C, const uint32_t L, const float S, const uint32_t H, const at::optional<at::Tensor> dy_dx, at::optional<at::Tensor> grad_inputs, const uint32_t gridtype, const bool align_corners);
 
 #endif