Not ugly enough

bernhardmgruber · bernhardmgruber · commit 8bd87087ab15 · 2025-11-13T10:33:08.000+01:00
diff --git a/libcudacxx/include/cuda/__memcpy_async/cp_async_bulk_shared_global.h b/libcudacxx/include/cuda/__memcpy_async/cp_async_bulk_shared_global.h
@@ -51,8 +51,8 @@ using namespace __v1;
 
 _CCCL_BEGIN_NAMESPACE_CUDA
 
-template <typename Group>
-[[nodiscard]] _CCCL_DEVICE _CCCL_FORCEINLINE unsigned int __thread_rank(const Group& __g)
+template <typename _Group>
+[[nodiscard]] _CCCL_DEVICE _CCCL_FORCEINLINE unsigned int __thread_rank(const _Group& __g)
 {
   return __g.thread_rank();
 }
@@ -63,10 +63,10 @@ __elect_from_group(const cooperative_groups::thread_block& __g) noexcept
 {
   // Cannot call __g.thread_rank(), because we only forward declared the thread_block type
   // cooperative groups (and we here) maps a multidimensional thread id into the thread rank the same way as warps do
-  const unsigned int tid             = threadIdx.z * blockDim.y * blockDim.x + threadIdx.y * blockDim.x + threadIdx.x;
-  const unsigned int warp_id         = tid / 32;
-  const unsigned int uniform_warp_id = __shfl_sync(0xFFFFFFFF, warp_id, 0); // broadcast from lane 0
-  return uniform_warp_id == 0 && ::cuda::ptx::elect_sync(0xFFFFFFFF); // elect a leader thread among warp 0
+  const unsigned int __tid             = threadIdx.z * blockDim.y * blockDim.x + threadIdx.y * blockDim.x + threadIdx.x;
+  const unsigned int __warp_id         = __tid / 32;
+  const unsigned int __uniform_warp_id = __shfl_sync(0xFFFFFFFF, __warp_id, 0); // broadcast from lane 0
+  return __uniform_warp_id == 0 && ::cuda::ptx::elect_sync(0xFFFFFFFF); // elect a leader thread among warp 0
 }
 
 // elect from a single warp

Original file line number	Diff line number	Diff line change
`@@ -51,8 +51,8 @@ using namespace __v1;`
`51`	`51`
`52`	`52`	`_CCCL_BEGIN_NAMESPACE_CUDA`
`53`	`53`
`54`		`-template <typename Group>`
`55`		`-[[nodiscard]] _CCCL_DEVICE _CCCL_FORCEINLINE unsigned int __thread_rank(const Group& __g)`
	`54`	`+template <typename _Group>`
	`55`	`+[[nodiscard]] _CCCL_DEVICE _CCCL_FORCEINLINE unsigned int __thread_rank(const _Group& __g)`
`56`	`56`	`{`
`57`	`57`	`return __g.thread_rank();`
`58`	`58`	`}`
`@@ -63,10 +63,10 @@ __elect_from_group(const cooperative_groups::thread_block& __g) noexcept`
`63`	`63`	`{`
`64`	`64`	`// Cannot call __g.thread_rank(), because we only forward declared the thread_block type`
`65`	`65`	`// cooperative groups (and we here) maps a multidimensional thread id into the thread rank the same way as warps do`
`66`		`- const unsigned int tid = threadIdx.z * blockDim.y * blockDim.x + threadIdx.y * blockDim.x + threadIdx.x;`
`67`		`- const unsigned int warp_id = tid / 32;`
`68`		`- const unsigned int uniform_warp_id = __shfl_sync(0xFFFFFFFF, warp_id, 0); // broadcast from lane 0`
`69`		`- return uniform_warp_id == 0 && ::cuda::ptx::elect_sync(0xFFFFFFFF); // elect a leader thread among warp 0`
	`66`	`+ const unsigned int __tid = threadIdx.z * blockDim.y * blockDim.x + threadIdx.y * blockDim.x + threadIdx.x;`
	`67`	`+ const unsigned int __warp_id = __tid / 32;`
	`68`	`+ const unsigned int __uniform_warp_id = __shfl_sync(0xFFFFFFFF, __warp_id, 0); // broadcast from lane 0`
	`69`	`+ return __uniform_warp_id == 0 && ::cuda::ptx::elect_sync(0xFFFFFFFF); // elect a leader thread among warp 0`
`70`	`70`	`}`
`71`	`71`
`72`	`72`	`// elect from a single warp`