intel
diff --git a/‎examples/00_bmg_gemm/legacy/00_bmg_gemm_padded.cpp‎
Lines changed: 467 additions & 0 deletions b/‎examples/00_bmg_gemm/legacy/00_bmg_gemm_padded.cpp‎
Lines changed: 467 additions & 0 deletions
diff --git a/‎examples/00_bmg_gemm/legacy/00_bmg_gemm_with_sycl_queue.cpp‎
Lines changed: 414 additions & 0 deletions b/‎examples/00_bmg_gemm/legacy/00_bmg_gemm_with_sycl_queue.cpp‎
Lines changed: 414 additions & 0 deletions
diff --git a/‎examples/00_bmg_gemm/legacy/CMakeLists.txt‎
Lines changed: 16 additions & 0 deletions b/‎examples/00_bmg_gemm/legacy/CMakeLists.txt‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎examples/05_bmg_gemm_with_epilogues/05_bmg_gemm_with_epilogue_softmax.cpp‎
Lines changed: 14 additions & 29 deletions b/‎examples/05_bmg_gemm_with_epilogues/05_bmg_gemm_with_epilogue_softmax.cpp‎
Lines changed: 14 additions & 29 deletions
diff --git a/‎examples/05_bmg_gemm_with_epilogues/05_bmg_gemm_with_epilogue_splitk.cpp‎
Lines changed: 6 additions & 14 deletions b/‎examples/05_bmg_gemm_with_epilogues/05_bmg_gemm_with_epilogue_splitk.cpp‎
Lines changed: 6 additions & 14 deletions
diff --git a/‎examples/05_bmg_gemm_with_epilogues/05_bmg_gemm_with_per_row_bias.cpp‎
Lines changed: 14 additions & 11 deletions b/‎examples/05_bmg_gemm_with_epilogues/05_bmg_gemm_with_per_row_bias.cpp‎
Lines changed: 14 additions & 11 deletions
@@ -39,3 +39,19 @@ cutlass_example_add_executable(
   TEST_LARGE
   TEST_SMALL_SHAPE
 )
+
+set(TEST_SMALL_SHAPE_PADDABLE --m=1 --n=1 --k=2 --l=2)
+cutlass_example_add_executable(
+  00_bmg_gemm_padded_legacy
+  00_bmg_gemm_padded.cpp
+  TEST_COMMAND_OPTIONS
+  TEST_BATCHES
+  TEST_SMALL_SHAPE_PADDABLE
+)
+
+cutlass_example_add_executable(
+  00_bmg_gemm_with_sycl_queue_legacy
+  00_bmg_gemm_with_sycl_queue.cpp
+  TEST_COMMAND_OPTIONS
+  TEST_BATCHES
+)
@@ -402,54 +402,39 @@ int main(int argc, const char** argv)
   using LayoutC = cutlass::layout::RowMajor;
   using LayoutD = cutlass::layout::RowMajor;
 
-  // using GmemTiledCopyA = XE_2D_U16x8x16_LD_N;
-<<<<<<< HEAD
-  using GmemTiledCopyA = XE_LOAD_2D<16, 8, 16>;
-  // using GmemTiledCopyA = void;
-  // using GmemTiledCopyB = XE_2D_U16x16x16_LD_V;
-  using GmemTiledCopyB = XE_LOAD_2D_VNNI<16, 16, 16>;
-  // using GmemTiledCopyB = void;
-=======
-  using GmemTiledCopyA = void;
-  // using GmemTiledCopyB = XE_2D_U16x16x16_LD_V;
-  using GmemTiledCopyB = void;
->>>>>>> afa071e0 (epilogue test)
+  using GmemTiledCopyA = XE_2D_U16x8x16_LD_N;
+  using GmemTiledCopyB = XE_2D_U16x16x16_LD_V;
 
   // Workgroup-level tile
   using TileShape = Shape<_32, _512, _32>;
 
-  // using TiledMma =
-      // typename TiledMMAHelper<MMA_Atom<XE_8x16x16_F32BF16BF16F32_TT>, Layout<TileShape>,
-                                    // Layout<Shape<_2, _16, _1>, Stride<_16, _1, _0>>>::TiledMMA;
-  using TiledMma = typename TiledMMAHelper<MMA_Atom<XE_DPAS_TT<8, float, cute::bfloat16_t>>, Layout<TileShape>, Layout<Shape<_2, _16, _1>, Stride<_16, _1, _0>>>::TiledMMA;
+  using TiledMma =
+      typename TiledMMAHelper<MMA_Atom<XE_8x16x16_F32BF16BF16F32_TT>, Layout<TileShape>,
+                                    Layout<Shape<_2, _16, _1>, Stride<_16, _1, _0>>>::TiledMMA;
 
   using EpilogueTile = Shape<_16, _32>;
   constexpr int PipelineStages = 3;
-  using GEMMDispatchPolicy = cutlass::gemm::MainloopXeL1Staged<PipelineStages>;
-  using EpilogueDispatchPolicy = cutlass::epilogue::IntelXeGeneric;
+  using GEMMDispatchPolicy = cutlass::gemm::MainloopIntelXeXMX16<PipelineStages>;
+  using EpilogueDispatchPolicy = cutlass::epilogue::IntelXeXMX16;
 
   // Linear Combination + Row-wise Softmax Epilogue
   using EpilogueOp = cutlass::epilogue::fusion::LinCombSoftmaxRow<ElementOutput,
-          ElementComputeEpilogue, XE_STORE_2D<32, 8, 16>/*XE_2D_U32x8x16_ST_N*/, ElementAccumulator, ElementAccumulator, cutlass::FloatRoundStyle::round_to_nearest>;
+          ElementComputeEpilogue, XE_2D_U32x8x16_ST_N, ElementAccumulator, ElementAccumulator, cutlass::FloatRoundStyle::round_to_nearest>;
 
-  using FusionCallbacks = cutlass::epilogue::fusion::FusionCallbacks<EpilogueDispatchPolicy, EpilogueOp, TileShape,
+  using FusionCallBacks = cutlass::epilogue::fusion::FusionCallbacks<EpilogueDispatchPolicy, EpilogueOp, TileShape,
           EpilogueTile>;
   using CollectiveEpilogue = cutlass::epilogue::collective::CollectiveEpilogue<
           EpilogueDispatchPolicy,
-          TiledMma,
-          void,
+          TileShape,
           ElementAccumulator,
           cutlass::gemm::TagToStrideC_t<LayoutC>,
           ElementOutput,
           cutlass::gemm::TagToStrideC_t<LayoutD>,
-          FusionCallbacks,
-<<<<<<< HEAD
-          //XE_2D_U32x8x16_LD_N,
-          XE_STORE_2D<32, 8 ,16>,
-=======
->>>>>>> afa071e0 (epilogue test)
+          FusionCallBacks,
+          XE_2D_U32x8x16_LD_N,
+          void, void,
           void,
-          void>;
+          void, void>;
 
 // Mainloop
   using CollectiveMainloop = cutlass::gemm::collective::CollectiveMma<
 
@@ -434,27 +434,23 @@ int main(int argc, const char** argv)
   using LayoutC = cutlass::layout::RowMajor;
   using LayoutD = cutlass::layout::RowMajor;
 
-  // using GmemTiledCopyA = XE_2D_U16x8x16_LD_N;
-  using GmemTiledCopyA =void;
-  // using GmemTiledCopyB = XE_2D_U16x16x16_LD_V;
-  using GmemTiledCopyB = void;
+  using GmemTiledCopyA = XE_2D_U16x8x16_LD_N;
+  using GmemTiledCopyB = XE_2D_U16x16x16_LD_V;
 
   // Workgroup-level tile
   using TileShape = Shape<_32, _512, _32>;
 
-  // using TiledMma =
-  //     typename TiledMMAHelper<MMA_Atom<XE_8x16x16_F32BF16BF16F32_TT>, Layout<TileShape>,
-  //                                   Layout<Shape<_2, _16, _1>, Stride<_16, _1, _0>>>::TiledMMA;
-
-  using TiledMma = typename TiledMMAHelper<MMA_Atom<XE_DPAS_TT<8, float, cute::bfloat16_t>>, Layout<TileShape>, Layout<Shape<_2, _16, _1>, Stride<_16, _1, _0>>>::TiledMMA;
+  using TiledMma =
+      typename TiledMMAHelper<MMA_Atom<XE_8x16x16_F32BF16BF16F32_TT>, Layout<TileShape>,
+                                    Layout<Shape<_2, _16, _1>, Stride<_16, _1, _0>>>::TiledMMA;
 
   using EpilogueTile = Shape<_16, _32>;
   constexpr int PipelineStages = 3;
   using GEMMDispatchPolicy = cutlass::gemm::MainloopXeL1Staged<PipelineStages>;
   using EpilogueDispatchPolicy = cutlass::epilogue::IntelXeGeneric;
 
   using EpilogueOp = cutlass::epilogue::fusion::LinCombSplitK<ElementOutput,
-          ElementComputeEpilogue, XE_STORE_2D<32, 8, 16>/*XE_2D_U32x8x16_ST_N*/, ElementAccumulator, ElementAccumulator, cutlass::FloatRoundStyle::round_to_nearest>;
+          ElementComputeEpilogue, XE_2D_U32x8x16_ST_N, ElementAccumulator, ElementAccumulator, cutlass::FloatRoundStyle::round_to_nearest>;
 
   using FusionCallBacks = cutlass::epilogue::fusion::FusionCallbacks<EpilogueDispatchPolicy, EpilogueOp, TileShape,
           EpilogueTile>;
@@ -467,10 +463,6 @@ int main(int argc, const char** argv)
           ElementOutput,
           cutlass::gemm::TagToStrideC_t<LayoutD>,
           FusionCallBacks,
-<<<<<<< HEAD
-          XE_2D_U32x8x16_LD_N,
-=======
->>>>>>> afa071e0 (epilogue test)
           void,
           void>;
 
 
@@ -151,12 +151,13 @@ struct ExampleRunner {
 
   using ElementA = typename Gemm::ElementA;
   using ElementB = typename Gemm::ElementB;
-  using ElementAccumulator = typename Gemm::ElementAccumulator;
+  using ElementAcc = typename Gemm::ElementAccumulator;
 
   using CollectiveEpilogue = typename Gemm::CollectiveEpilogue;
   using ElementC = typename Gemm::ElementC;
   using ElementOutput = typename CollectiveEpilogue::ElementOutput;
   using ElementCompute = typename CollectiveEpilogue::ElementCompute;
+  using ElementAccumulator = typename CollectiveEpilogue::ElementAccumulator;
   using ElementBias = typename CollectiveEpilogue::ThreadEpilogueOp::ElementBias;
   using ProblemShapeType = typename Gemm::GemmKernel::ProblemShape;
 
@@ -210,7 +211,7 @@ struct ExampleRunner {
     compat::wait();
 
     for(int batch = 0, offset = 0; batch < L; batch++, offset += M * N) {
-      auto D_view =
+      auto D_view = 
           cutlass::TensorView(
           block_ref_D.get() + offset, LayoutD::packed({M, N}), cutlass::make_Coord(M, N));
 
@@ -368,32 +369,34 @@ int main(int argc, const char** argv)
   using LayoutC = cutlass::layout::RowMajor;
   using LayoutD = cutlass::layout::RowMajor;
 
-  using GmemTiledCopyA = void;
-  using GmemTiledCopyB = void;
+  using GmemTiledCopyA = XE_2D_U16x32x32_LD_N;
+  using GmemTiledCopyB = XE_2D_U16x32x32_LD_V;
 
   // Workgroup-level tile
   using TileShape = Shape<_256, _256, _32>;
 
-  using TiledMma = typename TiledMMAHelper<MMA_Atom<XE_DPAS_TT<8, float, cute::bfloat16_t>>, Layout<TileShape>, Layout<Shape<_8, _4, _1>, Stride<_4, _1, _0>>>::TiledMMA;
+  using TiledMma =
+      typename TiledMMAHelper<MMA_Atom<XE_8x16x16_F32BF16BF16F32_TT>, Layout<TileShape>,
+                                    Layout<Shape<_8, _4, _1>, Stride<_4, _1, _0>>>::TiledMMA;
 
   constexpr int PipelineStages = 2;
-  using GEMMDispatchPolicy = cutlass::gemm::MainloopXeL1Staged<PipelineStages>;
-  using EpilogueDispatchPolicy = cutlass::epilogue::IntelXeGeneric;
+  using GEMMDispatchPolicy = cutlass::gemm::MainloopIntelXeXMX16<PipelineStages>;
+  using EpilogueDispatchPolicy = cutlass::epilogue::IntelXeXMX16;
 
   // The Linear Combination + Per Row Bias epilogue operation
   using EpilogueOp = cutlass::epilogue::fusion::LinCombPerRowBias<
       ElementOutput, ElementComputeEpilogue, ElementBias, ElementAccumulator,
       ElementAccumulator, 128 / sizeof_bits_v<ElementBias>,
       cutlass::FloatRoundStyle::round_to_nearest>;
 
-  using FusionCallbacks = cutlass::epilogue::fusion::FusionCallbacks<
+  using FusionCallBacks = cutlass::epilogue::fusion::FusionCallbacks<
       EpilogueDispatchPolicy, EpilogueOp, TileShape,
       decltype(tile_shape(TiledMma()))>;
   using CollectiveEpilogue = cutlass::epilogue::collective::CollectiveEpilogue<
-      EpilogueDispatchPolicy, TiledMma, void, ElementAccumulator,
+      EpilogueDispatchPolicy, TileShape, ElementAccumulator,
       cutlass::gemm::TagToStrideC_t<LayoutC>, ElementOutput,
-      cutlass::gemm::TagToStrideC_t<LayoutD>, FusionCallbacks,
-      void, void>;
+      cutlass::gemm::TagToStrideC_t<LayoutD>, FusionCallBacks,
+      XE_2D_U32x8x16_LD_N, void, void, XE_2D_U32x8x16_ST_N, void, void>;
 
   // Mainloop
   using CollectiveMainloop = cutlass::gemm::collective::CollectiveMma<