created readme

ochougul · ochougul · commit cc3bb0b666ff · 2025-12-10T14:47:24.000Z
Signed-off-by: Onkar Chougule &lt;ochougul@qti.qualcomm.com&gt;
diff --git a/examples/disagg_serving/README.md b/examples/disagg_serving/README.md
@@ -0,0 +1,31 @@
+# We should be using disaggragate serving for GPTOSS model for best performance
+ - GPT-OSS model has 128/4 for 120b and 32/4 ratio of total_experts/experts_per_tok
+ - We use read all experts only once always strategy in prefill-only model
+ - And we treat weights activtions meaning read only chosen experts for decode-only model
+
+# Prefill-only model
+## Blocking default behviour when `prefill_only=True` in compile API
+ - NUM_Q_BLOCKS=<int> set number of Q blocks in attention 
+ - NUM_FFN_BLOCKS=<int> set number of blocks in FFN
+ - ENABLE_OPT_SWA="0" or "1" to enable/disable optimized SWA. when enabled we will be using only valid KVs for given block in Attention reducing MACs
+ - prefix_caching is not supported with this mode
+
+## Chunking pass `enable_chunking=True` and `prefill_only=True` in compile API
+ - Optimized SWA i.e. reading only valid KV as per diagonal attention mask is enabled for this version by default
+ - This model can be used for prefix_caching by passing `kv_cache_batch_size=<int>` in compile API
+
+# Decode-only model
+## Retain Sliding window length of KV for sliding window layers, default behavour when `prefill_seq_len=1` in compile API
+ - This reduces the amount of DDR used by the model
+ - CB is enabled for this version pass `continous_batching=True` in `from_pretrained` call and strictly pass `full_batch_size=<int>` and optinally `kv_cache_batch_size=<int>` if needed
+## Full KV for sliding window layers pass `retain_full_kv=True` along with `prefill_seq_len=1` in compile API
+ - This uses higher DDR as we are retaining ctx_len KV even for sliding window layers but will be reading only sliding window len kv in attention
+ - CB is enabled for this version pass `continous_batching=True` in `from_pretrained` call and strictly pass `full_batch_size=<int>` and optinally `kv_cache_batch_size=<int>` if needed
+ - This is enabled for the usecase of multi-turn chat, where we will be running prefill-> decode and then use cache of prefill as well as decode combined to again run prefill, so we want to retain full KV for sliding window layers
+
+
+NOTE:
+* decode-only model currently fails compilation with `use_onnx_subfunctions=True` so avoid using it
+* 120B model needs NPI, there are two versions of NPI one with and without subfunction both are uploaded here, pass it as `node_precision_info=<path to file>`
+* It is advised to use `use_onnx_subfunctions=True` with prefill-only model, otherwise the compilation times are too high, with this the model is supposed to export and fail during compile as it needs assert sdk, so user is supposed to run this compilation manually by pasting the command printed in the error
+
diff --git a/examples/disagg_serving/gpt_oss_disagg_mode.py b/examples/disagg_serving/gpt_oss_disagg_mode.py
diff --git a/examples/disagg_serving/subfunction_120b_npi.yaml b/examples/disagg_serving/subfunction_120b_npi.yaml
@@ -0,0 +1,27 @@
+FP32NodeInstanceNames:
+  - CustomRMSNorm_58
+  - onnx::Shape_1033777
+  - CustomRMSNorm_349
+  - hidden.127
+  - CustomRMSNorm_27448
+  - onnx::Shape_1066066
+  - CustomRMSNorm_27709
+  - hidden.131
+  - CustomRMSNorm_54808
+  - onnx::Shape_878
+  - CustomRMSNorm_55105
+  - hidden
+  - hidden_states.259
+  - Add_348
+  - Add_347
+  - onnx::Add_1034099
+  - hidden_states.267
+  - Add_27708
+  - onnx::Add_1066358
+  - Add_27707
+  - hidden_states.3
+  - Add_55104
+  - onnx::Add_1209
+  - Add_55103
+  - /model/norm/CustomRMSNorm
+  - /model/norm/CustomRMSNorm_output_0
diff --git a/examples/disagg_serving/without_subfunc_npi_120b.yaml b/examples/disagg_serving/without_subfunc_npi_120b.yaml
@@ -0,0 +1,148 @@
+FP32NodeInstanceNames:
+  - /model/layers.0/Add_1_output_0
+  - /model/layers.0/Add_output_0
+  - /model/layers.0/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.0/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.1/Add_1_output_0
+  - /model/layers.1/Add_output_0
+  - /model/layers.1/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.1/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.10/Add_1_output_0
+  - /model/layers.10/Add_output_0
+  - /model/layers.10/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.10/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.11/Add_1_output_0
+  - /model/layers.11/Add_output_0
+  - /model/layers.11/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.11/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.12/Add_1_output_0
+  - /model/layers.12/Add_output_0
+  - /model/layers.12/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.12/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.13/Add_1_output_0
+  - /model/layers.13/Add_output_0
+  - /model/layers.13/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.13/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.14/Add_1_output_0
+  - /model/layers.14/Add_output_0
+  - /model/layers.14/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.14/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.15/Add_1_output_0
+  - /model/layers.15/Add_output_0
+  - /model/layers.15/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.15/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.16/Add_1_output_0
+  - /model/layers.16/Add_output_0
+  - /model/layers.16/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.16/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.17/Add_1_output_0
+  - /model/layers.17/Add_output_0
+  - /model/layers.17/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.17/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.18/Add_1_output_0
+  - /model/layers.18/Add_output_0
+  - /model/layers.18/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.18/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.19/Add_1_output_0
+  - /model/layers.19/Add_output_0
+  - /model/layers.19/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.19/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.2/Add_1_output_0
+  - /model/layers.2/Add_output_0
+  - /model/layers.2/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.2/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.20/Add_1_output_0
+  - /model/layers.20/Add_output_0
+  - /model/layers.20/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.20/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.21/Add_1_output_0
+  - /model/layers.21/Add_output_0
+  - /model/layers.21/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.21/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.22/Add_1_output_0
+  - /model/layers.22/Add_output_0
+  - /model/layers.22/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.22/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.23/Add_1_output_0
+  - /model/layers.23/Add_output_0
+  - /model/layers.23/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.23/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.24/Add_1_output_0
+  - /model/layers.24/Add_output_0
+  - /model/layers.24/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.24/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.25/Add_1_output_0
+  - /model/layers.25/Add_output_0
+  - /model/layers.25/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.25/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.26/Add_1_output_0
+  - /model/layers.26/Add_output_0
+  - /model/layers.26/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.26/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.27/Add_1_output_0
+  - /model/layers.27/Add_output_0
+  - /model/layers.27/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.27/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.28/Add_1_output_0
+  - /model/layers.28/Add_output_0
+  - /model/layers.28/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.28/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.29/Add_1_output_0
+  - /model/layers.29/Add_output_0
+  - /model/layers.29/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.29/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.3/Add_1_output_0
+  - /model/layers.3/Add_output_0
+  - /model/layers.3/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.3/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.30/Add_1_output_0
+  - /model/layers.30/Add_output_0
+  - /model/layers.30/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.30/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.31/Add_1_output_0
+  - /model/layers.31/Add_output_0
+  - /model/layers.31/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.31/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.32/Add_1_output_0
+  - /model/layers.32/Add_output_0
+  - /model/layers.32/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.32/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.33/Add_1_output_0
+  - /model/layers.33/Add_output_0
+  - /model/layers.33/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.33/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.34/Add_1_output_0
+  - /model/layers.34/Add_output_0
+  - /model/layers.34/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.34/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.35/Add_1_output_0
+  - /model/layers.35/Add_output_0
+  - /model/norm/Add_output_0
+  - /model/layers.35/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.35/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.4/Add_1_output_0
+  - /model/layers.4/Add_output_0
+  - /model/layers.4/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.4/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.5/Add_1_output_0
+  - /model/layers.5/Add_output_0
+  - /model/layers.5/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.5/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.6/Add_1_output_0
+  - /model/layers.6/Add_output_0
+  - /model/layers.6/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.6/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.7/Add_1_output_0
+  - /model/layers.7/Add_output_0
+  - /model/layers.7/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.7/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.8/Add_1_output_0
+  - /model/layers.8/Add_output_0
+  - /model/layers.8/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.8/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/layers.9/Add_1_output_0
+  - /model/layers.9/Add_output_0
+  - /model/layers.9/input_layernorm/CustomRMSNorm_output_0
+  - /model/layers.9/post_attention_layernorm/CustomRMSNorm_output_0
+  - /model/norm/CustomRMSNorm_output_0
+