Merge branch 'main' into refactor-http

YanhuiDua · web-flow · commit ec3175bba084 · 2025-11-18T22:39:03.000+08:00
diff --git a/xtuner/v1/ray/rollout/sglang.py b/xtuner/v1/ray/rollout/sglang.py
@@ -161,8 +161,7 @@ def _transform_rollout_config_to_server_configs(self):
         sglang_server_args.port = self.server_port
         sglang_server_args.nccl_port = self.nccl_port
         sglang_server_args.dist_init_addr = self.dist_init_addr
-        base_gpu_id_interval = min(num_gpus_per_engine, self.config.gpus_per_node)
-        sglang_server_args.base_gpu_id = (self.rank * base_gpu_id_interval) % self.config.gpus_per_node
+        sglang_server_args.base_gpu_id = self.rank % self.config.gpus_per_node
         sglang_server_args.gpu_id_step = 1
         sglang_server_args.nnodes = max(1, num_gpus_per_engine // self.config.gpus_per_node)
         sglang_server_args.skip_server_warmup = True
@@ -178,8 +177,13 @@ def _transform_rollout_config_to_server_configs(self):
         sglang_server_args.log_level = log_level
         sglang_server_args.log_level_http = log_level_http
         sglang_server_args.enable_deterministic_inference = enable_deterministic_inference
-        sglang_server_args.tp_size = num_gpus_per_engine
-        sglang_server_args.ep_size = num_gpus_per_engine
+
+        if self.config.expert_parallel_size > 1:
+            sglang_server_args.tp_size = num_gpus_per_engine
+            sglang_server_args.ep_size = num_gpus_per_engine
+        else:
+            sglang_server_args.tp_size = self.config.tensor_parallel_size
+            sglang_server_args.ep_size = self.config.expert_parallel_size
 
         if grammar_backend is not None:
             sglang_server_args.grammar_backend = grammar_backend