Merge branch 'main' into refactor-http

YanhuiDua · web-flow · commit 84d55ace8430 · 2025-11-17T17:55:28.000+08:00
diff --git a/.github/workflows/unit_test.yaml b/.github/workflows/unit_test.yaml
@@ -10,7 +10,7 @@ on:
 env:
   WORKSPACE_PREFIX: $(echo $GITHUB_WORKSPACE |cut -d '/' -f 1-5)
   WORKSPACE_PREFIX_SHORT: $(echo $GITHUB_WORKSPACE |cut -d '/' -f 1-3)
-  IMAGE: registry.h.pjlab.org.cn/ailab-llmrazor/xtuner:pt28_20250911_6652194_fix_pip
+  IMAGE: registry.h.pjlab.org.cn/ailab-llmrazor/xtuner:pt28_20251113_22badb0_grouped_router_topk1
 
 concurrency:
   group: ${{ github.workflow }}-${{ github.event.pull_request.number || github.ref }}
@@ -30,4 +30,4 @@ jobs:
     - name: unit-test
       run: |
         export PYTHONPYCACHEPREFIX=/tmp
-        python ci/scripts/xtuner_unittest.py "$IMAGE" "source ${{env.WORKSPACE_PREFIX}}/BASE_ENV.sh;source ci/scripts/CI_ENV.sh" "pytest tests --ignore=./tests/module/dispatcher/test_deepep.py"
+        python ci/scripts/xtuner_unittest.py "$IMAGE" "source ${{env.WORKSPACE_PREFIX}}/BASE_ENV.sh;source ci/scripts/CI_ENV.sh" "pytest tests"
diff --git a/ci/scripts/CI_ENV.sh b/ci/scripts/CI_ENV.sh
@@ -28,7 +28,5 @@ export PYTEST_ADDOPTS='-o cache_dir=/tmp/.pytest_cache'
 
 proxy_off
 pip install -e .
-pip install openai-harmony
-pip install numpy==1.26.4
 
 export PYTHONPATH=${LM_DEPLOY}:$PYTHONPATH
diff --git a/tests/ray/test_update_weight.py b/tests/ray/test_update_weight.py
@@ -0,0 +1,149 @@
+import os
+import unittest
+
+import ray
+
+from xtuner.v1.ray.base import AutoAcceleratorWorkers
+from xtuner.v1.ray.rollout import RolloutController
+from xtuner.v1.data_proto.rl_data import SampleParams
+from xtuner.v1.config import (
+    AdamWConfig,
+    FSDPConfig,
+    LRConfig,
+)
+from xtuner.v1.model.moe.moe import BalancingLossConfig, ZLossConfig
+from xtuner.v1.ray.config.worker import RolloutConfig
+from xtuner.v1.ray.base import AcceleratorResourcesConfig, AutoAcceleratorWorkers
+from xtuner.v1.rl.base import WorkerConfig, TrainingController, TrainingWorker as BaseTrainingWorker
+from xtuner.v1.rl.grpo.loss import GRPOLossConfig as LossConfig
+from xtuner.v1.model import get_model_config_from_hf
+
+TEST_TEXT_MESSAGES=[{"role": "user", "content": "Hello!"}]
+MODEL_PATH = os.environ["ROLLOUT_MODEL_PATH"]
+
+class TestUpdateWeight(unittest.TestCase):
+    def setUp(self):
+        os.environ["XTUNER_USE_FA3"] = "1"
+        ray.init(num_cpus=80, ignore_reinit_error=True)
+        self.model_path = MODEL_PATH
+        self.init_config()
+        self.pg = AutoAcceleratorWorkers.build_placement_group(self.resources_cfg)
+
+    def tearDown(self):
+        ray.shutdown()
+        del os.environ["XTUNER_USE_FA3"]
+
+    def init_config(self):
+        self.resources_cfg = AcceleratorResourcesConfig(
+            accelerator="GPU",
+            num_workers=2,
+            num_cpus_per_worker=16,
+            cpu_memory_per_worker=16 * 1024 ** 3,  # 16 GB
+        )
+        self.rollout_cfg = RolloutConfig(
+            env="test_rollout",
+            model_path=MODEL_PATH,
+            model_name=os.path.basename(MODEL_PATH).lower(),
+            tokenizer_path=MODEL_PATH,
+            rollout_cross_node_comm=False,
+            tensor_parallel_size=2,
+            expert_parallel_size=1,
+            gpus_per_node=8, # gpu: 8, npu: 16
+            dtype="bfloat16",
+            skip_load_weights=True,
+            context_length=256,
+        )
+
+        # training config
+        model_cfg = get_model_config_from_hf(model_path=MODEL_PATH)
+        if hasattr(model_cfg, 'z_loss_cfg'):
+            model_cfg.z_loss_cfg = ZLossConfig()
+        if hasattr(model_cfg, 'balancing_loss_cfg'):
+            model_cfg.balancing_loss_cfg = BalancingLossConfig()
+        optim_cfg: AdamWConfig = AdamWConfig(lr=5e-7, foreach=False)
+        fsdp_cfg: FSDPConfig = FSDPConfig()
+        lr_cfg = LRConfig(lr_type="constant", warmup_ratio=0, lr_min=5e-7)
+        self.worker_cfg: WorkerConfig = WorkerConfig(
+            model_cfg=model_cfg,
+            optim_cfg=optim_cfg,
+            loss_cfg=LossConfig(
+                policy_loss_cfg=dict(
+                    cliprange_high=0.28,
+                    cliprange_low=0.2,
+                    loss_type="vanilla",
+                ),
+                ignore_idx=-100,
+                use_kl_loss=True,
+                kl_loss_coef=0.001, 
+                kl_loss_type="low_var_kl",
+                mode="eager"),
+            lr_cfg=lr_cfg,
+            fsdp_cfg=fsdp_cfg,
+            load_from=MODEL_PATH,
+            sp_size=1,
+            pack_max_length=1024,
+        )
+
+    @unittest.skipIf(os.environ.get("XTUNER_USE_LMDEPLOY", "0") == "0", "lmdeploy backend is not enabled")
+    def test_lmdeploy_update_weight_and_generate(self):
+        # init train
+        TrainingWorker = ray.remote(
+            runtime_env={
+                "env_vars": {
+                    "RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES": "1",
+                    "RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES": "1",
+                }
+            },
+        )(BaseTrainingWorker)
+        train_workers, _ = AutoAcceleratorWorkers.from_placement_group(
+            TrainingWorker, self.worker_cfg, self.pg
+        )
+        futures = [ worker.test_all_reduce.remote() for worker in train_workers ]
+        ray.get(futures)
+        train_controller = TrainingController.remote(
+            workers=train_workers,
+        )
+        ray.get(train_controller.__ray_ready__.remote())
+
+        # fixed sample params
+        sample_params = SampleParams(temperature=0.0, max_tokens=128, top_k=1)
+
+        # init rollout_update
+        rollout_controller = RolloutController.remote(
+            self.rollout_cfg,
+            self.pg,
+        )
+        info_dict = ray.get(rollout_controller.get_rollout_info.remote())
+        ray.get(train_controller.update_rollout_info.remote(info_dict))
+        
+        # update weights
+        ray.get(rollout_controller.offload.remote())
+        ray.get(rollout_controller.onload_weights.remote())
+        ray.get(train_controller.offload.remote(["optimizer"]))
+        ray.get(train_controller.update_weights.remote())
+        ray.get(train_controller.offload.remote(["model"]))
+        ray.get(rollout_controller.onload_kvcache.remote())
+
+        res_update_weight = ray.get(rollout_controller.rollout.remote(prompt=TEST_TEXT_MESSAGES, sample_params=sample_params))       
+        ray.get(rollout_controller.shutdown.remote(), timeout=60)
+
+        # init rollout_ref
+        self.rollout_cfg.skip_load_weights = False
+        rollout_controller_ref = RolloutController.remote(
+            self.rollout_cfg,
+            self.pg,
+        )
+
+        res_ref = ray.get(rollout_controller_ref.rollout.remote(prompt=TEST_TEXT_MESSAGES, sample_params=sample_params))  
+        ray.get(rollout_controller_ref.shutdown.remote(), timeout=60)
+
+        self.assertEqual(res_update_weight.response, res_ref.response)
+
+
+if __name__ == "__main__":
+    test_instance = TestUpdateWeight()
+    test_instance.setUp()
+    try:
+        test_instance.test_lmdeploy_update_weight_and_generate()
+    finally:
+        test_instance.tearDown()
diff --git a/tests/train/test_trainer.py b/tests/train/test_trainer.py
@@ -40,6 +40,7 @@ def __init__(self):
 
         self.model = model = nn.Linear(10, 10)
         self.optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
+        self.has_freeze_params = False
 
     def grad_accumulation_steps(self, *args, **kwargs):
         return 1
diff --git a/xtuner/v1/data_proto/sequence_context.py b/xtuner/v1/data_proto/sequence_context.py
@@ -1,5 +1,4 @@
 # Copyright (c) OpenMMLab. All rights reserved.
-from dataclasses import dataclass
 from typing import cast
 
 import torch
@@ -9,7 +8,10 @@
 from .utils import pad_to_multiple_of, split_for_sequence_parallel
 
 
-@dataclass
+# Avoid using dataclass decorator here to get rid of extra ops called in pytorch 2.8 and above
+# The extra ops is introduced by function _apply_to_tensors in
+# https://github.com/pytorch/pytorch/blob/v2.8.0/torch/distributed/fsdp/_fully_shard/_fsdp_state.py
+# Due to dataclasses.replace is called in _apply_to_tensors that triggering SequenceContext.__init__
 class SequenceContext:
     """Keyword arguments for Flash Attention with Compile.
 
@@ -29,26 +31,25 @@ class SequenceContext:
     cu_seq_lens_k: torch.IntTensor
     max_length_q: torch.Tensor
     max_length_k: torch.Tensor
-    num_padding: int = 0
-    sequence_parallel_mesh: DeviceMesh | None = None
-    block_table: torch.Tensor | None = None
-    device: str | torch.device = "cpu"  # TODO: 这个地方有点乱，到处是 device
-    position_ids: torch.LongTensor | None = None
+    num_padding: int
+    sequence_parallel_mesh: DeviceMesh | None
+    block_table: torch.Tensor | None
+    device: str | torch.device  # TODO: 这个地方有点乱，到处是 device
+    position_ids: torch.LongTensor | None
 
     # Intern-S1
-    image_flags: torch.LongTensor | None = None
+    image_flags: torch.LongTensor | None
     # Qwen3VL
-    image_grid_thw: torch.Tensor | None = None
-    deepstack_visual_embeds: list[torch.Tensor] | None = None
-    visual_pos_masks: torch.Tensor | None = None
-
+    image_grid_thw: torch.Tensor | None
+    deepstack_visual_embeds: list[torch.Tensor] | None
+    visual_pos_masks: torch.Tensor | None
     # mllm model
-    pixel_values: torch.FloatTensor | None = None
-    inputs_embeds: torch.FloatTensor | None = None
-    num_img_tokens: list[int] | None = None
+    pixel_values: torch.FloatTensor | None
+    inputs_embeds: torch.FloatTensor | None
+    num_img_tokens: list[int] | None
 
     # moe routed_experts
-    rollout_routed_experts: torch.LongTensor | None = None
+    rollout_routed_experts: torch.LongTensor | None
 
     def __init__(
         self,
diff --git a/xtuner/v1/engine/train_engine.py b/xtuner/v1/engine/train_engine.py
@@ -135,6 +135,15 @@ def __init__(
         self.optimizer = self.build_optimizer(optim_cfg)
         self.intra_layer_micro_batch = intra_layer_micro_batch
         self._count = 0
+        self.has_freeze_params = self.__has_freeze_params()
+
+    def __has_freeze_params(self) -> bool:
+        has_freeze_params = False
+        for param in self.model.parameters(recurse=True):
+            if not param.requires_grad:
+                has_freeze_params = True
+                break
+        return has_freeze_params
 
     def build_model(self) -> BaseModel:
         with torch.device("meta"):
@@ -398,7 +407,7 @@ def save_dcp(
             if optimizer_dir is not None:
                 optimizer_dir.mkdir(parents=True, exist_ok=True)
 
-        _options = StateDictOptions(cpu_offload=True, ignore_frozen_params=True)
+        _options = StateDictOptions(cpu_offload=True, ignore_frozen_params=self.model_cfg.dcp_ignore_frozen_params)
         with profile_time_and_memory(f"[DCP Checkpoint to {model_dir}]"):
             model_state = get_model_state_dict(self.model, options=_options)
             dcp.save(
@@ -426,8 +435,13 @@ def load_dcp(
         Args:
             dcp_dir (str): The directory to load the model from.
         """
-        _load_options = StateDictOptions(cpu_offload=True, ignore_frozen_params=True)
-        _set_options = StateDictOptions(cpu_offload=True, strict=True)
+        _load_options = StateDictOptions(
+            cpu_offload=True, ignore_frozen_params=self.model_cfg.dcp_ignore_frozen_params
+        )
+        if self.has_freeze_params:
+            _set_options = StateDictOptions(cpu_offload=True, strict=False)
+        else:
+            _set_options = StateDictOptions(cpu_offload=True, strict=True)
         with profile_time_and_memory(f"[Load DCP Model from {model_dir}]"):
             shard_model_state_dict = get_model_state_dict(self.model, options=_load_options)
             # inplace state_dict
diff --git a/xtuner/v1/engine/vision_compose_train_engine.py b/xtuner/v1/engine/vision_compose_train_engine.py
@@ -59,6 +59,11 @@ class VisionComposeConfigProtocol(Protocol):
     projector_config: BaseModel
     text_config: TransformerConfig
 
+    freeze_vision: bool = False
+    freeze_projector: bool = False
+    freeze_language: bool = False
+    dcp_ignore_frozen_params: bool = True
+
     def build(self) -> VisionComposeModelProtocol: ...
 
     @property
diff --git a/xtuner/v1/model/base.py b/xtuner/v1/model/base.py
@@ -74,6 +74,7 @@ class TransformerConfig(PydanticBaseModel):
     max_window_layers: Annotated[int | None, Parameter(group="model")] = None
     rope_scaling_cfg: RopeScalingConfig | None = None
     hf_save_worker: Annotated[int, Parameter(group="model")] = 16
+    dcp_ignore_frozen_params: Annotated[bool, Parameter(group="model")] = False
 
     @computed_field
     def num_attention_heads(self) -> int:
@@ -520,7 +521,7 @@ def _get_hf_params(
                 _hf_key_list = all_hf_keys[start:end]
 
                 if not _hf_key_list:
-                    return [], []
+                    continue
 
                 hf_keys_list.append(_hf_key_list)
 
@@ -552,14 +553,21 @@ def _get_hf_params(
             hf_tensor_list: list[torch.Tensor] = []
             # used in self._to_float8 to determine whether to convert a unshard hf_tensor to fp8
             fsdp_shard_tensor_list: list[torch.Tensor] = []
-            for saved_tensor, load_spec, hf_keys in zip(saved_fused_tensor_list, spec_list, hf_keys_list):
+            # `origin_tensor_list` is only used to mark, which tensors are float8 weights for the
+            # `_to_float8` function
+            origin_tensor_list: list[torch.Tensor] = []
+
+            for saved_tensor, load_spec, hf_keys, origin_tensor in zip(
+                saved_fused_tensor_list, spec_list, hf_keys_list, tensor_list
+            ):
                 dim = cast(int, load_spec.dim)
                 hf_tensor_size = saved_tensor.shape[dim] / len(hf_keys)
                 assert hf_tensor_size.is_integer(), "Internal Error, hf_tensor_size is not integer"
                 hf_tensor_size = int(hf_tensor_size)
                 hf_tensor = saved_tensor.split([hf_tensor_size] * len(hf_keys), dim=dim)
                 hf_tensor_list.extend(hf_tensor)
                 fsdp_shard_tensor_list.extend([saved_tensor] * len(hf_tensor))
+                origin_tensor_list.extend([origin_tensor] * len(hf_tensor))
 
             name_list = list(chain.from_iterable(hf_keys_list))
             hf_tensor_list = [
@@ -568,7 +576,7 @@ def _get_hf_params(
 
             if dtype == torch.float8_e4m3fn:
                 hf_tensor_list_new, name_list_new = self._to_float8(
-                    hf_tensor_list, name_list, fsdp_shard_tensor_list, dtype
+                    hf_tensor_list, name_list, origin_tensor_list, dtype
                 )
                 return hf_tensor_list_new, name_list_new
 
diff --git a/xtuner/v1/model/compose/intern_s1/intern_s1_config.py b/xtuner/v1/model/compose/intern_s1/intern_s1_config.py
@@ -97,6 +97,7 @@ class InternS1BaseConfig(BaseModel):
     freeze_projector: bool = False
     freeze_language: bool = False
     hf_save_worker: int = 16
+    dcp_ignore_frozen_params: bool = True
 
     def build(self) -> "InternS1ForConditionalGeneration":
         from .modeling_intern_s1 import InternS1ForConditionalGeneration
diff --git a/xtuner/v1/model/compose/internvl/internvl_config.py b/xtuner/v1/model/compose/internvl/internvl_config.py
@@ -93,6 +93,7 @@ class InternVLBaseConfig(BaseModel):
     freeze_projector: bool = False
     freeze_language: bool = False
     hf_save_worker: int = 16
+    dcp_ignore_frozen_params: bool = True
 
     def build(self) -> "InternVLForConditionalGeneration":
         from .modeling_internvl import InternVLForConditionalGeneration
diff --git a/xtuner/v1/model/compose/qwen3_vl/qwen3_vl_config.py b/xtuner/v1/model/compose/qwen3_vl/qwen3_vl_config.py
@@ -80,6 +80,7 @@ class Qwen3VLBaseConfig(BaseModel):
     freeze_projector: bool = False
     freeze_language: bool = False
     hf_save_worker: int = 16
+    dcp_ignore_frozen_params: bool = True
 
     def build(self):
         from .modeling_qwen3_vl import Qwen3VLForConditionalGeneration
diff --git a/xtuner/v1/rl/base/worker.py b/xtuner/v1/rl/base/worker.py
diff --git a/xtuner/v1/train/trainer.py b/xtuner/v1/train/trainer.py