RL và Ký Ức Chuyên Sâu: Sâu sắc hơn nhờ KL Divergence
RL và Ký Ức Chuyên Sâu: Sâu sắc hơn nhờ KL Divergence
Hiện tượng quên lãng nghiêm trọng, hay catastrophic forgetting, là một thách thức lớn trong lĩnh vực trí tuệ nhân tạo, nó thường xuyên xảy ra khi mô hình học hỏi nhiệm vụ mới và dễ dàng bỏ quên những kiến thức đã được thu nạp trước đó. Paper “RL’s Razor: Why Online Reinforcement Learning Forgets Less” của Improbable AI Lab tại MIT nêu bật lên hiệu suất của Reinforcement Learning (RL) so với Supervised Fine-tuning (SFT) trong việc giữ lại kí ức cũ.
Nghiên cứu phát hiện rằng trong khi RL và SFT đạt được kết quả tương đồng trên nhiệm vụ mới, RL duy trì kí ức cũ tốt hơn so với SFT. Điều này chẳng những đúng với mô hình ngôn ngữ mà còn nhiều lĩnh vực khác như robotics. Chẳng hạn, nếu robot được huấn luyện để thu thập đối tượng qua SFT, sau khi thu nạp kỹ năng mới như xếp hộp, nó lại quên cách nhặt quâ bóng. Trái lại, sử dụng RL giúp robot hoạt động linh hoạt hơn mà không đánh mất những kỹ năng trước đó.
Qua thử nghiệm trên nhiều lĩnh vực như hỏi – đáp về toán, khoa học, và sử dụng công cụ, RL lại một lần nữa chứng minh hiệu quả vượt trội của mình trong việc giúp model giữ lại kiến thức cũ hơn so với SFT, nhờ vào cái gọi là forward KL divergence.
Empirical Forgetting Law: KL Divergence Là Chìa Khóa
Sau nhiều thử nghiệm giả thuyết (thay đổi trọng số, dịch chuyển biểu diễn), nhóm nghiên cứu xác định rằng forward KL divergence giữa policy điều chỉnh (πft) và policy gốc (πbase) dùng để dự đoán mức độ quên rõ ràng. Công thức được thể hiện như sau:
D_KL(π_ft || π_base) = E_{x ~ π_ft}[log π_ft(x) - log π_base(x)]
KL divergence đo lường độ khác biệt giữa cách xử lý dữ liệu của mô hình mới và cũ. Càng nhỏ KL, mô hình càng hạn chế quên. Trong một thử nghiệm với ParityMNIST, chỉ số R² đạt 0.96, đảm bảo tỉ lệ dà hầu như không thể cãi được.
RL’s Razor: Đường Tiết Kiệm Hiệu Quả Hơn
Nghiên cứu giới thiệu quy tắc " RL's Razor: RL luôn chọn phương án học hỏi nhiệm vụ mới gần với mô hình gốc qua KL divergence. SFT dường như dễ bị lạc trôi hơn, nhưng RL giữ cách tiếp cận gần gũi hơn, do đó ít bị quên hơn. Ngay cả "oracle SFT", hình thức fine-tune lý tưởng giảm KL tới tối thiểu nhưng vẫn giữ độ chính xác cao, còn kém hơn so với RL, chỉ ra tầm quan trọng của KL minimization.
On-Policy vs Off-Policy: Bí quyết trong thu thập dữ liệu
Nhóm nghiên cứu so sánh bốn phương pháp huấn luyện:
- On-policy: GRPO và 1-0 Reinforce có lợi thế là thu thập dữ liệu trực tiếp từ policy hiện tại.
- Off-policy: SFT và SimPO sử dụng dữ liệu có sẵn mà không đáp ứng trên trực tiếp.
Kết quả khẳng định ra rẳng on-policy là yếu tố quyết định nhất. GRPO và Reinforce duy trì KL nhỏ, giúp các mô hình giưu lại nhiều hơn.
Lý Thuyết: Information Geometry
Information geometry giúp giải thích RL’s thành công. Policy gradient trong RL với binary reward là quá trình lặp I-projection và M-projection.
- I-projection giảm KL divergence nhưng đồng thời bảo toàn giá trị reward.
- M-projection cập nhật policy để tôi ưu hóa reward.
Chứng Minh Thực Tế
Ngoài giải thích lý thuyết, nghiên cứu còn áp dụng Centered Kernel Alignment để đo độ tương đồng của representation giữa model fine-tuned và ban đầu. RL giữ cho representation gần với gốc hơn so với SFT. Dù thử trên model lớn với vi model hön 7B, 14B parameter, SFT vẫn quên nhiều hơn.
Ý Nghĩa
Nghiên cứu này chỉ ra KL divergence là trục quan trọng giúp hệ thống học hỏi liên tục. Áp dụng KL minimization từ đầu có thể giúp giảm thiểu vấn đề catastrophic quên. Kết hợp SFT và RL để đánh được hiệu suất từ SFT trong khi duy trì khả năng giữ kí ức của RL.
Kết Luận
Trong việc tinh chỉnh model, ưu tiên on-policy RL nếu Cần phát triên. Sử dụng KL divergence như công cụ theo dương độ “lú” của model. Nghiên cứu mở rộng hiểu biết về RLHF (RL với phản hồi người dùng)và giúp tạo ra các hệ thống AI với kí ức dài hạn và khả năng học hỏi liên tục.
Nguồn: https://arxiv.org/abs/2509.04259
- Dương Lương from