RL và Ký Ức Chuyên Sâu: Sâu sắc hơn nhờ KL Divergence

RL và Ký Ức Chuyên Sâu: Sâu sắc hơn nhờ KL Divergence

Hiện tượng quên lãng nghiêm trọng, hay catastrophic forgetting, là một thách thức lớn trong lĩnh vực trí tuệ nhân tạo, nó thường xuyên xảy ra khi mô hình học hỏi nhiệm vụ mới và dễ dàng bỏ quên những kiến thức đã được thu nạp trước đó. Paper “RL’s Razor: Why Online Reinforcement Learning Forgets Less” của Improbable AI Lab tại MIT nêu bật lên hiệu suất của Reinforcement Learning (RL) so với Supervised Fine-tuning (SFT) trong việc giữ lại kí ức cũ.

Nghiên cứu phát hiện rằng trong khi RL và SFT đạt được kết quả tương đồng trên nhiệm vụ mới, RL duy trì kí ức cũ tốt hơn so với SFT. Điều này chẳng những đúng với mô hình ngôn ngữ mà còn nhiều lĩnh vực khác như robotics. Chẳng hạn, nếu robot được huấn luyện để thu thập đối tượng qua SFT, sau khi thu nạp kỹ năng mới như xếp hộp, nó lại quên cách nhặt quâ bóng. Trái lại, sử dụng RL giúp robot hoạt động linh hoạt hơn mà không đánh mất những kỹ năng trước đó.

Qua thử nghiệm trên nhiều lĩnh vực như hỏi – đáp về toán, khoa học, và sử dụng công cụ, RL lại một lần nữa chứng minh hiệu quả vượt trội của mình trong việc giúp model giữ lại kiến thức cũ hơn so với SFT, nhờ vào cái gọi là forward KL divergence.

Empirical Forgetting Law: KL Divergence Là Chìa Khóa

Sau nhiều thử nghiệm giả thuyết (thay đổi trọng số, dịch chuyển biểu diễn), nhóm nghiên cứu xác định rằng forward KL divergence giữa policy điều chỉnh (π_ft) và policy gốc (π_base) dùng để dự đoán mức độ quên rõ ràng. Công thức được thể hiện như sau:

D_KL(π_ft || π_base) = E_{x ~ π_ft}[log π_ft(x) - log π_base(x)]

KL divergence đo lường độ khác biệt giữa cách xử lý dữ liệu của mô hình mới và cũ. Càng nhỏ KL, mô hình càng hạn chế quên. Trong một thử nghiệm với ParityMNIST, chỉ số R² đạt 0.96, đảm bảo tỉ lệ dà hầu như không thể cãi được.

RL’s Razor: Đường Tiết Kiệm Hiệu Quả Hơn

Nghiên cứu giới thiệu quy tắc " RL's Razor: RL luôn chọn phương án học hỏi nhiệm vụ mới gần với mô hình gốc qua KL divergence. SFT dường như dễ bị lạc trôi hơn, nhưng RL giữ cách tiếp cận gần gũi hơn, do đó ít bị quên hơn. Ngay cả "oracle SFT", hình thức fine-tune lý tưởng giảm KL tới tối thiểu nhưng vẫn giữ độ chính xác cao, còn kém hơn so với RL, chỉ ra tầm quan trọng của KL minimization.

On-Policy vs Off-Policy: Bí quyết trong thu thập dữ liệu

Nhóm nghiên cứu so sánh bốn phương pháp huấn luyện:

On-policy: GRPO và 1-0 Reinforce có lợi thế là thu thập dữ liệu trực tiếp từ policy hiện tại.
Off-policy: SFT và SimPO sử dụng dữ liệu có sẵn mà không đáp ứng trên trực tiếp.

Kết quả khẳng định ra rẳng on-policy là yếu tố quyết định nhất. GRPO và Reinforce duy trì KL nhỏ, giúp các mô hình giưu lại nhiều hơn.

Lý Thuyết: Information Geometry

Information geometry giúp giải thích RL’s thành công. Policy gradient trong RL với binary reward là quá trình lặp I-projection và M-projection.

I-projection giảm KL divergence nhưng đồng thời bảo toàn giá trị reward.
M-projection cập nhật policy để tôi ưu hóa reward.

Quá trình này dẫn mô hình đến tối ưu hoá policy kiểu như học cái mới nhưng giữ lại cái cũ. Điều này giúp mô hình RL hoạt động tốt trong môi trường như game Pac-Man, nơi mà nó biết tận dùng kỹ năng “ăn điểm” từ những cấp độ trước.

Chứng Minh Thực Tế

Ngoài giải thích lý thuyết, nghiên cứu còn áp dụng Centered Kernel Alignment để đo độ tương đồng của representation giữa model fine-tuned và ban đầu. RL giữ cho representation gần với gốc hơn so với SFT. Dù thử trên model lớn với vi model hön 7B, 14B parameter, SFT vẫn quên nhiều hơn.

Ý Nghĩa

Nghiên cứu này chỉ ra KL divergence là trục quan trọng giúp hệ thống học hỏi liên tục. Áp dụng KL minimization từ đầu có thể giúp giảm thiểu vấn đề catastrophic quên. Kết hợp SFT và RL để đánh được hiệu suất từ SFT trong khi duy trì khả năng giữ kí ức của RL.

Kết Luận

Trong việc tinh chỉnh model, ưu tiên on-policy RL nếu Cần phát triên. Sử dụng KL divergence như công cụ theo dương độ “lú” của model. Nghiên cứu mở rộng hiểu biết về RLHF (RL với phản hồi người dùng)và giúp tạo ra các hệ thống AI với kí ức dài hạn và khả năng học hỏi liên tục.

Nguồn: https://arxiv.org/abs/2509.04259

Phổ cập Ai / Bài viết nghiên cứu

Dương Lương from 11-09-2025, 23:00