RL và Ký Ức Chuyên Sâu: Sâu sắc hơn nhờ KL Divergence
Hiện tượng quên lãng nghiêm trọng, hay catastrophic forgetting, là một thách thức lớn trong lĩnh vực trí tuệ nhân tạo, nó thường xuyên xảy ra khi mô hình học hỏi nhiệm vụ mới và dễ dàng bỏ quên những kiến thức đã được thu nạp trước đó. Paper “RL’s Razor: Why Online Reinforcement Learning Forgets Less” của Improbable AI Lab tại MIT nêu bật lên hiệu suất của Reinforcement Learning (RL) so với Supervised Fine-tuning (SFT) trong việc giữ lại kí ức cũ.