机器学习量化

组合 RL 如果只奖励收益,最后学到的通常不是风险约束而是侥幸

围绕《Risk-Adjusted Deep Reinforcement Learning for Portfolio Optimization: A Multi-reward Approach》,讨论多目标 reward 设计为什么是组合 RL 能否真正做到风险约束的关键。

2026-04-269分钟
组合优化里的 RL 论文很多,但相当一部分默认一个简单 reward 就足够代表投资目标。问题是,投资者真正关心的从来不只是收益本身,还包括回撤、稳定性和风险调整后结果。只用单一收益奖励训练 agent,最后学出来的策略往往并不是“懂风险”,而只是恰好在样本里赚得多。本文正面承认了这个问题,并尝试用 log return、differential Sharpe 和 maximum drawdown 三个不同 reward 先训练基础 agent,再做动作融合。
这件事的意义不在于模型结构多复杂,而在于它把“什么算好策略”从暗箱设定拉到了明面。只要团队还没有先把投资目标拆开,继续堆更深的 actor-critic 结构,通常也只是在把目标混乱包装得更复杂。
  • 组合 RL 研究里,reward 往往比网络更值得先审。
  • 这篇论文的第一价值,是把多目标投资偏好显式化。

方法上最扎实的部分,是它没有把 reward 多样化理解成简单加权平均

这篇论文不是把几个 reward 硬塞进一个 loss 里做加权,而是先训练多个面向不同目标的基础 agent,再用 CNN 融合动作。这种设计虽然未必是最终答案,但比“把收益和风险项调个系数混在一起”更清楚。它至少允许研究者区分:哪些行为是收益驱动,哪些是回撤约束驱动,哪些是 Sharpe 导向驱动。
这对实务很重要,因为资产管理里最危险的事情之一,就是把多个目标挤进一个看似优雅的单值函数,然后假装它已经代表了真实偏好。本文没有完全解决这个问题,但至少把它处理得更诚实。
  • 多目标投资问题,不适合一开始就假装能被一个 reward 完整压缩。
  • 动作融合虽然不完美,但比黑箱式单 reward 更可解释。

它的边界也不小:市场样本少、资产宇宙窄、成本假设依旧偏轻

和很多组合 RL 论文一样,本文依然在有限市场样本和相对可控的资产池上展示效果。虽然作者用了多个真实指数市场,但这距离大型多资产实盘环境仍有明显距离。训练稳定性、换手成本、再平衡冲击和 regime 迁移能力,在论文里还没有被充分展开。
此外,多 reward 框架带来的另一个现实问题是调参空间会进一步膨胀。基础 agent 多了,融合层也多了,样本外表现是否稳定,很容易取决于训练期刚好碰到的环境。也就是说,这篇论文更像研究方向上的纠偏,而不是已经解决组合 RL 落地难题。
  • 多目标 reward 能改善目标表达,但不会自动解决样本外稳健性。
  • 一旦训练维度增多,调参与过拟合风险也会跟着放大。

对量化团队最值钱的启发,是把 reward 设计单独列成研究审查项

如果把这篇论文翻译成团队方法,最实用的动作不是立刻复现它的 CNN 融合,而是要求所有组合 RL 研究先交一张 reward 审查表:收益目标是什么、风险约束是什么、回撤容忍是什么、这些目标是否互相冲突、最终 reward 是否会偷换团队原本的投资偏好。没有这张表,很多 RL 项目在立项时就已经偏了。
从这个角度看,本文比很多“RL 又战胜了基准”的文章更值得读。它真正给团队上的一课,不是某个算法赢了,而是投资目标如果表达错了,学得越快通常偏得越远。
  • reward 设计应该被当成投资偏好建模,不只是技术参数。
  • 组合 RL 想落地,先解释“为什么这样奖惩”比先解释网络层数更重要。

关键结论

  • 组合 RL 最大的问题常常不是网络结构,而是 reward 函数在替你定义什么叫“好策略”。
  • 这篇论文用 log return、differential Sharpe 和最大回撤三种 reward 训练基 agent,再融合成统一动作。
  • 真正有用的启发不是“多放几个奖励就更强”,而是把投资目标拆开显式建模。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105