因子工程

因子研究接入 agent 之后,真正稀缺的是可复现的工具链

围绕 QRAFTI 这篇多代理因子研究论文,讨论 agent 进入量化研究后,为什么真正决定质量的不是提示词,而是数据、算子、工具调用和报告链路能否复现。

2026-04-259分钟
量化圈最近谈 agent,很容易把注意力放在自然语言交互、任务分工和自动生成代码上。但真正做过因子研究的人都知道,最脆弱的部分通常不在“想法提出”阶段,而在数据抽取、预处理、特征构造、组合映射和结果报告这些环节。QRAFTI 这篇论文的优点,是它没有把研究自动化理解成一个会回答问题的聊天窗口,而是明确把数据湖、面板数据、算子集合、MCP 工具服务和标准化报告拼成一条研究链。
Figure 1 的框架图把这个思路讲得很清楚。Factor Research Agent 不是悬在半空中的大脑,它依赖数据收集、预处理、代码代理和报告代理,再通过工具服务器去调用面板数据与研究算子。这种设计更像研究生产线,而不是单个智能体秀操作。对量化团队来说,这个方向是对的,因为真正决定能不能复现实验结果的,往往就是这些看上去最不性感的接口和约束。
  • 研究自动化最怕把流程问题误解成语言问题。
  • 可追踪的工具调用,比一段漂亮的自动代码更接近实务。

它做得比较扎实的地方,是尽量把经验性研究动作压成标准算子

这篇论文强调的 primitives、cross-sectional transforms、time-series transforms 和 portfolio construction,本质上是在回答一个老问题:哪些研究动作应该被视为稳定组件,而不是每次由研究员临时写一遍。只要这些组件足够清楚,agent 的作用就不是取代研究员,而是减少重复劳动、提升实验可重跑性,并把计算痕迹留在系统里。
这种思路比单纯让模型“帮我复现某篇因子论文”可靠得多。因为一旦算子接口稳定,研究失败也更容易定位:究竟是数据口径错了,还是变换过程错了,还是组合构造出了偏差。对于因子工程来说,这类诊断能力比多会说几句解释性文字重要得多。
  • 算子标准化能显著降低研究流程里的隐性口径漂移。
  • 把失败点暴露出来,本身就是研究平台的重要能力。

不过它的弱点也不该被忽略:平台通顺,不等于 alpha 研究已经被自动化解决

QRAFTI 展示的是一套研究组织方式,而不是已经被长期实盘验证的 alpha 生产线。论文里做的是多步经验任务、因子复现和流程演示,这些都很有价值,但距离“发现稳健新因子并形成持续超额”还有相当距离。尤其在样本选择、口径一致性、交易成本和数据泄漏这些老问题上,平台只能帮助减少失误,不能自动代替判断。
另外,多代理框架天然会带来协调成本和幻觉风险。代理越多,链路越长,调试和审计压力就越大。如果团队没有先把底层数据规范、权限边界和回测规则写死,表面上看起来更自动,实际上可能只是把错误传播得更快。
  • 研究平台解决的是流程稳定性,不是 alpha 稳健性本身。
  • 多代理并不会自动带来更好研究,前提是底层规范已经足够硬。

对量化团队更实际的启发,是先建设‘可调用研究栈’,再谈智能化外壳

把这篇论文落到实务,最值得做的不是照搬它的 agent 名称,而是照搬它的分层方式。第一层先固化数据与面板接口,第二层固化常用变换和组合算子,第三层固化评价模板和研究报告,最后再让 agent 去调度这些已有能力。这样做的好处是,即使模型表现不稳定,团队也仍然保有一套独立可运行的研究骨架。
说得更直接一点,量化研究里最昂贵的不是少一个会聊天的助手,而是同一因子在不同人手里跑出不同结果。QRAFTI 的真正价值,就在于它试图把这种口径漂移关进系统边界里。
  • 先做 deterministic 的研究底座,再接 agent,是更稳的顺序。
  • 复现成本下降之后,研究团队才能把精力放回真正的假设检验。

关键结论

  • 把因子研究拆成标准算子和工具调用,比让模型自由写代码更容易复现。
  • QRAFTI 的亮点在于研究过程可追踪,而不是语言模型本身多聪明。
  • 对量化团队来说,先固化数据接口和报告模板,再谈 agent 自动化,成功率更高。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105