问题域/PD-223

反思学习机制

Reflection & Learning Mechanism

Agent 交易后自动反思决策质量,将教训存入记忆供未来相似情境检索

子问题

1.反思 prompt 设计

2.多角色独立反思

3.记忆检索与应用

4.经验积累与遗忘

5.反思触发时机与外部信号(收益/亏损)的耦合

6.BM25 词频匹配在金融术语场景下的检索精度

各项目的解法1 solutions

Signals

横向对比

维度TradingAgents
反思触发交易后显式调用,传入真实收益/亏损值
反思粒度5 角色独立反思,每角色提取各自决策历史
记忆检索BM25 词频匹配,4 份市场报告拼接为查询 key
记忆注入top-2 历史教训拼接到 Agent prompt 尾部
反思模板统一 4 维框架:Reasoning/Improvement/Summary/Query
持久化纯内存,进程结束即丢失

最佳实践

1.每个角色维护独立记忆避免交叉污染

2.反思时提供客观市场数据作为参照

3.用统一反思模板保证多角色反思质量一致性

4.将 4 份市场报告拼接为情境 key 确保检索语义对齐

5.使用 quick_thinking_llm 执行反思以控制成本