问题域/PD-16

幻觉防控

LLM Hallucination Mitigation

大模型容易生成虚假、不准确或自相矛盾的内容,这在生产环境中会导致严重的信任问题和业务风险。该域聚焦于识别、量化和消减幻觉现象,通过多层验证、事实对齐和输出约束等手段提升Agent的可靠性。

子问题

1.幻觉检测:如何实时识别模型输出中的虚假或不可验证的信息

2.事实对齐:如何将模型输出与可信知识库、文档或外部数据源进行对齐验证

3.置信度评分:如何量化模型对其输出的置信度,并据此决定是否采纳或拒绝

4.输出约束:如何通过Prompt工程、结构化输出或解码策略限制幻觉的产生

5.降级策略:当检测到幻觉时,如何优雅地降级为检索、查询或人工介入

各项目的解法0 solutions

Signals

最佳实践

1.构建多层验证管道:结合语义相似度、事实检查工具和外部知识库进行交叉验证

2.使用引用追踪:要求模型为每个关键声明提供来源引用,便于溯源和验证

3.设置置信度阈值:根据业务场景设定合理的置信度门槛,低于阈值时触发降级或人工审核

4.定期评估和微调:建立幻觉检测的基准数据集,持续评估和改进检测模型

5.透明化不确定性:在输出中明确标注不确定部分,避免用户误信虚假信息