幻觉防控

LLM Hallucination Mitigation

大模型容易生成虚假、不准确或自相矛盾的内容，这在生产环境中会导致严重的信任问题和业务风险。该域聚焦于识别、量化和消减幻觉现象，通过多层验证、事实对齐和输出约束等手段提升Agent的可靠性。

子问题

1.幻觉检测：如何实时识别模型输出中的虚假或不可验证的信息

2.事实对齐：如何将模型输出与可信知识库、文档或外部数据源进行对齐验证

3.置信度评分：如何量化模型对其输出的置信度，并据此决定是否采纳或拒绝

4.输出约束：如何通过Prompt工程、结构化输出或解码策略限制幻觉的产生

5.降级策略：当检测到幻觉时，如何优雅地降级为检索、查询或人工介入

Signals

1.构建多层验证管道：结合语义相似度、事实检查工具和外部知识库进行交叉验证

2.使用引用追踪：要求模型为每个关键声明提供来源引用，便于溯源和验证

3.设置置信度阈值：根据业务场景设定合理的置信度门槛，低于阈值时触发降级或人工审核

4.定期评估和微调：建立幻觉检测的基准数据集，持续评估和改进检测模型

5.透明化不确定性：在输出中明确标注不确定部分，避免用户误信虚假信息