大模型落地最难的从来不是调 API,是把 demo 变成能跑的生产系统。5 月在真实项目里踩了一圈,总结一份避坑指南。
Prompt 工程
不要一上来就搞 RAG 和 Agent,先把 Prompt 写好。Prompt 写好有三条原则:
- 明确任务边界(让 AI 知道不做什么)
- 给示例(Few-shot 比纯描述有效)
- 限制输出格式(JSON 输出要做 Schema 校验)
幻觉问题
大模型 hallucination 没法根除,只能缓解。实战中有效的方案:
- 关键数据要用工具查询,不要让模型记忆
- 输出结果做交叉验证
- 高风险场景必须人工复核
成本控制
按 token 计费是线性增长的,业务量大了成本会快速上来。5 月实测有效的方法:
- 结果缓存:相同 query 30 分钟内返回缓存
- 模型降级:简单 query 用小模型,复杂 query 用大模型
- Prompt 压缩:去掉冗余描述,不影响效果的前提下省 token
监控和迭代
上线不等于结束。上线后的监控是持续改进的基础:
- 回答质量打分(可以训一个小模型做自动评估)
- 成本监控(每个 query 的 token 消耗)
- 异常 case 收集(定期加进测试集)
大模型应用是敏捷开发,上线只是第一个迭代。