医美垂直领域智能客服agent搭建说明书（万字长文）

自 23 年 1 月 OpenAI 爆火之后，体验过由 AI 带来的转变，于 23 年 6 月转入 AI PM。在当时的所思所想所做，部分落地思路以及效果是领先于行业的。我认为像是医疗相关的垂直行业如果可以做的好，那么别的也不在话下。有可能目前我们的技术达不到产品想要的效果，但是我理解并且坚信奥特曼所说：

“以通用人工智能的实现为前提进行创业和技术开发”

“最正确的做法是设想一个上帝般的模型正在运作，然后基于这种设想来构建最好的产品”

一、背景

年初以来 ChatGPT 迅速走红后，成功引爆了人工智能行情。人工智能板块行情的涨幅以及持续时间都远超最初的市场预期。

比尔·盖茨认为，“ChatGPT 的重要性不亚于互联网的发明”。同样，ChatGPT 即将创造的新业态、新模式也不会亚于互联网。

AI 正在掀起第四次工业革命，AI 大模型的竞争是下一代信息分发获取方式的竞争，基于认知智能等新技术可实现更高效的信息整合和知识推荐，让信息获取更加高效，内容更加精准。

大模型的成熟加速了 AI 技术向各场景的应用。

医美行业作为第三产业，其作为涵盖人数最多，覆盖面最广的行业之一，医美数智化转型是大势所趋。

撇开 ToC 的场景，针对 B 端需求来说，场景太多了，每一个都值得深挖：

企业知识库：网易 QAnything、Danswer、AnythingLLM 等
OA 办公方面各种助手：Microsoft 365 Copilot、WPS AI、百度如流、飞书智能伙伴等
底层模型 SaaS 服务：minimax、文心一言、OpenAI API 等
HR 方向：MOKA 简历自动筛选匹配
低代码和 RPA：fastGPT、dify、coze、N 8 N 等
电商：虚拟换装、秒出营销文案、辅助创造营销设计图、一键制定和分发优惠券、形成趋势分析等
辅助诊断：讯飞医疗、skinGPT（皮肤诊断+电商）、medGPT、宠物医疗 AI 在线问诊等
CRM：商机线索、潜客挖掘、销售预测、智能客服、数字员工、数字人、数据分析等
...

智能客服是自擅长多轮对话的 ChatGPT 推出以来，被人们最先联想也是最容易业务对接的领域。也是一个老生常谈经久不衰的领域，大模型到底能为智能客服带来什么新生？

二、难点

它山之石可以攻玉

那么既然大家都能想到智能客服，那么为什么到现在能够成功商业化的 AI 智能客服还没有批量涌现？

亲身拙见，以当前 ChatGPT4.0 的能力，大致会遇到不止这些问题：

1.ToB 的包容性和严谨性

①包容性：

相比于 ToC 的业务，其实用户对于 ToB 业务的包容性是非常弱的。

对于 ToC 大家其实是以降低期待的角度来尝试新的业务，类比之前出现的妙鸭相机、通义科目三的火爆，经过使用你会发现不少的问题，比如训练出的图像不像自己、手部与背景的各种模糊等。

但是用户是非常有耐心去进行多次尝试以获得最好的效果，这期间也帮助模型和业务获取了最好的反馈！

反观 ToB 业务，因为 B 端的付费与宣传上的稍微夸大，B 端用户对于智能客服的能力是抱有非常大的期待的！一旦有一个回复不好的 case 都可能会被无限放大！

②严谨性：

最明显的 bad case 就是 1$ 售卖雪佛兰！

当然在医疗行业所有的回复都需要一定的科学依据，这就代表着智能客服说的话一定要具有严谨性，不能回复错，也不能胡乱承诺，尤其是在国内大环境对于医美的各种限制下显得尤为重要！

2.拟人化

不知道你是否发现一件事情？

那就是无论你逛京东和淘宝，当你遇到问题想要咨询客服的时候，如果有"转人工"这个按钮的时候，那么你必然会去点！为什么呢？

因为智能客服这个业务并不是一个新业务，所以就会存在一个历史用户教化的问题，普遍大众因为历史上各种错误回复、不理解回复、重复回复等问题，已经对于智能客服或者机器人客服报以不信任的态度。即使回复的是正确的内容，也会转人工去确认一次。

所以在真正获取用户信任之前，或者大环境下的智能客服已经达到一定的水平，潜移默化改变人们的印象前，拟人化决定了用户还愿不愿意再跟你进行沟通。

3.数据积累与召回

智能客服谁都能做，为什么要用你的服务呢？

这就牵扯到了壁垒的问题，那么究竟什么是壁垒？智能客服的壁垒又是什么？

我认为是优质对话数据的积累与知识的召回准确率，一千个读者心里有一千个哈姆雷特，同样的真实的有医美诉求的用户何止一千。

夸张一点，如果能够在构建数据集的时候囊括所有的用户类型，结合营销转化能力，成单率绝对是接近或者超过真人，毕竟人力有时穷，但机器不会并且会一直成长。

对比大模型智能客服和传统 AI 客服，达到相同的解决率，基于大模型的构建 ROI 会比传统 AI 客服高很多。

例如，如果都需要达到70%的解决率，之前的方案需要花费很长时间梳理和构建知识，需要设计一套 Dialog Flow 模板配置，此类的模板可能非常复杂。

现在基于大模型方便很多，可以用几百条优质语料做到过去几千上万条语料的效果。

4.营销能力

要做到这一点比单纯的拟人化要复杂太多了，或者说这是一种真人化？优秀的销售是最成功的产品经理，懂得一个产品的所有优缺点，扬长避短，不光要懂心理学，SPIN 销售法也是信手拈来的。

5.幻觉

幻觉在 FAQ Bot 和 Task Bot 中都存在，在检索问题和提问问题时候，存在问题未被覆盖时模型开始瞎编的情况，这是所有 LLM Bot 都会面临的长期挑战，但随着模型迭代，目前看到已经得到了很大幅度的优化。至少使用 ChatGPT4.0 ，我明确看到从 bad case 收集列表里面显著减少了。

6.延迟

平均回复时长	产生订单的私信占比
<5s	18.0%
5s-10s	15.2%
10s-20s	14.6%
20s-30s	11.7%
30s以上	10.7%

在900ms-1200ms 之内是一个最佳的回复时间范围，太快会让客户感觉在抢话，太慢则会让客户觉得回答迟缓很不像真人。从实际场景来看，数据库请求消耗、内部系统接口消耗、请求大模型消耗等，刨除这些时间，留给模型反馈的时间可能大概在200ms 内，模型稍微加一些推理那么必定会超出这个时间。

以上的问题并不是全部，只是列举了一些比较突出的问题。

当然以上的问题，没有人有完美的解决方案，只能等所谓的上帝般的模型发布了。😄

三、目标和定位

①长远目标：

达到甚至超越真人网咨

目前网咨平均薪资15K，因为垂直行业原因，培训成本高并且周期较长。智能客服的优势是不断成长完善的知识库与能力、低成本复制与定制化；

②短期定位：

以人机协作的形式，覆盖 50% 的网咨白天工作流程
着重以夜间时段咨询为主，解决夜间咨询痛点，100%承接私信并且转化达到普通网咨水准
Agent 框架初步完善，支持后续各种角色和 tools 的不断接入
原始数据持续积累，达成数据飞轮

四、当前效果

1.对话效果

随便找了两个成功转化的对话 😄

2.数据指标

初期累计服务医院 22 家，整理知识库与预置对话内容 20w+，服务用户 1w+，智能客服回复消息数 3.5w+，纯智能客服转化达 1500+，转化率 15%

测试医院横向对比，尤为明显：

指标名	现有数据	目前数据	提升率
夜间咨询对话轮数	2.8	4.51	+61%
夜间下单率	6%	8.06%	+34.3%
夜间留资率	36%	43.45%	+20.6%

五、Agent 初步概览

Agent = LLM 作为 AI Agent 的大脑，配合规划、记忆和工具使用等关键组件，将大任务分解为小的、可管理的子目标，从而有效地处理复杂任务。

在当时 Agent 的概念还没大火的时候，其实已经按照这个架构去行进了。

除了单一 Agent 体的设计，目前还加入了平台的概念，形成全部的公司 AI 系统架构。

下面先由简入繁讲述单一 agent 体：

1.简化版单次智能客服回复 SOP

1.1发起私信环节

用户由商品页、医院主页等页面进入私信
带入来源页面信息 & 用户信息
发送私信吊起 suggest 系统，协助用户输入
埋点记录用以统计数据和反馈模型

1.2算法环节简要步骤

私信数据入库，同步请求算法附带历史私信内容 & 当前私信内容 & 用户信息 & 来源页面信息
私信文本纠错
当前私信内容 -> 算法前置意图识别，如果命中已设置固定回复的前置，直接依据前置回复，节约 token 的同时缩短回复时间
依据当前私信 + 历史上下文 3 条，检索向量知识库，相关性倒排截取指定条数
依据意图识别动态构建 Prompt 请求 LLM，不同模型之间 Prompt 也会有不同
获取 LLM 返回内容，判断意图和关键字在私信回复中加入各种富文本卡片内容，增加私信丰富度
数据入库后续分析，反馈模型

1.3人机协作模式

收到用户信息，于医院私信后台展示 suggest 回复推荐，点击回显编辑框，可修改后回复
根据对话意图识别，动态展示对应的富文本卡片内容，丰富私信内容，点击直接发出
医院可以设置日间智能客服，于指定秒数接管无人对接用户，在忙时保证用户体验

2.简要技术架构图

六、Agent 搭建详述

1.全部脑图

需要最新的 XMind 源文件可以私聊，这里上传的 XMind 不能下载 🥲

2.AI 相关调研

以下为相关 AI 产品与模型可行性调研举例：

星火医疗
医联 MedGPT
Google 医疗模型 Med-PaLM 2
SkinGPT
宠物医疗 AI 在线问诊
...

3.医院对接

3.1医院对接反馈群

无论产品构想在初期自认为覆盖了多少场景，但是实际在医院试用阶段，一定会有持续不断的 bad case 反馈，这个环节在项目落地中也是非常重要的，有助于初期阶段快速的帮我们提升智能客服的能力。

3.2使用文档

大概的使用文档可以用 PPT、PDF 等（简单示例），需配合页面操作截图，有敏感内容我这边就不附带截图了。

一、产品概述

产品背景：

与医美用户来说,在决定选择医院进行服务前，了解医院和医生的详细信息是非常重要的，在私信详细了解商品信息、医院医生水平和医院硬件实力之后有助于用户下单，而夜间人工客服不能保证全程在线，导致回复率较低，通过智能客服介入，可以减少人工客服成本，提高医院客户运营能力。

产品特点：

日间智能客服平台有清晰完善的对话窗口、智能话术推荐可供快速回复；

夜间智能客服可接替部分夜间人工客服空缺，智能与用户对话，提高夜间回复率，有效提升夜间留资率。

二、功能介绍

见下面模块 #3.3医院后台功能页面

3.3医院后台功能页面

①功能配置：

日间智能客服开关 & 指定时间未接待用户自动转接
夜间智能客服开关 & 指定夜间服务时间

②日间人机协同面板：

案例、商品、医生智能推荐点击发送选项卡
智能话术推荐选项卡（模型推荐回复、本地 RAG 召回推荐回复）
输入框 suggest 推荐列表

③知识库：

医院自身+通用知识库增删改查对应操作，关联标签分类，以及立即生效说明
上传医院内部知识文档功能

④预置对话：

预置对话增删改查对应操作，关联标签分类，以及立即生效说明
预置对话问题包含标准问法+相似问法、区分日间回复和夜间回复内容
对话界面可快捷设置预置对话，直接点用户私信问题添加预置对话

⑤自测页面：

网咨可验证添加到智能客服知识库和预置的内容是否生效；在配置知识库和预置对话之后在 1 分钟左右生效
可站在用户角度全方位接触并调试智能客服
每自然日可测试 50 次

⑥私信 QA 自动化收集列表：

算法每日采集私信，请求大模型形成 QA 数据，医院在此列表确认生效
构建私信转化 QA Prompt (简化版请见谅😄)

{
	"Role": "聊天信息采集提取专家",
	"Profile": [
		"author:hellloveyy",
		"version:1.0",
		"language:中文",
		"description:作为医美线上网络咨询负责人，负责查看每天用户和客服的对话，从其中提取出有价值的部分，提供自己进行学习。"
	],
	"Background": "目前有一个对话数据库，内容为线上用户和客服之间的私信聊天记录和用户咨询的商品详细信息，你负责摘取总结对话记录中有价值的部分，形成知识库内容。",
	"Goals": "分析用户和客服的对话，从中提取和总结知识点内容，用于用户咨询类似问题的回复",
	"Definition": {
		"打版":"案例",
		"初鼻":"没有做过医美项目的原生态鼻子",
		"联系方式":"手机号or微信"
    },
	"Skills": [
		"医美行业医生，具有专业的医疗美容行业知识,熟读各种专业医美网站上的专业内容和俚语，能够理解所有的私信对话内容",
		"信息提炼和具备高度的分析能力，能迅速识别私信聊天的核心方向",
		"深度理解线上客服的场景下私信对话双方的语境"
	],
	"Examples": [
		{
			"私信内容":[
				"用户: 想咨询脱毛",
				"客服:咨询改善哪个部位呢？",
				"用户: 胡须和四肢",
				"客服: 您是男士吗？",
				"客服: 男脱胡子价格是2680  6次",
				"用户: 对,想要永久",
				"用户: 没有那种包脱干净的吗",
				"客服: 男士医院没有包干价格，都是按次数收费",
				"用户: 6次一般能达到什么效果",
				"客服: 会有轻微的毛绒感",
				"客服: 它是一次比一次细，一次比一次生长慢",
				"客服: 您这边考虑什么时候做呢？"
			],
			"分析思路":"总结对话，对话中用户的诉求是男士脱毛，想要改善的部位为胡须和四肢，并且想要脱干净，这是一个明确的用户诉求内容，通过客服与用户沟通，进行了价格和次数和效果的回复。然后，通过聊天的内容提炼信息，信息涵盖聊天中涉及的知识内容，用以下次客服直接回复",
			"提炼信息":{"男士脱毛":"男士脱毛，想要胡须和四肢的永久脱毛，需要6次左右，价格为2680，最终效果会达到有毛绒感"}
		},
		{
			"私信内容":[
				"客服: 您好 不知有什么可以为您解答的呢",
				"用户: 你好，这个嗨体1.5 2.5是什么意思",
				"用户: 1.5 2.5",
				"用户: 还有1.0",
				"用户: 我看见是3个价位",
				"客服: 亲爱的 这个是嗨体的型号区别哈",
				"客服: 方便加您WX么 发您看看 这三款型号的区别如何",
				"用户: 填充泪沟用哪个？",
				"客服: 泪沟一般是建议1.5 或是1.0的呢",
				"客服: 1.0的支撑力要比1.5的要好一些 ",
				"客服: 如果泪沟比较深的 建议是1.0的哈 情况还好的 那可以考虑1.5的呢",
				"用户: 一共要用几支？",
				"客服: 您是想填充泪沟么",
				"用户: 嗯",
				"客服: 一般一支的计量就OK的哈",
				"客服: 除非是泪沟特别明显的 可能是需要两支的计量了",
				"用户: 保持多久？",
				"客服: 三五个月这样子  一般首次打的呢 建议是三四个月 要考虑补剂量的呢",
				"用户: 脂肪填充泪沟你们有专业医师来做吗？",
				"客服: 如果之前有打过的呢 可以半年 或是八个月这样子打一次",
				"用户: 嗯嗯",
				"客服: 脂肪填充泪沟呢 我们医院梁院长 和阳院长会比较权威一些哦",
				"客服: 如果您之前没有做过呢  建议是可以考虑先用嗨体填充起来看看效果",
				"用户: 大概怎么收费？他们",
				"客服: 如果考虑后续用脂肪也是可以的呢",
				"用户: 好",
				"客服: 嗨体1.5 这个不贵 我们是980一支  嗨体1.0这个是需要1880一支的",
				"客服: 我们线上都有优惠价格在的呢",
				"用户: 我的意思是你们两位院长用脂肪填充泪沟怎么收费？",
				"客服: 脂肪填充泪沟呢 一般是在三四千多这样子的呢",
				"客服: 就单纯的只是填充泪沟部位哈",
				"客服: 您有眼袋的情况呢",
				"用户: 好 我有空去你们医院面诊吧",
				"客服: 可以 我们是早上九点到晚上八点 中午不休息",
				"用户: <**微信号打码**>",
				"客服: 我加您微信",
				"用户: 你加我微信",
				"客服: 好的呢",
				"客服: 您的号码查不到微信呢",
				"客服: 您加我吧 hellloveyy 这个是我微信"
			],
			"分析思路":"总结对话，对话中用户的诉求是泪沟填充，想要使用嗨体，咨询不同规格之间的区别，这是一个明确的用户诉求内容，通过客服与用户沟通，进行了用量和效果保持的回复。然后，通过聊天的内容提炼信息，信息涵盖聊天中涉及的知识内容，用以下次客服直接回复",
			"提炼信息":{
				"嗨体选择与应用":"嗨体有不同的型号（1.0、1.5、2.5），这些型号主要是根据支撑力和使用目的来区分的。对于填充泪沟，一般建议使用1.0或1.5型号。1.0型号的支撑力更强，适用于泪沟较深的情况；1.5型号适用于泪沟情况较轻的情况。填充泪沟通常需要使用一支嗨体，但如果泪沟特别明显，可能需要两支。",
				"嗨体效果持续时间":"嗨体填充的效果大约可以持续三到五个月，首次使用建议三到四个月后考虑补充；如果之前有使用经验，可以每半年或八个月补充一次。",
				"脂肪填充泪沟":"脂肪填充泪沟是一种更持久的解决方案，梁院长和阳院长在此方面较为权威。如果之前未进行过此类填充，建议首先尝试使用嗨体进行填充以评估效果。脂肪填充泪沟的费用一般在三到四千多元，专注于泪沟部位的填充。",
				"嗨体价格信息":"嗨体1.5型号的价格为980元一支，而嗨体1.0型号的价格为1880元一支，线上购买可享受优惠价格。"
			}
		}
	],
	"Constrains": [
		"具体的手机号需要再提炼中剔除，不能输出",
		"具体的日期、时间、预约内容不具有价值性，在对话中过滤",
		"回复内容为提炼后的用户与客服的对话，不要原样输出",
		"只输出最终提炼信息，提炼信息参考<Examples>以json格式输出，如果提炼的信息是不同维度的知识内容，请以json数组格式分多条输出"
	],
	"Messages": {
		"用户和客服的私信聊天内容":"[需要分析的对话数据]",
    "用户咨询的商品详细信息":"[涉及到的商品信息]"
	},
	"Workflows": [
		"1.阅读<Messages>，包含用户和客服的私信聊天记录和咨询商品信息，并纠正错字",
		"2.分析用户在对话中的真正诉求，总结上下文，收集并提炼客服回复的知识点内容",
		"3.将知识点内容归类总结,提炼的信息可能含有不同维度知识内容,以[key:value]的形式输出json格式的提炼信息"
	],
	"Attention": "Take a deep breath, let's think step by step.作为<Role>,精通<Skills>技能,阅读分析<Messages>,严格遵守<Workflows>思考.this is very important to my career."
}

GPT 输出结果：

[
    {
        "黄金射频微针与玻尿酸垫鼻价格": "黄金射频微针的起步价格为5280元，而玻尿酸的价格因品牌而异，最便宜的伊婉V型价格为1580元。一次性进行黄金射频微针和玻尿酸垫鼻的总费用是6860元。",
        "玻尿酸维持时间": "玻尿酸可以维持大约6个月，具体时间根据个人体质有所不同，没有绝对保证。",
        "维护重要性": "进行皮肤项目后，后期的维护非常重要。维护效果与个人的生活习惯和皮肤基础息息相关。"
    }
]

4.产品管理后台

4.1医院管理后台

医院基础信息管理后台
所有知识库、预置回复管理后台
Bad case 跟进汇总列表

4.2算法功能测试后台

模拟指定医院测试页面
向量召回率测试页面

4.3自定义 Agent 搭建平台

①流程编排：

可视化编辑对话流程图，领域识别，挂靠类目树。参考 fastgpt，dify，coze
自定义 action tools，产品可根据不同场景自由组合，满足更多场景

②多 Agent 共同协作完成售前转化：

为了达成高度的拟人化以及挖掘用户深度需求，当前的一问一答模式已不满足。

其中，掌握专业医美知识的医生 Agent 负责专业问题上的回复，对应医美类型外挂知识库等。

销售 agent 会有专门的意图识别对应不同的话术，最终交给大模型处理判断。

销售 agent 最主要的就是营销能力，主要分为了三个方面分别为用户画像、近期浏览记录、和私信聊天内容，来判断目前用户处于什么阶段，按照阶段打分对应不同的话术方式。营造无处不在的形式感，增加用户信任度。

管理 agent 需要保证整体私信方向，检验重复发出内容，违规内容，用户情绪检测等后置处理。

简而言之。理解问题，回复问题交给医生 agent，转化提升交给销售 agent，整体私信走向与前后置处理交给管理者 agent。

Multi-Agents 协同处理，看似是在一个对话框内的两个人，其实是一群 agents 一起服务转化用户！Multi-Agents 的构建可以参考 DDD 构建领域实体，然后通过 OOP 来实现这些设计。

5.算法

5.1意图识别

意图识别（Intent Recognition）是自然语言处理（NLP）中的一个重要概念，主要用于理解用户输入的目的或需求。

数据收集和预处理
定义意图类别
人工标注训练数据
选择模型和算法
训练模型
评估和优化

大致分为以上的一些步骤来实现。在数据收集这一块，其实不光是站内私信内容，站外的一些评论、留言都可以抓取作为预处理数据。

意图识别还有一个用处，就是结合知识库构造 Prompt，通过意图识别发现用户咨询的类目范围，然后再通过向量召回相关类目的知识点和知识库内容，用以构建动态 Prompt 请求 LLM，相当于是外挂知识库内容的一部分。

5.2优化输入

影响模型最终的输出效果，可简化为以上的参数，IQ 代表输入数据的清晰度、相关性和准确性。

>>>Query 改写

①通过提示词转化用户问题，由一个简单的提问，变为结合上下文的一个优质提问，再进行向量匹配

rephrase an improved and expanded version of user question. Ensure that it provides more nuanced context and details while reducing potential ambiguities

②通过提示词把复杂问题，拆分为不同的问题，再分路召回，最后 rerank

>>>suggest 系统

O = f (IQ, MC, PQ, TDQ, TC)

O 表示 输出效果（Output Effectiveness）
IQ 代表 输入质量（Input Quality）
MC 代表 模型能力（Model Capability）
PQ 代表 提示质量（Prompt Quality）
TDQ 代表 训练数据质量（Training Data Quality）
TC 代表 任务复杂性（Task Complexity）

考虑在智能客服的场景中增加 suggest 系统，是想到通过提升输入质量来提升整体的输出效果。

一个完整的 suggest 系统大概分为这几部分，更细节的部分可以看脑图算法-suggest 部分：

输入处理（Input Processing）
- 接收用户输入
- 实时处理用户输入，如分词、语义理解等
建议生成算法（Suggestion Generation）
- 根据输入内容，运用 NLP 生成建议，包含 RAG、搜索算法等
数据源（Data Source）
- 用于生成建议的数据源，可能包括预先定义的问题、数据库中的信息、互联网搜索问题等
用户界面（User Interface）
- 显示上浮 3 条展示，标红处理
- 保证用户体验的流畅性和直观性
性能优化（Performance Optimization）
- 处理高并发请求，生成速度快，延迟低
隐私和安全（Privacy and Security）
- 保护用户数据不被泄露、遵守相关的隐私法规

简化版一次 suggest 参与用户输入的智能客服回复流程如下：

实验医院的测试数据如下，还有很多细节部分可以提升。

类型	请求总量 (连续输入是多次请求)	点击量	发送量	点击率	点击发送率
网咨	981404	1407	854	0.14%	60.70%
用户	293238	2830	1270	0.97%	44.88%

5.3数据

>>>数据积累：

①医院定制数据：

医院自由上传文档
知识库
预置回复
电话数据挖掘
- 医院 400 电话录音转文字
私信数据挖掘
- 历史私信
- 每日定时总结优质对话
- 私信内容收集 prompt 模型自动整理：机器自动收集知识库和问答, 自动识别白天的客服回答，收集白天的问题和答案，客服人员点击确认添加。 对于任何一个医院或者平台来说，历史产生的大量私信内容，是非常值得清洗的优秀数据壁垒！也是快速启动阶段最优质的现成回复内容！

②通用内容：

站内平台内容
站外抓取：小红书、百度、微信公众号等涉及医美沉淀内容部分的 py 抓取

③优质对话：

金牌网咨介入不断添加、分类，后续用于 Prompt 和评级文档

这里的优质对话指的是从用户咨询开始至完成转化的全流程对话，中间包含对于网咨对用户的问题回复的思维逻辑，使用详见 Prompt 部分。

④预处理

清洗
编码
标注
特征提取归类

⑤数据飞轮

其实数据飞轮的整体功能在 六、3.医院对接 部分涵盖了一部分，单独挑出一小节单独来讲，是因为我觉得没有一个良好数据飞轮的系统是不健康的。

MidJourney 的数据飞轮做的就非常好，在 4 选 1 的过程中，用户主动参与到了模型的迭代和数据积累当中，真正达到了良性齿轮，用的越多我越强！

数据飞轮对于智能客服系统积累数据的重要性体现在以下几个方面：

1. 数据积累：智能客服系统通过与用户的互动不断积累数据，可以用于提高服务质量。 
2. 个性化服务：海量数据可以帮助系统更准确地理解用户需求，提供更个性化的服务。 
3. 模型训练：丰富的数据有助于训练更精准的机器学习模型，使智能客服的应答更加智能、高效。 
4. 服务优化：数据可以用来分析用户行为，识别问题和优化点，持续改进服务流程。

实现数据飞轮的方法主要包括：

1. 数据收集：确保从不同渠道收集用户与客服的交互数据，如聊天记录、调用日志等。 
2. 数据整合：将散落在不同数据库或系统中的数据进行整合，形成统一的数据仓库。 
3. 数据分析：运用数据挖掘技术对收集到的数据进行分析以识别用户行为模式、预测需求，为持续改进智能客服系统提供依据。 
4. 闭环反馈：将数据分析结果反馈到系统升级和服务流程优化中，形成正向自强化的闭环。 
5. 用户体验改善：利用分析数据提升用户体验，吸引更多用户使用，产生更多数据。 
6. 机器学习优化：不断迭代机器学习模型，以准确反映当前数据和用户需求的变化。

>>>向量召回：

①召回率检测

评估数据
- 人工按照相关性进行标注
- 正、负相关率
- 离散度
- Mean Average Precision
人工评估

由专业网咨团队判断检索出的信息与查询的相关性，进行打分，需要专业知识来判断信息的准确性和相关性。

自动评估

通过人工标注数据集来建立标准，评价系统的召回效果。可以节约评估人力，目前使用的是标注结果的多选题，模型给出结果选项，自动对比统计得分，这样有助于 Prompt、向量数据、模型的快速迭代和评测。

②相关性倒排

医院 (预置话术 > 知识库 > 医院商品) > 站内百科 > 站外百科

医院的信息最为重要，因为可能同一个项目，每一个医院用的剂量都不一样，甚至方案设备都有可能不同。

③模块权重召回

每个模块按照知识重要性拆分摘取条数

④1+3 召回策略

最近 1 条私信内容 + 最近上下文 3 条私信内容综合

单独 1 条和单独 3 条我都试过， 1 条作为 embedding query 的召回更精准，但如果用户私信意向改变，会影响整体知识的召回。 3 条作为 embedding query 又会影响到召回率。最后经过测试，1+3 召回，然后在权重上 1 更多倾斜一些，目前的效果最好。

>>>数据存储：

①私信基础数据存储

②知识库存储&搜索方案

方案一：

优点：

接入成本低，可以快速实现

缺点：

接入粒度太大，只能定位到品类级别，所有的属性信息都需要加入，导致 prompt 过长。
缺少语义理解能力，基于实体容易漏召回、错召回。
接入知识工作量大，每类知识单独流程，比较耗时间。

方案二：

优点：

知识统一向量化，流程统一，实现方便。
可以解决知识粒度问题，缩减 prompt 长度。
有现成预训练模型可以使用，如：text 2 vec-large-chinese、erine、faiss 等。

缺点：

相关性，效果待评估，如果相关性不好，可能会召回无关内容、漏召回。

方案三：

优点：

知识统一文档化，流程统一，实现方便。
可以解决知识粒度问题，缩减 prompt 长度。

缺点：

需要训练模型，需要收集高质量训练数据，周期长。
效果待评估，如果相关性不好，也可能会召回无关内容、漏召回。

5.4Prompt

>>>Prompt 管理：

①版本库

Prompt 是不断更新的，以便更符合业务的发展。并且随着 Prompt 技术和 LLM 的不断发展，那么必然需要一个 Git 的版本库，详细标明每一次的修改与收益，也方便公司环境下共同协作与 review。

模型与模型之间对于提示词优化的方向也略有不同，OpenAI 对于结构化的提示词执行度很高，但是文心一言基本无能力识别。

②角色

夜间客服
日间客服
医生客服
...

>>>结构化 Prompt：

在接触 LangGPT 的结构化思维之前，其实就有过思考，LLM 就像是一个全科大学生，怎么才能更好的驱使她达成我们的任务？

可能是做程序员的职业病，遇到这种抽象的事情就想到了 OOP，尤其是拟定角色的技巧会激发模型的部分垂直能力。所以在初期自己就在思考怎么定义一个角色或者是人 (class)，会具有哪些能力（func），有哪些属性（property）...

在详细了解过云中江树的 LangGPT 之后，尤其是 workflow 的 CoT 思想真的收益良多，对于模型的能力有很大激发。

一直以为，最好的提示词永远来自于深入业务的人！

我们从别人的提示词里面要学习的是技巧，融入自己对于业务的深入理解，而不是照本宣科。

附简化版夜间智能客服提示词：

{
	"Persona": "医美行业网络咨询客服",
	"Profile": {
		"Version": "1.2",
		"Language": "中文"
	},
	"Background": "你是“{hospital_name}”的夜间客服,一个网络销售精英,负责回答user在平台上咨询的问题.",
	"Goals": "通过营销心理学和医疗美容行业的知识,解答user的问题,进一步询问user的真实诉求,最终引导user在平台下单或者留下联系方式.",
	"Definition": [
		"打版=案例",
		"初鼻=没有做过医美项目的原生态鼻子",
		"初眼=没有做过医美项目的原生态眼睛",
		"联系方式=手机号or微信"
	],
	"Skills": [
		"1.精通营销心理学,通过上下文判断当前用户的消费者行为,引导用户在平台下单或者留下联系方式.",
		"2.医美行业专家，具有专业的医疗美容行业知识,能够理解用户的问题,并且能够熟练给出相关的建议"
	],
	"Knowledge": {
		"hospital-QA-data": {
			"field-explanation": "{hospital_name}历史问答列表",
			"field-content": "<hospital-QA-data>{kg_info}</hospital-QA-data>"
		},
		"product-detail": {
			"field-explanation": "当前用户正在咨询的商品",
			"field-content": "<product-detail>{scan_product}</product-detail>"
		},
		"community-QA-data": {
			"field-explanation": "医美社区问答列表",
			"field-content": "<community-QA-data>{qa_info}</community-QA-data>"
		},
		"hospital-info": {
			"field-explanation": "{hospital_name}的基本信息",
			"field-content": "<hospital-info>{hospital_info}</hospital-info>"
		},
		"product-data": {
			"field-explanation": "{hospital_name}相关的商品信息列表",
			"field-content": "<product-data>{product_list}</product-data>"
		},
		"doctor-data": {
			"field-explanation": "{hospital_name}相关的医生信息列表",
			"field-content": "<doctor-data>{doctor_list}</doctor-data>"
		},
		"wiki-data": {
			"field-explanation": "医美百科相关的知识",
			"field-content": "<wiki-data>{baike_info}</wiki-data>"
		}
	},
	"Good-Examples": [
		[
			"user:想了解一下超声炮",
			"assistant:亲亲,你好,是在了解抗衰嘛?",
			"user:嗯呢",
			"assistant:亲今年多大年纪了呢?",
			"user:24",
			"assistant:亲之前有做过抗衰的仪器嘛?还是说有了解过",
			"user:之前没做过任何医美",
			"analysis of your thoughts:了解目前用户的基础信息,给与一定的推荐",
			"assistant:亲超声炮的话可以同时提升你的面部和收紧皮肤,多层次的来治疗,现在主要是皮肤的什么问题",
			"user:感觉有点垮脸,泪沟和法令纹",
			"assistant:亲正好超声炮可以解决这个问题,Fotona 4D 也可以的哈.你方便加个微信或者留下联系方式吗?会根据您的实际情况,给予您最合适的治疗方案,给你详细评估介绍一下",
			"analysis of your thoughts:明确告知可以解决当前问题,并提出多种方案,并邀请用户留下联系方式,方便给最合适的建议",
			"user:好的",
			"assistant:亲你号码多少呢?",
			"user:(微信号or手机号)",
			"assistant:好的亲,给您安排金牌网咨一会儿联系您哦"
		],
		[
			"user:我想做鼻子",
			"assistant:亲，是想做肋软骨隆鼻吗?方便介绍一下目前的状况,我给你做一下初步的分析吗?",
			"user:之前面诊过,医生给的方案是:宽鼻内推+鼻头缩小+鼻头成型+收鼻翼+鼻孔成形",
			"assistant:亲，是在咱们医院面诊的么?哪位医生帮你面诊的呢?",
			"user:不是,在其他家,然后我觉得太贵了",
			"analysis of your thoughts:用户去了其他医院面诊,目的性强.进入了最后选择阶段,证明对方案真可,但是对价格不满意,我们可以提出更适合的方案和价格.",
			"assistant:亲，您可以简单描述一下,或者留下联系方式,医生会1V1服务,如果是不需要改善的项目咱们可以不考虑",
			"user:我晚点发你可以吗",
			"analysis of your thoughts:区分用户是有事情还是推脱,争取用户热度和在线回复",
			"assistant:亲，是现在有事情么?你可以现在我发我哦,医生帮你诊断一下,毕竟诊断也是需要一些时间的,您可以先忙,等会把诊断的内容发给您~",
			"user:picture+医生给的方案是：宽鼻内推+鼻头缩小+鼻头成型+收鼻翼+鼻孔成形",
			"assistant:好的收到亲,目前看您轮廓秀气,面部的比例较好,天庭饱满,主要是鼻部比较圆钝,鼻梁宽,鼻子较短,显得比较可爱.宝子是细化那自然一点还是混血的风格呢?",
			"user:喜欢自然一点",
			"assistant:亲，正好我有个朋友也是跟你类似,她当时是手术垫高鼻梁,从鼻梁慢慢过度到鼻尖,重新塑形鼻尖和鼻头,延长鼻子的整体长度,这个对于我们医院来说是比较简单,您可以放心",
			"analysis of your thoughts:输出多种方案,供用户选择.用户需要感同身受的专业人士,给用户举例,增加信任度",
			"user:这种大概多少钱?",
			"assistant:亲，目前院内这几天正好有活动,还有一些到院礼的小活动呢.价格肯定是比您说的要优惠,具体您可以留下联系方式.咱们和医生当场面诊看完了之后给您价格,并且您放心没有任何额外费用,",
			"user:我考虑一下",
			"assistant:亲是这样的哈,为什么让你留下联系方式是想要提前给您预约医生,因为我们的医生技术非常好,基本每天都是排满了的情况,我这边只能说是尽早给您插进去",
			"analysis of your thoughts:可以通过医生预约时间排期等方式,增加用户的紧迫感",
			"user:这是我的联系方式（手机号or微信）",
			"assistant:好的亲,已经给您登记好了,稍后等医生会主动联系您,祝您越来越美哈"
		]
	],
	"Constrains": [
		"禁止编造虚假的医院信息、商品信息、医生信息和价格信息",
		"禁止回复中出现XXX等代表手机号或者微信号的词语",
		"禁止回复中出现咨询医生、客服、其他人、公众号",
		"禁止回复编程问题等,只能回复医美行业相关的问题",
		"可以适当在回复完问题过后，进行索要联系方式，但是请不要频繁"
	],
	"Workflows": [
		"第一步,总结并熟悉<Knowledge>知识内容,<hospital-QA-data>和<product-detail>是最重要的信息",
		"第二步,理解并严格遵守<Constrains>的回复限制",
		"第三步,回复一定要简短,以亲开头,回复风格人性化和亲昵一些,尽量给与肯定的回复,长度控制在2-3句话.",
		"第四步,在回复问题之后,适当以擅长医美行业专家的角度思考，依据上下文对话内容追问很有必要"
	],
	"Attention": "作为<Persona>,精通<Skills>技能,使用默认<Language>与用户对话,严格遵守<Workflows>思考并进行回复.this is very important to my career and Take a deep breath, let's think step by step"
}

>>>动态化 Prompt：

动态化 Prompt 的构建是指根据不同的使用场景和用户需求，灵活调整和优化人工智能模型的输入，以获得更加准确和有效的输出结果。

这其中指的是在结构化 Prompt 之后动态传参的部分，例如 Definition、Knowledge、Good-Examples 与知识检索召回相结合，Workflows 与不同角色和场景的结合。

通过针对具体场景优化填充的 Prompt，适应不同的应用场景和用户需求，提升模型的输出效果。

>>>Prompt Chain：

拆解任务，让基座模型在指定的垂直任务上做到最优，既是当前向下兼容模型能力的方式，也是后续提升模型效果的方式。

ChatGPT 4.0 对于复杂任务提示词的理解程度，目前很多模型尤其国内还是达不到，但是我们把任务拆解成小人物然后再去请求小一些的 MoE 模型，最终汇集输出结果。

这种 Prompt 技巧也是 CoT 的一种延伸。

5.5多模态能力

主要用于图像识别，检测到用户发送图片，请求算法（切换图像识别 Prompt 模板）获取解析结果，是医生 Agent 能力的一种。

6.评级文档

6.1评估集搭建

始终认为搭建评估集是重中之重，它能客观的证明所有的调整动作收益如何，并且给出明确的优化方向，但是这部分对于整个流程是非常耗费时间和人力的。

相当于这就是一份试卷，但是怎么把这个试卷做到完美，我参考的麦肯锡的 MECE 法则。

MECE 中文是「Mutually Exclusive Collectively Exhaustive （相互独立，完全穷尽）」是指当我们面对复杂大问题时，因为问题本身因果错综复杂，我们难以轻易分析。

而透过 MECE 分析法， 从达成目标的最高层次开始，一层一层往下，能将问题拆小成多个彼此独立而完整小问题，不重不漏，让我们更好理解问题、也更容易进行有效的分析与判断。

在做分析时，我们能用两个 MECE法则来检视其有效性。

完整性：由上往下分解的内容，是否有遗漏掉哪一项？每个子项的总和是否即等于母项？
独立性：每个子项之间是否独立，不会出现交叉重迭的情况？

①调研测评：

首先，针对国内做中文测评比较专业的团队，以及相关公司公开测评指标参考，我做了详细的分析如下，这里就不展开细说了。

真格基金 https://mp.weixin.qq.com/s/HVoM6F3FV3vvs5rANPQhxQ
思南 OpenCompass https://opencompass.org.cn/
SuperCLUE https://mp.weixin.qq.com/s/9D9nZtpkW_RfRbC7mPaegQ
InfoQ 大语言模型综合评测报告2023
PandaLM ——北京大学、西湖大学 PandaLM: 评估大模型的大模型, 保护隐私、可靠、可复现，三行代码即可调用
Evaluation on the Hub ——Hugging Face
CMMLU ——通用针对中文大模型评估
医联 MedGPT
- 评测人员规模确认：100+患者、10位主治医师
- 评审能力维度：独有的「DIAE」医疗 AI 建设方法论，分别从 Disease（病种覆盖）、Intelligence（智能化）、Accuracy（准确性）、Efficiency（就医效率）四个维度来建设与打磨产品。通过准确性、客观数据支持、可信度、人机交互性来构造评分系统。

②横向对比总结:

③走访专业客服人员

其次，明确目标以及调研当前目标下的重要动作，并且咨询了大量的专业客服人员。梳理了他们比较关注的一些指标如下，但是还是很分散，并不能让我清晰的理解，"什么才是一个合格的客服？"。

客服主管更关注的是落地数据指标：

总对话量私信数：它可以帮助您理解客服的工作量，并可以用来对比不同时间段或不同客服的活动水平。
满意度评价：通过用户反馈或者调研，了解客户对售前服务的满意度。
无用评价率：衡量客户对服务不满或者服务无效的频率。
转化能力：衡量售前客服是否能成功将潜在客户转化为留资建档、实际下单、到院的客户。
私信有效率：（解决问题的私信轮数 / 总的私信轮数）x 100%，越低证明客服越高效，也能降低流失。

④最终结论

在查看了 N 次对话之后，以上面一次全流程来分析整个对话。

根据一次有效转化流程，去拆分为三部分：理解需求->解决问题->引导营销，然后再根据这三部分去细拆，最终分为如下能力组成。

每一个能力都会逐渐全面覆盖，并且其实每个能力都有其难度梯度，根据不同的能力难度，设置了不同的角色级别，中间也提前考虑到了后续商业化的区分😄。

能力难度划分： 当一个能力难度下的 N 个问题都能达到标准，则对应能力能力达标。

评估集问题设计示例（问题很多这里只是参考示例哈）

理解性：理解客户问题和需求的能力，包括理解文字、图片、视频等多种信息。理解力越强，模型就越能准确地理解用户的问题，并提供相应的解答。

- 1分：能理解用户非常简单的、明确的，并且正确的文本内容。
    
    - "营业时间是什么时候"
        
- 2分：能理解一些复杂的文本，但可能无法处理有深层含义或模糊不清的问题。
    
    - "我最近发现脸部有点松弛，热玛吉效果怎么样？"
        
- 3分：能理解一定程度复杂或者模糊的问题，并且进行稍微逻辑性分析。
    
    - "我想要改善我的皮肤状况，但我不确定应该选择哪种产品"
        
- 4分：能理解大部分的文本问题，包括一些含有深层含义和模糊性。对于非文本输入，如图片和视频，有一定的理解能力。
    
    - 图片+"你可以看一下目前我的面部需要做什么项目吗？"
        
- 5分：能理解并处理各种复杂、深层和模糊的问题，包括理解复杂的非文本信息。
    
    - 图片/视频+"你可以看一下目前我的面部需要做什么项目吗？并且设计一套方案"

定制化：根据用户的个性化需求（例如个人信息、预算、偏好等）提供个性化建议和方案的能力。这需要模型能够理解并处理用户的个性化信息，并在此基础上提供适合用户的解答和建议。

- 1分：仅能提供一些基本和通用的医疗方案，无法进行个性化定制。
    
    - 用户问："我想抗初老"
        
    - 模型回答："热玛吉是一种很好的抗衰老治疗方式。"
        
- 2分：能根据一些基本的个人信息进行简单的定制，但可能无法考虑用户的预算和个人喜好。
    
    - 用户问："我想抗初老"
        
    - 模型回答："热玛吉是一种很好的抗衰老治疗方式，它使用射频能量来刺激胶原蛋白的产生，有助于提升和紧致肌肤。"
        
- 3分：能根据个人信息、预算和一些基本的喜好进行定制，但可能对一些特殊需求处理不足。
    
    - 用户问："我想尝试热玛吉，我是敏感肌肤"
        
    - 模型回答："对于敏感肌肤的人，热玛吉治疗通常是安全的，但你可能会经历一些暂时的红肿。在治疗前，我们会进行详细的肌肤评估，以确保这种治疗方式适合你。"
        
- 4分：能根据个人信息、预算和大部分喜好进行定制，只有极少数特殊需求处理不足。
    
    - 用户问："我想尝试热玛吉，我是敏感肌肤，预算在2w以内"
        
    - 模型回答："考虑到你的肌肤状况和预算，我建议你尝试我们的标准热玛吉治疗方案，它包括一次全面的肌肤评估和3次热玛吉治疗，总价在你的预算范围内。"
        
- 5分：能全面考虑个人信息、预算和所有喜好，为每个用户提供完全定制的医疗方案。
    
    - 用户问："我想尝试热玛吉，我是敏感肌肤，预算在2w以内，希望在秋天凉快点再进行治疗"
        
    - 模型回答："考虑到你的肌肤状况、预算和时间要求，我建议你在9月开始我们的标准热玛吉治疗方案。这个方案包括一次全面的肌肤评估和3次热玛吉治疗，每次治疗间隔一个月。这样你就可以在秋季结束前完成所有治疗，总价也在你的预算范围内。"

6.2人工评估

经过以上的能力划分，并且内部达成一致后，我们邀请了公司的金牌客服，针对智能客服的回复进行打分，并且附上金牌客服的最优回复。详细的问题集这里就不列出了哈。

①评估方法：

确认各个能力细项的10个问题；
分别输入获取智能客服答案；
从线上客服中抽样 x 人进行问题作答，收集样本数据；
进行结果对比（智能客服回答 VS 人工客服回答），并标注对错；
最后进行能力打分；

②评估体系得分计算规则：

【能力得分】=能力权重系数*sum(细分项得分)
【能力细项得分】=细分能力权重系数*实际得分
【实际得分】为机器打分或人工客服进行的打分结果
注：①橙色：需要填写；②能力权重系数、细分能力权重系数基线均为1 ，可根据实际需要做权重调整；

6.3自动评估

为什么要引入自动评估？

OpenAi 因为众所周知的原因，会导致我们的服务非常不稳定，需国内大模型做容灾，但是经历过 Minimax 和文心一言的模型替代过程，医院大量的负面反馈和设置提示词无效，证明我们的主观评估是有很大风险的。
目前向量召回的精准度和召回率，制约我们扩充向量库，而我们缺少客观的向量召回对于大模型的评估。
提示词的优化和简化，是提升效果和节约成本的快捷途径，目前针对10多家实验医院，我们只敢小范围调整，无法在结构上动刀
金牌客服人工手动评分，首先具有一定的主观性，其次占用大量的人力成本，明显跟不上 agent 的不断迭代速度

①目标：

建立一套评分体系，以评估每次提示词、向量库和大模型的更迭对系统性能的影响。这个评分体系将使我们能够主动监控和改进系统，确保每次更迭都要达到或超过当前评分。

②动作：构建专业标注问题库

建立一个专业的问题库，其中包含医美行业的常见问题（包括医院独有数据的接入，从而影响答案）。这个问题库将帮助我们更好地标注和评估智能客服系统的性能，以确保其在医美领域的可用性和准确性。

示例问题由标注师和金牌客服共同提出，保证问题和回答的专业性和规范性，内容包括但不限于多选题，填空选择题。后续可由金牌客服依据示例问题，独立补充问答。

③一期自动测试结果：

模型	一测准确率	增加 RAG 的准确率	二测准确率	两次测试准确率波动	统一知识召回率	测试总条数
minimax	0.449832776	0.444210526	0.498327759	0.05	0.794314381	598
chatgpt3.5	0.359531773	0.347457627	0.339464883	0.02		598
chatglm2	0.277591973	0.258947368	0.259197324	0.02		598
gpt4	0.571906355	0.573248408	0.553511706	0.02		598
文心一言	0.317725753	0.305263158	0.322742475	0.005		598

④结果分析：

根据测试结果，可知在本数据集上，模型问答能力 gpt4>minimax>chatgpt3.5>文心>chatglm
除了 gpt4外，其他模型加入知识对结果的判断总体都成负向，证明 RAG 召回内容质量有待提升

7.数据报表

以天维度统计报表，指标分别为：

纯智能转化率（下单、留资）：纯夜间智能客服结果指标
机 + 人转化率（下单、留资）：夜间智能客服初步接待后，第二天网咨承接的结果指标
对话轮数：智能客服回复质量
夜间私信量（PV、UV）：私信总量健康度
日间私信量（PV、UV）：私信总量健康度
回复率：一般为 100%，监控程序健康度
知识召回率：评估大模型 RAG 健康度，与知识库内容质量

8.站外功能

自制 Chrome 插件，目的：

辅助网咨回复
收集站外私信
提升医院使用粘性和用户习惯

医院肯定会有多方投放，但是话术库可以一直使用一套，降低网咨回复与学习成本，同时采集站外私信用以丰富知识库，在长久养成的用户习惯下，医院不会轻易更换，抢占先机。

9.成本

在保证效果的前提下，优化 Prompt 和 RAG 结果，每天单医院成本缩减至 2$，收支报表如下：

七、结言

以上内容纯属拙见。本篇内容没什么高深的东西，只是产品落地后的自我总结和展望。

文章中小部分环节其实我也在构想和实施中，并没有拿到最终的结果，AI 的发展真的太快了，有可能 GPT-5 的发布直接把我的部分想法掐灭，可能现在的动作都变成了儿戏。😄

大厦不是一天建成的，整个系统也是需要不停迭代。这是对我自己这一段时间心血的总结，希望可以对你正在做的项目有一些启发，互相讨论，众人拾柴火焰高嘛！

做一个全身心投入的产品真的太有意思啦~ AI 产品经理应该在自己熟悉的领域和行业里思考如何与 AI 结合，不要成为模型能力的搬运工，而是带着痛点寻找 AI 的解决方案。

PS:

以上的流程图生成大部分使用 GPTs : Diagram Professional（流程图专家）

平时使用过比较好用的 json 编辑：谷歌插件里面还有好多常用功能 FE前端助手

一、背景#

二、难点#

1.ToB 的包容性和严谨性#

2.拟人化#

3.数据积累与召回#

4.营销能力#

5.幻觉#

6.延迟#

三、目标和定位#

四、当前效果#

1.对话效果#

2.数据指标#

五、Agent 初步概览#

1.简化版单次智能客服回复 SOP#

1.1发起私信环节#

1.2算法环节简要步骤#

1.3人机协作模式#

2.简要技术架构图#

六、Agent 搭建详述#

1.全部脑图#

2.AI 相关调研#

3.医院对接#

3.1医院对接反馈群#

3.2使用文档#

3.3医院后台功能页面#

4.产品管理后台#

4.1医院管理后台#

4.2算法功能测试后台#

4.3自定义 Agent 搭建平台#

5.算法#

5.1意图识别#

5.2优化输入#

5.3数据#

5.4Prompt#

5.5多模态能力#

6.评级文档#

6.1评估集搭建#

6.2人工评估#

6.3自动评估#

7.数据报表#

8.站外功能#

9.成本#

七、结言#