梁伟datafuntalk-2024北京站 - 基于大模型实现结构化标签提取v0.8.pdf

编号:169116 PDF 18页 2.98MB 下载积分:VIP专享
下载报告请您先登录!

梁伟datafuntalk-2024北京站 - 基于大模型实现结构化标签提取v0.8.pdf

1、基于大模型实现结构化标签提取 助力指标体系用户画像构建SpotterGPT2024.07.06主讲人:梁伟引言01目录传统算法方案及其局限02生成式大模型的优势与发展03系统架构与关键技术04实际效果与自动化能力分析0520103用户焦点挖掘对 于 海 量 的 用 户 声音,难以快速分析用户 关 注 点,聚 焦 用户讨论中心05用户画像构建对 用 户 需 求 和 行 为缺 乏 深 刻 理 解,无法 制 定 出 精 准 的 营销 策 略、产 品 设 计和 服 务 方 案,导 致资 源 浪 费 和 用 户 满意度下降素材分类整理对 于 海 量 的 社 区 用户 发 布 的 素 材 难 以快 速 检

2、 索、分 类 整理04产品反馈通路对 于 用 户 在 各 个 渠道反馈的产品/服务等优化建议,难以快速 检 索 并 传 递 至 有需要的团队02灵活数据标签当 前 固 定 的 分 类标 签,无 法 快 速响 应 事 件 爆 发 和产品迭代业务需求各式各样的数据采集源易于分析的指标平台 标签挖掘标签挖掘how?3.统计结论站内VOC分析和监控公域流量舆情监控2.VOC打标社区内容打标 内测圈打标 NPS问卷内容打标1.情绪分析科技活动户情绪 旧款车型退市户情绪4.实时监控车型上市实时舆情分析 舆论事件舆情分析5.预测及决策活动策划收益预估 用户情感波动预测预期目标010203提取准确率采 用 传

3、 统 机 器 学 习 算 法 实现,准 确 率 较 低,无 法 满 足实 际 应 用 数 据 分 析,需 要 大量人工校准。73%+准确率内容覆盖率 前 仅 针 对 调 研、问 卷、单 等 内 容 进 了 识 别 处 理;且 企 业 内 部 形 成 数 据 孤 岛,无法联动10%抽样比例人力成本大 量 数 据 需 要 人 工 标 注,不 仅耗时且标准不统一问题严重行业痛点人工标注速度100条/天线下活动NPS问卷内测反馈车展宣发传统算法方案输入非结构化文本实体命名识别候选实体生成候选实体消歧输出通用命名实体识别字典匹配上下文扩充搜索引擎基于名称字典的构造方法基于图方法基于概率主题模型基于词向量

4、分类基于深度学习正确的实体对象昨天上午九点多,在广州实验小学内消防部门举办了一场消防知识宣传讲座。时间地点主体事件传统模型 VS 生成式大模型能力上限低能力上限低知识容积小知识容积小训练开销小训练开销小(算力算力/数据数据)通用性较差通用性较差小而美小而美传统模型包括机器学习相关的经典统计算法,如SVM/PCA/HMM等,同时也包括深度学习模型,如word2vec词向量模型/RNN/LSTM/bert等。传统模型传统模型通常是具有大规模参数和计算能力的自然语言处理模型。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。生成式大模型生成式大模型能力上限高能力上限

5、高储备世界知识储备世界知识训练开销大训练开销大适配所有适配所有NLP任务任务大而强大而强传统模型一般参数量较传统模型一般参数量较少少,通过巧妙的结构设通过巧妙的结构设计来适应不同领域的分计来适应不同领域的分析要求析要求。在训练后能胜在训练后能胜任具体的下游任务任具体的下游任务,能能力一般但速度快力一般但速度快。生成式大模型参数量很生成式大模型参数量很大大,通过海量知识进行通过海量知识进行预训练后能胜任绝大部预训练后能胜任绝大部分分NLP任务任务,能力接近能力接近人类但速度慢人类但速度慢,训练开训练开销大销大第 一 阶 段第 一 阶 段第 二 阶 段第 二 阶 段第 三 阶 段第 三 阶 段第

6、四 阶 段第 四 阶 段Prompt EngineeringRAGFine-TuningAgent0101020203030404RAG是一种结合检索和生成的方法。该方法将信息检索与生成式模型结合,通过从大型数据库中检索相关信息,再利用语言模型基于这些信息生成答案。开放域回答知识密集型任务文本生成增强Prompt Engineering是设计和 优 化 输 入 提 示(p r o m p t s)以 引 导 大 规 模 语 言 模 型(如G P T-4)产 生 所 需 输 出 的 技术。这不需要修改模型本身,只需调整输入格式。内容生成问答系统文本翻译文本摘要总结Fine-Tuning是指在预训

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(梁伟datafuntalk-2024北京站 - 基于大模型实现结构化标签提取v0.8.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠