《1、2023 DOD会议 - 刘志伟.pdf》由会员分享,可在线阅读,更多相关《1、2023 DOD会议 - 刘志伟.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、蚂蚁集团研发服务体系的构建以及大模型的应用实践刘志伟2023 China DevOpsDays-8月12日 北京-刘志伟(比奥)刘志伟(比奥)技术风险效能部搜索与推荐团队负责人,负责:私域搜索,包括研发知识搜索、小程序私域搜索分布式链路追踪、微服务问题排查企业内智能客服代码大模型的数据、模型解释性方向现就职于蚂蚁集团,高级技术专家软件开发的挑战很大程度在于规模性。规模的大小,使得技术挑战完全处在不同的量级上。以蚂蚁为例:微服务规模大:一笔调用包括了成百上千个服务,平均 320 个 数据量规模大:每天产生 PB 级的服务调用数据 协作人员规模大:1 万+研发工程师协作服务调用量高,研发人员多,问
2、题的发生后,如何高效率的解决是非常有挑战的事情引用:图片引自:https:/ jar 包、版本配置不兼容、镜像中心异常等等 部署:部署:服务无法成功部署和运行起来,例如磁盘满了、内存不足、bean 配置错了、中间件启动失败等等 测试:测试:由于测试用例或环境问题导致测试无法成功,例如测试框架启动失败、DB 访问失败等等 联调:联调:服务调用无法正常,例如服务调飞、参数传错、消息没有投递成功等等 运维:运维:线上服务发生告警,例如成功率下跌等等 客户:客户:外部客户使用产品发生异常,例如付款没成功,支付顺序等等搜索类方向的问题场景 代码不知道怎么用(找不到参考代码)某个中台接口,38 个入参、3
3、7 个出参,20 个错误码。支持上万的业务场景(包括了如扫码付、地铁协议支付),每个业务场景该传什么参数 使用一个开源的组件,接口文档不清晰,不知道怎么用 重复开发造成低效工作量浪费重复开发造成低效工作量浪费 要做个协议转换,知道肯定有人已经写过了,但不知道哪里有,重复开发 看到某网站使用了一个厉害的前端组件,怎么才能快速找到自己也用起来 影响太多,不敢改代码影响太多,不敢改代码 支付流水号扩位(16 位改 32 位),数周到数月的人工批量检查大规模代码 漏洞止损难漏洞止损难 业界 log4j 报了安全漏洞,全仓库有没有使用有问题的 log4j 版本 全仓库是否有明文秘钥,以及泄露在哪些地方了
4、 基础框架升级难基础框架升级难 Python2 要升级 Python3,全仓库哪些地方使用 Python2,升级进展怎么样 代码定位难代码定位难 日志报错在哪打的,谁改了这段代码复杂问题需要体系化的解决方案需求设计开发测试运维客户问题分布式链路追踪诊断&根因定位智能客服通过搜索找到问题答案技术问答论坛问题发生问题解决DevService(研发服务体系)联调通过搜索找到答案研发领域的搜索的重要性搜索是解决大规模数据下信息和知识如何高效获取的问题58%开发人员 58%的时间是在搜索和阅读理解代码60%11%当开发人员能轻松找到他们需要的东西时,他们觉得自己有能力完成工作的可能性高出 60%,此外,
5、只要团队仓库易于搜索,就有 11%的生产力提升数据来自:https:/ program comprehension:A large-scale field study with professionals搜索当前的痛点问题以小程序私域搜索为例:以小程序私域搜索为例:搜索流量小,实际引导和转化效果差1、搜索框入口和Query下拉列表无任何提示引导2、搜索发现和热搜榜单固定词条配置,“千人一面”3、销量主导下商品排序因子单一,中长尾商品无曝光和转化搜索改版前研发域搜索架构关键点 产品层,搜索能力接入 多种数据源对接方式 离线索引数据计算和生成 索引数据存储 用户画像,千人千面 在线高性能相关性召回
6、应用案例介绍:支付宝小程序云 -智能搜索应用案例介绍:支付宝小程序云 -智能搜索分布式链路追踪诊断&根因定位分布式链路追踪诊断&根因定位整体架构关键点 超越 OpenTelemetry Data 的数据体系构建 超大规模的分布式链路追踪 低代码诊断工具平台 根因定位 服务性能分析超大规模链路的构建 链路完整度 99%+超大规模的微服务链路秒级到分钟级构建完成trace log files日志存储链路构建每天 TBPB Trace 日志,关键字段采集,全量存储聚合&分析计算Sofa-tracer应用服务级到代码级的两