1、DataFunConDataFunCon#20242024阿里云大数据阿里云大数据AIAI一体化最佳实一体化最佳实践(数据开发视角)践(数据开发视角)刘一鸣(合一)阿里云 自研大数据产品负责人ContentsContents目录目录大数据AI开发范式的变化阿里云大数据AI一体化架构演进Data+AI场景实践分享0101 大数据大数据AIAI开发范式的变化开发范式的变化Data+AI 典型开发生命周期DataData +AIAI数据预处理数据预处理对数据进行清洗加工、数据转换、特征选择、特征提取等数据准备数据准备对数据进行初步分析,了解数据分布及字段指标情况模型评估模型评估 将模型预测结果与实际
2、结果进行对比,从而得到模型的准确率模型部署模型部署对模型进行部署发布,从而实现模型流程化使用模型训练模型训练为达成高识别率的目标,使用大数据,找出最优配置参数模型开发模型开发选择多种数据挖掘技术(SQL、Python等)和工具进行模型创建以数据为中心的模型开发ModelDataModel-centric AIModelDataData-centric AISource:A Chat with Andrew on MLOps:From Model-centric to Data-centric AlData-centric MLModel-centric MLWorking on code is
3、 the central objectiveWorking on data is the central objectiveOptimizing the model so it can deal with the noisein the dataRather than gathering more data,moreinvestment is being made in data quality tools towork on noisy datainconsistent data labelsData consistency is keyData is fixed after standar
4、d preprocessingCode/algorithms are fixedModel is improved iterativelyIterated the data qualityData+AI 项目成功关键点算力(基础设施)数据(80%)模型(20%)大规模 CPU 算力 大规模 GPU 算力高速网络海量结构化、非结构化数据管理大规模数据处理模型训练、推理模型管理案例1:离在线一体的智能推荐系统用户行为日志实时计算Flink特征库批流统一样本生成(Flink)样本库批流统一样模型训练(PAI-TF)数据分析实时分析 Hologres批量分析 MaxCompute模型中心模型1模型n在
5、线预测模型部署模型验证离线计算MaxCompute案例2:知识库检索增强的大模型问答系统原始技术/产品文档MaxCompute/Hologres/DataWorks/PAI/Flink文本 TextCHUNKQ&ACHUNKQ&A创建embeddings知识审核Embedding ModelBEG/SGPT/text2vec文本提取PDFTXT数据整理格式统一产品标签QA提取/语义切换数据清洗超链替换完整问题 PAI能做什么idcontentembeddingdoc_ididPAI是阿里云0.1,-0.1,0.1PAIidmapjoin内存限制0.5,0.2,0.9MCidPAI可以帮助用户0
6、.8,-0.1,0.7PAIidHolo迁移数据0.6,0.9-1.1HoloHologres/Elasticsearch/FAISS上下文 PAI是什么+本轮query 它能做什么LLM(+SFT?)ChatGPT/Qwen/创建embeddingsEmbedding ModelBEG/SGPT/text2vec融合上下文问题改写向量检索Prompt Engineering超链提取/精准输出/推理部署结果流式/BladeLLMLLM(+SFT?)ChatGPT/Qwen/完整问题+相关知识基于1,2,3回答PAI能做什么LLM生成相关知识1.PAI是阿里云2.PAI可以帮助用户3.PAI支持