1、Data-centric LLM trainingSongxin ZhangSUSTechJuly 5th,20241/26Limit of Data Scaling2/26Intelligence emergeing with data scalingBLOOM,June,2022ROOTS is the dataset used by Hugging Face to trainBLOOM.I。
2、DataFunConDataFunCon#20242024Velox Memory ManagementVelox Memory Management段蒙 腾讯 高级工程师孟晓烜 Meta 软件工程师自我介绍 腾讯大数据Native Engine团队负责人 培养了3位Velox贡献者 目前贡献了147个commit,国内领先 Top Velox贡献者,#10,国内#1 Apache Uniffl。
3、DataFunCon#2024LLM时代下的指标平台建设实践刘豹-数势科技-标品研发负责人数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技Contents目录LLM拉开数据普惠序幕数据普惠实现路径指标平台相关创新点未来展望案例分享数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技01 LLM拉开数据普惠序幕数势科技数势科技数势科技数势科技数势科技数势。
4、DataFunConDataFunCon#20242024基于基于 Apache Paimon Apache Paimon 的的实时湖仓架构探索实时湖仓架构探索钟宇江 小米 背景 探索基于 Paimon 构建近实时的数据湖仓 未来展望Agenda背景背景现状 当前实时湖仓计算框架以当前实时湖仓计算框架以 Flink+Talos+Iceberg Flink+Talos+Iceberg 为主为主当前。
5、DataFunConDataFunCon#20242024数仓新篇章数仓新篇章云原生实时数仓云原生实时数仓 SelectDBSelectDB姜国强-飞轮科技-产品副总裁ContentsContents目录目录SelectDB 简介数据分析的痛点与机遇SelectDB的探索与创新用户案例SelectDB SelectDB 简介简介累计贡献者月度活跃贡献者在全球大数据开源项目排行中活跃贡献者数连续 。
6、推荐搜索技术的前沿探索施兴(叔宝)阿里云从大数据到大模型推荐搜索广告架构大模型的探索工程算法实践与沉淀Architecture 推荐搜索广告技术架构 大数据+AI一体化Engineering FeatureStore 训练推理加速 EasyRec开源算法库LLM 推荐广告结合LLM PAI-RAG搜索推荐广告技术架构 PAI-REC企业级推荐系统服务-基于阿里巴巴集团最佳实践搭建全链路推荐系统U。
7、DataFunConDataFunCon#20242024快手快手Flink on k8sFlink on k8s的迁移的迁移与稳定性保障与稳定性保障演讲人:刘建刚-快手-技术专家ContentsContents目录目录快手Flink介绍大规模迁移实践稳定性保障未来规划logo0101 快手快手FlinkFlink介绍介绍发展历程 Flink生产可用改造 实时计算平台建设 公司实时化转型2018。
8、DataFunConDataFunCon#20242024Fast-causal-inference Fast-causal-inference 腾讯开源分布式因果推断工具腾讯开源分布式因果推断工具演讲人-张婧婧-腾讯微信实验平台-数据科学家ContentsContents目录目录背景背景算子实现框架算子实现框架工程架构和性能工程架构和性能腾讯应用案例腾讯应用案例01 01 背景简介背景简介决决。
9、基于大模型实现结构化标签提取 助力指标体系用户画像构建SpotterGPT2024.07.06主讲人:梁伟引言01目录传统算法方案及其局限02生成式大模型的优势与发展03系统架构与关键技术04实际效果与自动化能力分析0520103用户焦点挖掘对 于 海 量 的 用 户 声音,难以快速分析用户 关 注 点,聚 焦 用户讨论中心05用户画像构建对 用 户 需 求 和 行 为缺 乏 深 刻 理 解,无。
10、Generative AI在广告中的应用AIGC技术与广告营销的融合1.数据测试驱动AIGC素材调优AIGC技术与广告营销的融合前言 AIGC技术大爆发对广告营销行业的变革 AI在广告创意中的融合与挑战 AIGC技术在广告营销领域的应用重要性信息流效果广告 数字广告的多样性 广告投放平台示例 程序化信息流效果广告的讨论重点信息流效果广告数字广告的多样性o展示横幅广告o文本链接广告o开屏广告o插屏。
11、DataFunConDataFunCon#20242024天穹数仓自治能力新实践张功贯-腾讯科技-数据技术架构师FlumeLogstashSqoopKafkaPulsarHBaseHDFSSparkFlinkStormMapReduceHiveDruidKylinImpalaPrestoOozieAzkabanZookeeperStarrocks个人简介张功贯(架构师)10多年大数据技术工作积累。
12、DataFunCon#2024基于Uplift Model电商平台优惠券分发优化吴维维eBay中国分析中(跨境电商部)/蔚来汽/字节跳动数据分析经理Contents目录背景方法论模型评估总结01 背景介绍传统的优惠券发放策略$0 Insertion Fee&Final Value Fee75%Final Value Fee$1Final Value Fee$0 Insertion Fee。
13、DataFunConDataFunCon#20242024提升大模型数学推理能力提升大模型数学推理能力演讲人:文亮-奇虎360-资深算法专家ContentsContents目录目录大语言模型混合指令合成数据训练优化01 01 大语言模型大语言模型大语言模型-结构总览模型模型时间时间公司公司范式范式规模规模GPT32020OpenAICausaldecoder175BPaLM2022GoogleC。
14、DataFunConDataFunCon#20242024指标体系在快手电商的应用探索指标体系在快手电商的应用探索温岩温岩 快手电商快手电商 数据内容产品负责人数据内容产品负责人ContentsContents目录目录业务数据产研用逻辑思考业务数据产研用逻辑思考数据应用体系的构建思路数据应用体系的构建思路快手电商的指标应用场景实践快手电商的指标应用场景实践业务数据产研用逻辑思考业务数据产研用逻辑。
15、DataFunCon#2024向规模向量数据的云原存储解决案徐冬-Zilliz个介绍 Zilliz 席程师 数据系统程师,Apache Hive Hadoop 贡献者 前阿级专家关于 Zilliz 全球第款向量数据库 性能和吞吐 线性扩展 模型编排 模型缓存 向量数据库云服务 超性能 全托管 度可定制Contents录向量数据库存储解决案典型例向量数据库为 AI 打造的结构化数据解决案嵌 数据的。
16、DataFunConDataFunCon#20242024AIAI大模型技术在知乎搜索大模型技术在知乎搜索等场景的应用等场景的应用张亚峰知乎 算法负责人logoContentsContents目录目录知乎大模型能力建设 AI搜索基于大模型的内容/用户理解AI Embedding 应用于搜索召回排序0101知乎大模型能力建设知乎大模型能力建设 知乎大模型基建-知海图 AI大模型模型基础能力评估:知。
17、DataFunCon#2024腾讯大数据实时湖仓智能优化实践演讲:陈梁-腾讯-级程师Contents目录湖仓架构智能优化服务场景化能力总结与展望湖仓架构HDFSCOSAuto OptimizeServiceSDK API易性 实时性能 查询性能 存储成本 运维成本智能优化服务CompactionServiceClusteringServiceExpirationServiceCleaningSe。
18、阿里云AI搜索研发负责人/邢少敏内容提纲产生背景PART ONE应用实践PART THREE技术方案PART TWO总结展望PART FOUR人机对话系统发展简史1950心理医师心理医师 ELIZAELIZAMIT Artificial Intelligence Laboratory19661972模拟精神病患者模拟精神病患者 PARRYPARRYStanford图灵测试图灵测试Alan Tur。
19、演 讲 人:金 路 智 慧 芽 大 数 据 负 责 人DataFunConDataFunCon#20242024PART ONEPART TWOPART THREEPART FOUR企业荣誉企业荣誉荣誉资质:荣誉资质:全球独角兽企业全球独角兽企业江苏省独角兽企业江苏省独角兽企业江苏省人工智能学会科学技术奖苏州新一代人工智能技术供给示范企业AI苏州行业领军企业苏州市新一代人工智能创新应用场景示范项。
20、基于生成流网络的用户留存建模by Shuchang,Jul 2024Modeling User Retention through Generative Flow NetworksXiangyu Zhao*City University of Hong KongZiru Liu(刘子儒)City University of Hong KongShuchang Liu Kuaishou Techn。
21、DataFunConDataFunCon#20242024企查查的数据降本增效之路任何强-大数据架构负责人企查查科技股份有限公司ContentsContents目录目录企查查的数据架构混合”云“架构的形成多云下的统一架构扩展一下0101、企查查的数据架构、企查查的数据架构HDFSHDFSMapReduceMapReduceYARNYARN原始数据原始数据Flume/Flume/LogStashL。
22、DataFunConDataFunCon#20242024随机实验随机实验AAAA问题的系统解决问题的系统解决演讲人:万博揆 滴滴出行 数据科学中台ContentsContents目录目录背景重随机1.1 问题描述1.2 AA问题的系统性梳理1.3 AA测试与重随机的互补1.4 回顾性AA分析与重随机的互补2.1 分析阶段的优化方案2.2 设计阶段的优化方案2.3 设计与分析的统一优化方案2.4。
23、DataFunConDataFunCon#20242024打造打造LLMOpsLLMOps时代时代PromptPrompt数据驱动引擎数据驱动引擎刘逸伦-华为-2012文本机器翻译实验室团队介绍:华为文本机器翻译实验室团队介绍:华为文本机器翻译实验室ContentsContents目录目录背景:从AIOps到LLMOps面临prompt挑战打造LLMOps Prompt application 。
24、DataFunCon#2024Data+AI一体架构的产品创新汤祯捷-阿里云-高级产品专家Contents目录Data+AI一体趋势MaxComputeData for AI能力MaxCompute AI for DW探索MaxCompute大模型应用最佳实践01 Data+AI一体趋势DataData +AIAI 市场主要趋势市场主要趋势DataData ForFor AIAIAIAI For。
25、DataFunConDataFunCon#20242024基于基于DorisDoris湖仓一体分析系湖仓一体分析系统在快手的统在快手的实践实践演讲人:李振炜-快手-大数据架构师ContentsContents目录目录公司OLAP分析现状自动物化系统湖仓一体分析系统架构缓存系统公司公司OLAPOLAP分析现状分析现状公司OLAP分析现状在当下的信息时代,数据作为公司一种重要的资产,OLAP分析提炼。
26、DataFunCon#2024大模型在智能电销的应用贺园 360数科 数据产品经理logoContents目录电销现状及问题大模型简介大模型在电销的应用未来展望logo 电销现状及问题logo电销定义及发展 电销的定义电销的定义电销是电话销售的简称,利用电话作为主要媒介,与客户建立联系,进行产品或服务的推介和销售的营销方式。电销发展历程纯手工阶段系统化阶段自动化阶段智能化阶段电销面临的问题 竞争。
27、DataFunConDataFunCon#20242024加速云端机器学习加速云端机器学习-AlluxioAlluxio在小红书的实践在小红书的实践李亚斌 小红书大数据技术专家ContentsContents目录目录面临的挑战多云数据加速层小红书实践案例未来规划0101 面临的挑战面临的挑战小红书多云业务架构特点 多云架构,成本优势明显,但业务通信链路复杂 不同region之间rt差异大 专线容。
28、朱杰Elastic中国首席解决方案架构师 160K+Commits110K+GitHub Stars46亿+累计下载量120亿+Elastic Cloud 每天搜索的量200K+Pull Requests过去需求现在需求全文搜索结构化搜索聚合统计复杂混合搜索排序调优分词向量搜索向量和经典搜索的混合语义搜索模型重排序RAG文档加工切片索引构建Query理解改写扩充Elasticsearch多路召回。
29、DataFunCon#2024Apache Celeborn在B站的最佳实践蒋晓峰-哔哩哔哩-资深开发工程师Contents目录Apache Celeborn背景概览Apache Celeborn原理剖析Apache Celeborn生产实践Apache Celeborn规划展望01 Apache Celeborn背景概览传统Shuffle痛点 传统Shuffle缺陷1.依赖大容量本地盘/云盘存。
30、从Data到Data+AI数据基础设施第三次演进的观察与思考演讲人:曲宁 云器科技产品总监2024.7.5Agenda010203当前数据平台发展现状综述面向未来的几个发展趋势和未解难题新一代数据平台架构演进思路与验证云器科技版权所有2023,迎来数据平台技术第三次革命1.1970年代,数据库时代1.关系型(relational model)数据库和SQL(Structured Query La。
31、DataFunCon#2024企业数据编织演变:从物理到逻辑,创造新质生产力郭杰Denodo Technologies大中华区技术总监Contents目录成功与挑战逻辑数据编织优势企业角色与使用场景成功客户故事Denodo公众号数据编织咨询群成功与挑战将您的数据迁移至单个.数据仓库数据湖云业务需求也在发生变化IT减少 ETL 作业和数据移动对节省成本有巨大影响降低数据复制比率可以减少开支优化查询。
32、李劲松/Paimon PMC Chair 关于我关于我阿里云开源大数据表存储团队负责人PMC Member of Apache FlinkCommitter of Apache IcebergPMC Chair of Apache PaimonContent实时湖仓PART ONE应用场景PART THREEApache PaimonPART TWO前沿技术PART FOURPARTPART O。
33、DataFunCon#2024智能NPC:AI为游戏NPC注入“灵魂”演讲:邱东洋-腾讯游戏AI程师Contents目录AI带来的机会我们的实践未来思考通过智能交互技术探索,提供活跃/维系游戏用户的创新产品解决方案01/王者荣耀小妲己(游戏知识问答/02/和平第五人的(AI语音助手/03/天天象棋无障碍版05/天涯明月刀(绝智阿暖/智能NPC04/浙江卫视谷小雨智能语音交互屏01 AI带来的机会。
34、DataFunCon#2024小米基于 Data/AI 一体化的湖仓多云实践演讲人:肖杰宝-小米-软件研发工程师Contents目录主题一:湖仓多云架构探索实践主题二:湖仓表格数据多云实践主题四:未来规划主题三:Data/AI 非表格数据多云一体化实践01 湖仓多云架构探索实践 Hive 为主 存储主要为 HDFS 数据孤岛 存算耦合湖仓体系发展路径早期 引入 Iceberg 探索构建数据湖平台。
35、DataFunCon#2024基于ByteHouse OLAP架构如何实现性能向量检索引擎ByteHouse团队/彭信东Contents录向量检索概念及场景ByteHouse向量检索实现性能与资源使优化性能评测及未来作Contents录向量检索概念及场景ByteHouse向量检索实现性能与资源使优化性能评测及未来作什么是向量检索模型企业级模型问答系统向量检索案例向量检索的本质向量检索索引 Tab。