RisingWave x 特征工程解锁实时特征新范式Patrick Huang|RisingWave LabsAbout MePatrick HuangRisingWave Labs-VP of Engineering(DB Kernel&Storage)Wechat Infra-Staff Engineer(Large-scale Online Storage)LinkedIn Infra-Senior Engineer(Kafka&Next-gen Streaming Platform)CMU DB Labs-Research Assistant(Peloton DBMS)23RisingWaveStreaming Processing+Fast Serving Store4RisingWave 诞生于 2021 年初,开发团队由资深数据库研究院,于来自AWS Readshift、Snowflake、Linkedin、Uber等知名企业的技术专家共同组成。我演讲嘉宾:关涛 云器科技联合创始人CTO自我介绍 20062006年,微软亚洲研究院年,微软亚洲研究院,构建微软第一代分布式KV系统SearchRepository(7000台物理服务器规模)和 Bing搜索的分布式存储后台Kirin Store(4万台规模)。之后加入微软美国云计算和企业事业部,主持和参与开发了包括 Cosmos/Scope(20万台规模),iScope,Azure Datalake 20162016年回国加入阿里云年回国加入阿里云,前阿里云 计算平台事业部 研究员,阿里巴巴通用计算平台负责人,负责阿里巴巴主线大数据平台(飞天MaxCompute,Dataworks,10万+规模)。前阿里和蚂蚁演讲嘉宾:阿里云出海安全&数据合规负责人刘偲超1海外数据合规发展态势2企业出海数据合规挑战与应对3阿里云出海数据解决方案4Q&A海外数据合规发展态势立法洞察联合国成员国已实施隐私法 71%71%联合国成员国已实施网络犯罪法 71%80%由2013至2023十年间改革网络犯罪法国家的增长率 71%26%来源:1.联合国贸易和发展会议于 2021年12月14日发布的 Cybercrime Legislation Worldwide来源 2:欧洲理事会于2022年12月31日发布的 The global state of cybercrime legislation 2013 2023企业表示网络安全是董事会常规议题,会按月或按季度开展演讲嘉宾:周海发&刘勋1TBDS 架构升级2统一元数据湖腾讯云TBDS产品形态1 套TBDS平台统一 2 种产品形态TBDS(Tencent Big Data Suite)是基于腾讯多年大数据实践,面向数据全生命周期,对外提供的安全、可靠、易用的一站式、高性能、企业级大数据平台。基础设施服务器产品说明经典大数据平台基于传统Hadoop技术生态构建具备开箱即用、极致性能、安全稳定等特性技术架构SparkFlinkYarnTrinoImpalaKafkaESHDFS容器采用全新Lakehouse数据架构设计存算按需伸缩新老架构可丝滑演进全新一代大数据平台基于云原生+大数据+AI技术生态构建具备稳演讲嘉宾:快手数据平台部 张力1大数据引擎向量化的原理、业界发展趋势2向量化在快手Spark引擎上的应用3Blaze引擎社区开源计划和未来目标内容关于向量化的介绍大数据计算引擎中的向量化是一种通过利用计算机硬件的并行处理能力,一次性处理多个数据的计算方法,从而提高计算的速度和效率。这种方法相比传统的逐个循环,可以大幅减少计算时间和资源消耗,并广泛应用于科学计算、机器学习等领域。向量化(Vectorization)是什么?列式存储(Columnar Storage)业界应用:Parquet、ORC等存储格式更高的压缩率更高效读取部分数据更适合向量化计算演讲嘉宾:张立理1研发工具的发展2企业落地经验3开发者实践4总结与展望1第一章节智能化的发展背景与落地诉求智能化的发展背景与落地诉求随着大模型的快速发展,智能开发领域正在经历由辅助到协同、由补全到生成、由代码到工程的进化由补全到生成体量能力效果职责交互Go FatGo Fat:更大规模的代码补全更大规模的代码补全代码续写(Completion)是智能开发工具最典型的能力,在编码过程中辅助用户,通过自动补全的形式提高编码效率。随着大模型的进步,理解能力与代码能力不断提升,当前大模型能够承担的工已不再局限于代码的补全,已经可数据信托:一种数据要素流通的数据信托:一种数据要素流通的新型解决方案新型解决方案目录数据要素生态分析1数据信托概念及方案2国内外的探索和实践32 2数据成为新生产要素,体现未来数据资源管理和利用的方向数据是数字经济中的关键要素之一。党的十九届四中全会首次将数据纳入生产要素,数据作为参与社会价值分配的生产要素,其重要程度与土地、资本、劳动力、技术要素并列。生产要素又称为生产输入,是人们用来生产商品和劳务所必备的基本资源。历史阶段生产要素农业时代土地工业时代第一次工业革命土地、劳动力、资本第二次工业革命土演讲嘉宾:涂勇1壹钱包大模型应用现状2大模型在数据管理领域的应用3大模型在数据风控领域的应用4大模型技术架构及平台建设RAG+PingAnGPT应用于H5/企微场景高效运营,及时响应提供基于知识库的专业问答具备智能营销能力中石油、商城、积分应用于风控场景可疑案件评定地域风险交易风险使用习惯风险风控运营应用于小程序的社区页提供宠物相关知识问答提供猫狗品种介绍提供宠物饮食指南宠物应用于大数据内部的数据治理场景辅助数据分类分级辅助元数据检索数据管理壹钱包大模型的应用场景JR/T 0197-2020金融数据安全分级指南s1s5数据安全级别人演讲嘉宾:王冠中1多模态大模型能力与场景应用3多模态大模型开发套件PaddleMIX2多模态大模型架构演进及特点多模态大模型能力与场景应用1第一章节什么是多模态数据或者信息的多种表示形式多模态的价值自动驾驶模态:视觉、语音、雷达、激光融合:数据级、特征级、决策级融合智慧医疗模态:CT,MRI,X-ray,患者病历融合:辅助临床决策、融合检索系统全屋智能模态:语音命令、触碰控制、视觉交互融合:智能音箱、智能照明多模态大模型多模态大模型多模态大模型的能力多模态大模型多模态理解多模态生成1 The Dawn of LMMs:Preliminary Explor演讲嘉宾:王琦智王琦智7 年编程与架构经验。曾在腾讯音乐、锦江等公司担任重要职务,始终致力于代码的开发与精进,并专注于开发者生态建设,研发效率及体验提升,开发者赋能。目前,在 PingCAP 负责 TiDB 生态系统架构及开发者 Advocate。实现 TiDB 与 AWS、GORM、MySQL Connector、Hibernate、DBeaver及 vscode-sqltools 等平台集成。并撰写了 TiDB 的开发者文档,使得开发者获得更流畅的 TiDB 开发体验。同时作为业务开发者代表,保障 TiDB 在开发者间的持续竞争力。1tidb.ai 是什么2简单 RAG 的实现方案3为什么需要 Rerank?4知识图谱演讲嘉宾:耿玄玄1第一章节 关于沐瞳2第二章节 沐瞳数据集成挑战3第三章节 沐瞳数据集成实践4第四章节 未来规划 上海沐瞳科技有限公司成立于2014年。公司总部位于上海,在新加坡、秘鲁、马来西亚、菲律宾、印尼等地设有分支机构。公司创立之初便立足于全球化游戏的开发,通过领先的研运优势,打造全球发行体系,已成功推出多款在海外具有高知名度的移动游戏产品,是最早一批致力于游戏出海的中国公司,也是拥有最多海外玩家的中国游戏公司之一。旗下产品包括Magic Rush:HeroesMobile Legends:AdventureMobile Legends:Bang Bang Watcher o演讲嘉宾:裴瑞光文件密级:机密背景基于Transformer架构的大模型由于其在文本理解,语言生成,任务推理与以及多模态上展现出极强的能力;在这个过程中,考虑到个性化,隐私,网络以及成本问题个性化,隐私,网络以及成本问题,相对于云端大模型推理,端上大模型推理逐渐扮演越来越重要的角色。端侧大模型市场将逐步增长个性化场景下,用户更偏向于使用端侧模型能力端侧大模型需有强需求场景12024年中国端侧大模型行业研究:算力优化与效率革命2On-Device Language Models:A Comprehensive Review文件密级:机密为什么需要端上大模型?无演讲嘉宾:赵喜生,腾讯机器学习平部1腾讯大语言模型应用场景2RAG技术原理及优化实践3GraphRAG在角色扮演场景中的应用4Agent技术原理和应用腾讯大语言模型应用场景1第一章节腾讯大模型应用场景内容理解内容生成智能客服文本创作内容扩写文案生成角色扮演开发Copilot定制翻译辅助评论文案润色素材生成输入联想文本审核图文匹配实体提取恶意判断标签提取诈骗识别文本摘要文本分类知识问答问题推荐用户引导情绪理解文档提取交互式任务智能客情代码评审低代码生成自动化测试代码生成Text2SQL自动补全优化建议角色扮演数字人情感陪伴游戏NPC剧多模态 RAG 的实现和机遇InfiniFlowInfiniFlow 金海金海1234基于语义抽取的多模态 RAG基于 VLM 的多模态 RAG如何 Scale 基于 VLM 的多模态 RAG技术路线的选择基于语义抽取的多模态 RAGVision EncoderPatch EmbeddingVision EncoderText DecoderObject DetectionTextText多模态 RAG“雕花”还是?路线一:“雕花”n 嵌入式图片n 文档布局n 表格n 字体路线一:“雕花”Documents文档结构识别模型页眉页脚段落图片表格扫描?OCR文字换行检测NYChunking结果标题补全图片截取表格结构识别模型流程图、饼图、柱状图Chunking结果多模态模型Chunking互联网广告场景下的大模型应用挑战与实践演讲嘉宾:陈权CONTENTS1内容域告预估挑战与模型应机会2全域为利:商品内容统表征框架COPE3外部知识利:LLM知识迁移框架LEARN内容域告预估挑战与模型应机会 问题1:跨场景跨媒介为数据难以全域充分利 户为散落在【场景x媒介】矩阵上,告为稀疏且分散,命周期不,法打通和效累积。问题2:告推荐模型缺乏外部知识和推理迁移能 封闭单的为数据利并推荐的闭环模式,告推荐模型容易陷局部最优,户接受的信息容易陷信息茧房。搜索搜索推荐推荐内容与商品生态内容与商品生态自然作品自然作品广告作品广告演讲嘉宾:陈齐翔-蚂蚁集团Who are weAnt GroupAlipayMission:“Make it easy to do business anywhere.”Ray Team2nd largest team contributing 26%+to Ray Core code)over 1.5 million CPU cores onlineOperating Ray China CommunityHistory of Ray in Ant1Background2Motivation3Design&Impl.1A typical AI AgentLLM-based AgentSource:“A Survey on Large Language Model based Autonomous Agents”(https:/arxiv.org/abs/2308.11432)Autonomous agent frameworkTypically requires:Profile:Personality,Misson Memory:Knowled演讲嘉宾:黄裕城-腾讯黄裕城腾讯海外游戏算法研究员 2022年加入腾讯IEG Global,主要从事游戏出海场景NLP&Speech算法的研究与落地 研究方向:多模态理解,大语言模型,AI智能体等1角色扮演的数据构造流程是什么?2角色扮演大模型如何进行训练?3角色扮演的评测体系如何构建?1游戏场景下机器翻译的挑战有哪些?2机器翻译如何有效利用大模型能力?3游戏场景下机器翻译怎么持续优化?1角色扮演的数据构造流程是什么?2角色扮演大模型如何进行训练?3角色扮演的评测体系如何构建?角色扮演大模型通用大模型的答案具有一种浓浓的Assistan