《3-尹顺顺-Soul的AI社交探索.pdf》由会员分享,可在线阅读,更多相关《3-尹顺顺-Soul的AI社交探索.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、尹顺顺尹顺顺Soul AI技术负责人Soul的的AI社交探索社交探索2025/04/25CONTENT目录认识Soul01Soul核心技术02Soul AI产品展示03Soul AI社交思考04认识SoulSoul核心玩法灵魂匹配群聊派对广场瞬间用户私聊平台游戏陌生人社交的痛点Soul的AI解法Soul核心技术自研2.7B大模型架构对话模型2022.082023.05Pretrain+sft+3000亿token多模态|时间感知|知识性升级7.1B对话大模型SoulX开展人设对话技术自研长记忆|RAG2023.082024.06SoulX2推出端到端语音通话系统超拟人性,全链路延迟1.6s20
2、22.12Soul首个大模型结构的对话产品AI苟蛋上线人设对话效果打平行业主流异世界回响上线2023.102023.12狼人魅影Agent上线聊天助手上线数字分身代理上线2024.032024.09落地虚拟伴侣+语音通话落地AI群聊房主自研技术产品创新Now实时talking head全双工音视频通话探索中Soul AI整体布局Now基于实时视频生成的数字人直播Soul 数字分身(2024.03)阿里云PAIPAI-Megatron-Patch模型训练加速框架PAI-BladeLLM高效推理服务引擎基于形象id、音色克隆建模表征层基于用户画像、社交关系建模身份层基于用户画像、内容互动、对话观点
3、建模认知层构建对话、互动预测、身份识别、多模态等多种预训练任务,融入LLMClip hs对话session存储hbaseadaptorwhisperadaptorClip hsadaptor用户信息对话内容发帖信息记忆内容图片emb音频emb表情包embprompt压缩网格adaptor8*358432*358416*35841*3584336*336*3336*336*330sSoul 长上文压缩(2024.03)两阶段学习一阶段做文本自编码器任务,冻结LLM,仅微调压缩网络二阶段做对齐任务+自编码器任务,压缩网络&LLM参数全部放开压缩率超20CE-LossLLM-DecoderCompr
4、ess-CrossAttnCompress-LLM我是孙悟空我在花果山CE-LossLLM-Decoder你 是 谁 s e p 孙 悟 空Compress-CrossAttnCompress-LLM我是孙悟空我在花果山Stage-1Stage-26月底推出的SoulX-VoiceGPT4o的端到端架构基于通义funcodec+SoulX-base全链路延迟1.6s可完全脱离ASR(可选)具备基于LLM的语义判停chat+funcodecLLM+VAD判停流式LLMchat+funcodec+asrfuncodec解码1s200ms片段上文聊天USERaudio_token4921062/au
5、dio_token asr asr内容/asr ROBOT asr待推理的asr/asr audio_token 待推理的离散编码/audio_token Soul 语音通话系统V1(2024.06)AI自主决定说话时机无VAD和延迟概念,告别一来一往AI可能会主动说话AI可能会不回复你AI可能会回复很多句AI可能会打断你AI可能会和你合唱,同时说话吵架AI可能和你连麦睡觉Soul 全双工语音通话系统V2(Now)极简技术图CVPR 2025 Teller:Real-Time Streaming Audio-Driven Portrait Animation with Autoregressi
6、ve Motion GenerationSoul Real-time Talking Head(2024.09)Soul Real-time Talking HeadSoul 数字人实时视频生成(Now)streaming audio encoderstreaming video decoderSoulX Videostreaming posereference encoderAR极简技术图Soul AI产品展示国内首家语音狼人杀落地强化学习提升发言、决策质量Soul AIG