1、Berlin San Jose Beijing Shenzhen蒲大规模王ill争 felix.wangjina.aiHnumb3r3InfoGQCon全球软件开发大会K felix.wangjina.ai王峰,开源MLOPs框架Jjna的核心贡献者,专注机器学习与深度学习算法在NLP,多 模态表征学习和信息检索领域的落地与应用。Senior Researcher,Huya Al Senior Researcher,Tencent Al Ph.D.,Hong Kong Baptist University2021-now,Engineering manager,Jina Al2020-21,2
2、018-19,2011-18,InfoGQCon全球软件开发大会The most advanced MLOps platform for Multimodal AlJina Al是一家商业化开源软件公司,专注于打造针对多模态Al应 用的MLOps平台工具。Jina Al开源社区致力于促进多模态Al技 术的应用落地以及传播,通过人工智能和深度学习技术,帮助开发 者和企业减少开发学习成本,加快开发部署效率。Jina Al总部位于德国柏林,在北京、深圳、巴塞罗那等地均设有办 公室,海外员工人数比例超过三分之二。slack.jina.aiC get.jina.aiQCon全球软件开发大会InfoGNe
3、wsC Stars 36.5KBuild neural search and creative Al services on the cloud at scale.The most advancecT MLOps platform forMultimodal Al idrO Visit our GitHubJoin CommunityQCon全球软件开发大会SolutionsDevelopers vAbout vJ LoginInfoG目录01 CLIP模型介绍QCon全球软件开发大会03 推理加速技术CONTENT02 CUP-as-service 框架InfoGCLIP模型:,文本和图像O
4、penAI 在 2021 年 1 月发布的 CUP(Contrastive Language-Image Pre-training)模型,它是一种 基于对比文本-图像对的预训练方法或者模型。它的出现打破了自然语言处理和计算机视觉两大门派泾渭 分明的界限,实现了多模态AI系统。QCon全球软件开发大会InfoGCLIP模型训练细节模型训练:-4亿对图像-文本互联网数据3万+的botch size模型框架:-图像编码器支持使用ViT和ResNet-文本编码器使用 TransformerHyperparameterValueBatch size32768Vocabulary size49408Tra
5、ining epochs32Maximum temperature100.0Weight decay0.2Warm-up iterations2000Adam 魚0.9Adam/320.999(ResNet),0.98(ViT)Adam e10-8(ResNet),106(ViT)QCon全球软件开发大会InfoGCLIP模型:跨模态图文检索A football _EHCLIPText EncoderCLIP Image EncoderoQCon全球软件开发大会InfoQCLIP 模型:Zero-shot 分类1.准备 prompts2.zero-shot 推理Dxtcxset Example
6、sIiwcxjeA/et ResA/et!OlNero-sKot CLIPA ScoreQCon全球软件开发大会InfoGCLIP MS:图像生成Where is supervision come from?QCon全球软件开发大会At every diffusion stepCut images into small patchesAsk CLIP for guidancesSteering the direction of next stepDone in 314msShowing reasoning results(score in softmax):This is a photo of