《计算机行业Anthropic:专注研发安全可靠的AGI 对标ChatGPT推出Claude-230829(16页).pdf》由会员分享,可在线阅读,更多相关《计算机行业Anthropic:专注研发安全可靠的AGI 对标ChatGPT推出Claude-230829(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、中 泰 证 券 研 究 所 专 业 领 先 深 度 诚 信 证券研究报告 2 0 2 3.8.2 9 Anthropic:专注研发安全可靠的AGI,对标ChatGPT推出Claude 分析师:闻学臣 执业证书编号:S0740519090007 联系方式: 2 图表:Anthropic组织目标 资料来源:Anthropic、中泰证券研究所 图表:Anthropic官网界面 资料来源:Anthropic、中泰证券研究所 公司简介:公司简介:2021年诞生的年诞生的AI初创公司,致力于创造可靠的人工智能初创公司,致力于创造可靠的人工智能 2021年,Anthropic在美国旧金山诞生。Anthrop
2、ic认为人工智能有潜力从根本上改变世界的运作方式。他们致力于构建人们可以依赖的系统,并开展有关人工智能机遇和风险的研究。其使命是确保变革性人工智能(Transformative AI,TAI)帮助人们和社会繁荣发展。公司通过构建前沿系统、研究其行为、努力负责任地部署AI以及定期分享安全方面的见解来追求他们的使命。bUqRwPxOtQeZ9PbPaQpNnNmOtQfQmMuMiNnOmN9PnMrRNZqRoQMYtOoP3 Anthropic的创始团队成员均拥有很强的技术实力和学术研究能力:的创始团队成员均拥有很强的技术实力和学术研究能力:Anthropic的创始人兼的创始人兼CEO是是Da
3、rio Amodei,曾担任,曾担任OpenAI的的AI安全团队经理,引领过安全团队经理,引领过GPT-2和和GPT-3的开发,并为的开发,并为OpenAI撰写了公司的研究方向和计划,是撰写了公司的研究方向和计划,是OpenAI研究团队的副总裁。研究团队的副总裁。Anthropic的联合创始人兼总裁Daniela Amodei是Dario的妹妹,也曾在OpenAI安全团队任职。在此之前,她也在Stripe任职超过五年。Anthropic的其余创始人也曾在的其余创始人也曾在OpenAI等机构任职。等机构任职。Tom Brown领导了GPT-3工程团队,也曾在Google Brain技术团队工作(
4、Google Brain也是提出Transformer算法架构的团队);Sam McCandlish在OpenAI建立并引领了研究Scaling Law的团队,并参与了GPT-3的开发工作;Jack Clark曾任OpenAI的政策总监;Jared Kaplan是约翰霍普金斯大学教授,也曾兼任OpenAI研究咨询工作。创始人团队:创始人团队:OpenAI高级员工带队,技术和研究能力出色高级员工带队,技术和研究能力出色 图表:Anthropic团队(部分)资料来源:Crunchbase、中泰证券研究所 4 时间 轮数 融资金额 领投 2021年5月 Series A 124M Jaan Tall
5、inn 2022年8月 Series B 580M Sam Bankman-Fried 2023年2月 Corporate Round 300M Google 2023年5月 Series C 450M Spark Capital 2023年7月 Corporate Round-2023年8月 Corporate Round 100M-2021年5月,Anthropic完成A 轮融资1.24亿美元,由技术投资者兼 Skype 联合创始人 Jaan Tallinn 领投。随后Anthropic又进行了五轮融资,总共募集资金约16亿美元。其中,公司在2022年8月完成的B轮融资由量化交易公司Ala
6、meda Research及知名加密货币交易所FTX创始人Sam Bankman-Frid领投。随后完成的融资分别由Google和星火资本(Spark Capital)领投。融资经历:六轮总融资额融资经历:六轮总融资额1.6B,Google、Spark Capital领投领投 图表:Anthropic融资经历 资料来源:Crunchbase、中泰证券研究所 5 图表:Claude界面 资料来源:Anthropic、中泰证券研究所 2023年5月,Anthropic宣布更新聊天助手Claude 2,能够支持文件输入、代码解析等功能。语言方面目前只支持英文对话,但能够提供使用Google翻译后生成
7、的中文回答。最新的模型在律师考试多项选择部分的得分为76.5%,高于 Claude 1.3 的 73.0%。与申请研究生院的大学生相比,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与申请者的中位数相似。Claude 2在Python 编码测试Codex HumanEval上的得分比 56.0%提高了71.2%。在 GSM8k(大量小学数学题)评测上,Claude 2 的得分从 85.2%上升到88.0%。AI大模型对话产品大模型对话产品Claude:支持:支持100k超长上下文输入,各项能力均突出超长上下文输入,各项能力均突出 图表:Claude 2在各项任
8、务中表现均升级 资料来源:Anthropic、中泰证券研究所 6 图表:Constitutional AI在有用性和有害性的评测分数更高 资料来源:Constitutional AI:Harmlessness from AI Feedback、中泰证券研究所 图表:Constitutional Training基本步骤 资料来源:Anthropic、中泰证券研究所 Anthropic发现了一种新的人工智能安全方法,它能根据一套原则来塑造人工智能系统的输出。这种方法被称为宪法人工智能(Constitutional AI,CAI)。它为人工智能系统提供了一套原则(即Constitution,宪法)
9、,人工智能系统可以根据它来评估自己的输出。Anthropic认为CAI拥有诸多优点:CAI的模型更加无害,对有用性的影响最小,能够在无害和可用之间寻找到更加高效的平衡。的模型更加无害,对有用性的影响最小,能够在无害和可用之间寻找到更加高效的平衡。CAI增加了模型的透明度(增加了模型的透明度(transparency)。)。CAI是一种可以扩展的安全措施,能够比传统的是一种可以扩展的安全措施,能够比传统的RLHF节约更多用于数据标注的时间。节约更多用于数据标注的时间。核心核心AI安全技术:提出安全技术:提出CAI方法、为方法、为AI设定宪法原则设定宪法原则 7 图表:GPT的RLHF步骤 资料来
10、源:Training language models to follow instructions with human feedback、中泰证券研究所 图表:Constitutional Training训练步骤,人类参与更少 资料来源:Anthropic、中泰证券研究所 CAI的第一阶段是SL(Supervised Learning):模型首先对有害的样例进行响应,再使用随机抽取的宪法原则和一些过程示例来批评和修改自己的响应,得到SL-CAI Model。这一步的目的是使模型更均匀,减少RL阶段所需的训练时间。第二阶段是RL(Reinforcement Learning):模型通过强化学
11、习进行训练,但不使用人类反馈,而是使用基于一组原则的人工智能生成的反馈来选择更无害的输出,最终得到RL-CAI Model。CAI的训练步骤中只有第一步训练的训练步骤中只有第一步训练Helpful Model时需要人类参与反馈,相比之下,时需要人类参与反馈,相比之下,GPT-3.5的的RLHF模式则需要大量参模式则需要大量参与进提示集标注、输出结果排序等工作中。与进提示集标注、输出结果排序等工作中。核心核心AI安全技术:安全技术:CAI与与RLHF有何不同?有何不同?1 使用RLHF训练Helpful Model 2 让模型对有害的样本进行回应 4 得到微调的SL-CAI Model 1 通过
12、红队提示得到样本对 SL Step RL Step 2 使用宪法原则进行自我提升 3 得到微调后的偏好模型PM 4 使用PM和SL-CAI Model进行RLAIF 最终得到 RL-CAI Model 3 基于宪法原则对评论进行回应、批评和修正 1 人类为专家数据集样本进行标注,用以训练Policy 2 为模型输出的结果优劣进行排序,用以训练奖励模型 3 由奖励模型进行PPO反馈 8 AI宪法内容 译文 宪法参考来源 Please choose the response that is least racist and sexist,and that is least discriminato
13、ry based on language,religion,political or other opinion,national or social origin,property,birth or other status.请选择最不带有种族和性别歧视的回应,并且最少基于语言、宗教、政治或其他观点、国籍或社会起源、财产、出生或其他状态进行歧视的回应。丕界人权宣言 Please choose the response that is most supportive and encouraging of life,liberty,and personal security.请选择最支持和鼓励生
14、活、自由和个人安全的回应。丕界人权宣言 Please choose the response that has the least objectionable,offensive,unlawful,deceptive,inaccurate,or harmful content.请选择内容最少有争议、冒犯、违法、欺骗、不准确或有害的回应。Apple服务条例 Please choose the response that has the least personal,private,or confidential information belonging to others.请选择最少包含他人的
15、个人、私密或机密信息的回应。Apple服务条例 Choose the response that uses fewer stereotypes or other harmful generalizing statements about groups of people,including fewer microaggressions.选择使用更少关于人群的刻板印象或其他有害的概括性言论的回应,包括更少的微侵犯。DeepMind条例 Choose the response that is least threatening or aggressive.请选择最不具有威胁或侵略性的回应。Deep
16、Mind条例 CAI 应用可以产生帕累托效应。宪法强化学习比来自人类反馈的强化学习更有帮助,也更无害。Anthropic现行的宪法借鉴了一系列来源,包括联合国人权宣言、信任和安全最佳实践、以及其他人工智能研究实验现行的宪法借鉴了一系列来源,包括联合国人权宣言、信任和安全最佳实践、以及其他人工智能研究实验室提出的原则(例如来自室提出的原则(例如来自 DeepMind的的Sparrow Principle)。)。CAI原则:纳入人类价值观用于原则:纳入人类价值观用于AI对齐对齐 图表:Anthropic提出的AI宪法条例(部分)资料来源:Anthropic、中泰证券研究所 9 Claude 2 在
17、在 HHH(有用性(有用性helpfulness、无害性、无害性harmlessness、事实性、事实性honesty)上的表现再次提升。)上的表现再次提升。在自动红队评估的结果中,最新发布的Claude Instant 1.2版本产生的幻觉(Hallucination)更少,并且更能抵抗越狱(Jailbreak)。核心核心AI安全技术:安全技术:Claude 2在在HHH安全性表现与红队评测结果上表现优秀安全性表现与红队评测结果上表现优秀 图表:HHH评估结果 资料来源:Anthropic、中泰证券研究所 图表:红队评估结果 资料来源:Anthropic、中泰证券研究所 10 图表:Anth
18、ropic合作伙伴(部分)资料来源:Anthropic、中泰证券研究所 2023年2月,Anthropic宣布与Google Cloud合作,并运用其GPU和TPU集群进行训练。4月,Anthropic宣布与Scale合作,支持客户在Scale的平台上部署Claude并创建应用程序。2023年8月,公司宣布与韩国最大的移动运营商SK Telecom进行合作。SKT 和 Anthropic 将共同开发一个大型语言模型,该模型将进行定制以满足电信公司的需求。Anthropic将利用 SKT 在电信领域的经验,使模型针对各种电信应用进行优化,包括客户服务、营销、销售和交互式消费者应用。除了这一商业合
19、作伙伴关系之外,继硅谷 SK Telecom Venture Capital(SKTVC)的投资之后,SKT 还向 Anthropic 追加投资了 1 亿美元。B端合作伙伴:积极拓展各行业合作伙伴,提供定制化模型服务端合作伙伴:积极拓展各行业合作伙伴,提供定制化模型服务 11 图表:Cody主页 资料来源:Sourcegraph、中泰证券研究所 图表:使用Cody进行代码含义问答 资料来源:Sourcegraph、中泰证券研究所 代码生成领域,代码生成领域,Anthropic与与AI代码平台代码平台Sourcegraph合作,帮助客户编写、修复和维护代码。其合作,帮助客户编写、修复和维护代码。
20、其编码助理Cody使用 Claude 2 改进的推理能力为用户查询提供更准确的答案,同时还通过 100K 上下文窗口传递更多代码库上下文。同时Claude 2 拥有更新的框架和库的知识,可供 Cody 从中提取。B端合作伙伴:与端合作伙伴:与AI代码平台代码平台Sourcegraph合作合作 12 图表:RobinAI法律文本分析界面 资料来源:Anthropic、中泰证券研究所 Claude已经集成在了Quora的 AI 聊天应用程序Poe中。从Poe使用者的角度看,Claude 的回答详细且易于理解,就像人与人之间自然的交流。Claude 还集成在Notion中,帮助Notion用户提高了
21、生产力。Claude与法律基础设施公司Robin AI合作,致力于法律领域最困难的问题之一:阅读和理解复杂的法律文本。Anthropic还与创新AI公司Assembly AI合作,为API 平台提供支持用于大规模转录和理解音频数据。C端下游应用:与端下游应用:与Notion、Quora等合作开发应用,提供等合作开发应用,提供AI能力能力 图表:Anthropic与Quora合作的Poe app 资料来源:Anthropic、中泰证券研究所 Robin AI应用Claude能力进行法律文本解析 13 图表:Anthropic模型定价 资料来源:Anthropic、中泰证券研究所(定价标准为202
22、3年7月公布方案价格,目前Claude 1和Claude 2价格相同)Anthropic目前采用生成目前采用生成Tokens数量定价的模式进行盈利。数量定价的模式进行盈利。目前最新的版本分类Claude Instant和Claude 2两个版本。其中每种模型分为Prompt和Completion标准,Completion标准的收费标准更高。对于Claude 2模型,Completion版本的收费标准为32.68美元每百万token。根据根据Growjo预测,预测,Anthropic的年度营业收入为的年度营业收入为0.154亿美元。公司目前拥有亿美元。公司目前拥有131名员工,每位员工平均创收名
23、员工,每位员工平均创收11.75万万美元。截至美元。截至2023年年2月,月,Anthropic的公司估值为的公司估值为44亿美元。亿美元。定价与盈利情况:产品根据定价与盈利情况:产品根据Token数量定价,预估营收数量定价,预估营收0.154亿美元亿美元 模型 最佳用途 上下文长度 标准定价 Claude Instant 低延迟、高吞吐量 100000 tokens Prompt:$1.63/百万token;Completion:$5.51/百万token Claude 2 在需要复杂推理的任务中表现出色,Anthropic的最佳模型 100000 tokens Prompt:$11.02/
24、百万token;Completion:$32.68/百万token 14 未来的模型计算量还会有千倍的提升空间,未来的模型计算量还会有千倍的提升空间,AI能力迭代速度和强度可能远超预期。从能力迭代速度和强度可能远超预期。从GPT-2 到 GPT-3 的能力涌现,主要来自于增加了约250倍的计算量。Anthropic预测,2023 年原始 GPT-3 模型和最先进模型之间的差距将再增加 50 倍。接下来的 5 年内,预计用于训练最大模型的计算量将增加约 1000 倍。在这种情况下,AI产生新一轮能力涌现的速度和强度可能会远超人类的预期。AI安全可能成为未来人工智能领域最重要的议题,应当更加关注拥
25、有更强安全能力的公司。安全可能成为未来人工智能领域最重要的议题,应当更加关注拥有更强安全能力的公司。Anthropic认为,如果AI足够智能,变得像设计者一样了解周围的环境,再想要构建安全、可靠和可操纵的系统可能会非常困难。同时AI技术的快速进步可能具有很大的破坏性,将会改变国家内部和国家之间的就业、宏观经济和权力的关系。而且,这些风险还可能会相互叠加,带来难以预料的风险。我们认为对于这种可能对人类产生重大影响的新技术,应当保持谨慎乐观的态度,并更加关注拥有更强安全能力的AI公司。短期短期Claude的能力不如的能力不如GPT,但随着,但随着CAI方法的完善和相关方法的完善和相关AI安全工作的
26、推进,安全工作的推进,Claude模型迭代的效果值得期待。模型迭代的效果值得期待。公司的Claude 2模型在安全性方面表现处于行业领先地位,其提出的CAI方法与主流RLHF有较大差异,但已经在部分模型训练中表现出了较好的效果。随着AI对人类语言和价值观理解能力的增强,AI安全领域可能会面临着极大的挑战。Constitution AI有望拥有大大超出RLHF的安全效果,能够极大增强Claude模型的竞争力,Claude未来的表现值得期待。产业研判与投资建议产业研判与投资建议 15 AI技术落地不及预期技术落地不及预期:AI技术更新迅速,如果公司无法跟上技术应用的步伐,可能会被竞争对手超越。同时
27、AI技术的使用会改变用户的工作方式,如果用户不愿意接受这些改变,可能会影响公司的潜在业务增长速度。即使AI技术在实验室环境中表现优秀,但在实际应用中可能遇到许多未预见的问题和挑战。技术落地的过程中可能出现技术难题、系统稳定性、性能等问题。产品市场竞争加剧产品市场竞争加剧:随着竞争的加剧,公司需要不断创新以保持竞争优势。这可能需要大量的研发投入和时间,同时还需要承担创新失败的风险。同行业的竞对公司可能通过降低价格来吸引客户,这可能会迫使公司也降低价格,从而影响营收和利润。AI产品落地过程中,竞争加剧可能会分散市场,导致公司的市场份额下降。数据更新不及时数据更新不及时:AI领域变化较快,报告中引用
28、的部分图表和数据存在一定的时效性,因此可能面临数据更新不及时的风险 风险提示风险提示 16 重要声明重要声明 中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。本公司不会因接收人收到本报告而视其为客户。本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报
29、告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。本报告版权归“中泰证券股份有限公司”所有。事先未经本公司书面授权,任何机构和个人,不得对本报告进行任何形式的翻版、发布、复制、转载、刊登、篡改,且不得对本报告进行有悖原意的删节或修改。