《阿里云:2022云上社交行业技术服务白皮书(84页).pdf》由会员分享,可在线阅读,更多相关《阿里云:2022云上社交行业技术服务白皮书(84页).pdf(84页珍藏版)》请在三个皮匠报告上搜索。
1、目录CATALOG前言 创作团队名单0101第一章 前言3.1 通用大社交媒体3.1.1 文字与图像社交3.1.2 视频与直播社交050508第三章 云上社交典型场景与架构2.1 社交媒体曾是什么2.2 现代社交发展及需求2.2.1 社交的发展及分类2.2.2 现代社交的特点2.2.3 现代社交的需求2.3 社交会是什么020303030404第二章 社交发展与趋势4.1 社交平台可靠性 4.1.1 行业质量监控指标 4.1.2 质量指标衡量标准4.2 社交流量潮汐性4.2.1 基础资源满足潮汐性分析 4.2.2 某客户基础资源弹性方案4.2.3 云上成本优化4.3 关键时刻保障4.3.1 图
2、片业务保障方案4.3.2 直播业务保障方案4.3.3 热点事件护航保障流程4.3.4 重大活动和赛事保障424243474750517171727578第四章 云上社交保障与服务案例第五章 展望3.2 细分领域社交3.2.1 母婴场景3.2.2 电商场景3.2.3 陌生社交3.2.4 其他场景3.3 社交安全3.3.1 社交内容安全3.3.2 云上数据信息安全14141928303131371、前言 从印刷、电报、电话、电视再到互联网,不仅地域和时区早已经不是社交的障碍。即便是有着不同文化和母语的人们,都可以在互联网上顺畅交流,这就是云上社交的魅力。而今,随着经济和科学技术的发展,社交网络也正
3、在以人们无法想象的速度增长。愈发庞大的用户群体产生的需求也是多种多样的,从文字到图片,从短视频到直播,从VR/AR到元宇宙,社交媒体的形式变得五花八门;从校园到职场,从潮流到育儿,从熟人圈子到陌生人私密交流,人们现实生活中的所有社交场景也均被一一映射到了社交媒体上。而这些需求和场景的实现,都需要更先进、更稳定、更敏捷的技术进行支持,才能够使用户高效地在社交媒体上进行内容分享。同时,随着这些社交网站上数据的快速增长,数据和安全层面的处理和管理变成了非常重要的问题。云计算的(IaaS、PaaS、云安全以及视频云等)各种能力也完美地契合了社交多样性、大数据及安全的发展需求。云上社交,呈现出了前所未有
4、的活力。创作团队名单顾问组成员:万谊平、袁浩钧、陈威、张强、李昶、高媛、吴思婷、曹德翊、曹慕杰 主编团队:林万境、黄伟政、罗世杰、张雯、董池、张效禹、孙海波、刘志云、袁荣鑫吴海林、田君磊文字编校:秦扬、罗宇红排版设计:李一帅、谢秀婷01 云上社交行业技术服务白皮书云上社交行业技术服务白皮书2、社交发展与趋势2.1 社交媒体曾是什么社交媒体并不是现代社会的新兴事物,当信息沿着社会关系的网络在人际间进行传播的时候,当信息被来自四面八方的人们进行讨论的时候,当信息将人们分立成意见不同的团队的时候,社交媒体就已经悄然的形成了;社交的本质就是通过不同的内容介质、形式进行自我表达、与他人交流并且得到反馈的
5、过程。因为社交是人自然活动中的必然需求,而传播这一需求的介质,自然就是社交媒体了。在互联网时代到来之前的社交媒体,有以下两个大的阶段:传统介质时代:通过书写、篆刻、印刷等方式在介质上进行信息的保存和传递。在中国的印刷术以及活字印刷术之前,信息的传递只能依靠手写进行传递,而在纸张被发明之前,承载信息的媒介是竹子之类的“重物”,所谓学富五车所承载的信息可能不都不能填满现在计算机存储的1Mb;印刷传递,传统的活字印刷以及后来的机械印刷,虽然在一定程度上提高了信息产生和传播的速率,但是时间和空间仍十分受限;传播速率低下,沟通效率慢,人们对于信息传播和讨论的参与度弱。在这个时代,内容的产生者都相对固定,
6、而且信息只能进行单向传播,人们根据内容进行小范围的学习和讨论,都是传统介质时代的特点。电子介质时代:随着电子信息存储介质的发明,信息可以在电子设备上进行保存和传递;在电子媒体时代的初期收音机和电视可以较为快捷的进行信息的传播,引起人们之间的沟通,但是仍旧存在内容制作者相对固定、单向传播,时效性低以及难互动的问题;而随着电脑、互联网以及社交软件的发展,在自媒体时代,每个人都可以成为内容的生产者。通信的及时性得到了极大的提升,社交的范围也随之越来越广。通过上面介质的变迁,场所也逐渐的不再是限制,由村落到广场,由咖啡馆到网吧,只要有网络,无论在哪里都可以随时随地与他人进行交流。云上社交行业技术服务白
7、皮书 022.2 现代社交发展及需求2.2.1 社交的发展及分类在互联网时代,社交是人们工作和生活中,用来丰富自己、拓展生活边界、扩充人脉的必然需求;从互联网的社交媒体的发展历程可以被主要的分为三个阶段:社交网络建立,社交网站的崛起,社交软件的爆发;在社交行业发展过程中,社交产品越来越丰富,有的以内容作为社交载体,有的通过通讯工具定义自己,有的则成为了办公利器,更多的则是想要在特定的场景借助社交发挥更大的价值;基于以上不同的情况,可以将现在的社交媒体分为三个大类,内容社交、场景社交以及工具社交:1、内容社交:是以图文、视频等内容载体的社交平台,如微博、抖音、快手等大的社交平台;2、场景社交:这
8、也的社交媒体通常专注于某一个垂直领域,如母婴场景,年轻人潮文化的场景,职场场景,还有诸如旅游、游戏、运动、校园等各个垂直领域;3、工具社交:以即时通讯为基础功能,如熟人之间的办公社交工具钉钉,以及陌生人之间的社交工具。2.2.2 现代社交的特点目前消费互联网依托于强大的信息与数据处理能力,以及多样化的移动终端的发展,在电子商务、社交网络、搜索引擎等行业出现规模化发展态势,并形成各自的生态圈。以提供个性娱乐为主要方式,在短时间内迅速吸引眼球。社交媒体包含了一个十分宽泛的领域,尤其随着移动互联网的发展,社交媒体也得到了长足的发展。现在社交媒体,有时也被称为web2.0,有着去中心化,开放、共享的理
9、念。其形式包03 云上社交行业技术服务白皮书云上社交行业技术服务白皮书括:博客、微博、IM软件、照片分享、知识分享、视频分享、论坛等等形式。具有以下几种特点:1、信息传播模式效率高,内容裂变性强;2、用户参与门槛低,覆盖面广,人人都是内容的生产者;3、用户意见声量提升,反馈速度快,话题交互性强。2.2.3 现代社交的需求随着社交媒体传播效率的不断提升和覆盖人群范围的不断扩张,依托互联网发声,变成了普通民众参与社会公共话题讨论的重要路径。社交媒体已经发展成为了社会治理的重要组成和补充,在修复社会监督链条中也发挥了独特的价值;近年来,伴随着社交媒体的发展,在各个社交平台上的虚假信息开始逐渐泛滥,诈
10、骗案件也层出不穷,而著名的“杀猪盘”则就是酝酿在社交媒体之上的。社交网站上的内容安全和信息安全则成了现代社交的刚需之一,这影响到了使用者的生命和财产安全,平台本身的信誉度和美誉度,以及社会的公序良俗。2.3 社交会是什么从大环境上来看,国家基建水平提升,5G的普及以及流量的降价,移动互联网产品得到了长足的发展和市场争夺的白热化;从用户视角来看:1、时间碎片化:信息时代注意力的广度增加,但是深度和关注某一内容的时长降低;2、生活节奏加快:地铁通勤,排队等待等、碎片时间;所以社交媒体的频繁消息推送,抖音、微博、IM通信,内容、营销都需要适应碎片化的时间。公共云更好的为社交方向的企业提供了极致的弹性
11、IaaS,丰富多样的PaaS和SaaS解决方案。云上社交行业技术服务白皮书 043、云上社交典型场景与架构3.1 通用大社交媒体3.1.1 文字与图像社交3.1.1.1 典型平台简介某平台是一个典型的文字与图片为主的社交媒体,该平台是基于用户关系的社交媒体平台,是一个用户可以通过电脑、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动的社交媒体。每个人都可以创作并发布图文内容,人人都是世界的主角。该平台基于公开平台架构,使用户能够公开实时发表内容,通过裂变式传播,让用户之间进行互动并与世界紧密相连。从财报中我们可以看出在2021年,平台月活跃用户达5.73亿,
12、月活跃用户中来自移动端比例达到94%;日活跃用户达到2.48亿,日活跃用户规模同比净增2300万。目前微博基于openDCP平台已具备较强的多云管理平台能力,包括IDC,阿里云等公共云厂商,能够快速构建业务应用,并保证足够的弹性。3.1.1.2 内容推荐架构3.1.1.2.1 客户需求基于实时计算(Flink)构建在线机器学习引擎。3.1.1.2.2 客户价值1、业务上:支持热门流、关系流、动态流、正文页、视频推荐等多个业务场景在线机器学习需求,取得较好业务效果。2、性能上:达到了开源Flink的2倍以上,节省大量资源。Blink商业化产品功能,将样本处理性能提升2.4倍。3、稳定性上:目前在
13、线样本,模型训练作业稳定性为99.5%。05 云上社交行业技术服务白皮书云上社交行业技术服务白皮书3.1.1.2.3 解决方案在线机器学习实时计算解决方案:阿里云首个实时计算在线机器学习场景解决方案落地。采用VVP(Ververica Platform)on ACK混合云解决方案,解决性能、运维问题。开创性将淘宝搜索在线推荐平台先进经验(Blink实时计算引擎)在某社交媒体客户的在线推荐平台上成功复制。促进Flink云原生产品商业化,复制更多客户。3.1.1.3 图片存储架构3.1.1.3.1 客户痛点以某图文社交平台为例,自该图文社交平台上线以来,其在线用户数一直处于爆发式增长的状态。截止2
14、019年中,该平台的月活跃人数几乎可以达到5亿的级别,平均日活跃用户数为2亿多。业务的急速增长对该客户的原有技术体系造成了极大的冲击,例如:云上社交行业技术服务白皮书 061、流量激增:一些已知的业务高峰场景例如:重要节日、重要活动等场景则会带来巨大的流量挑战,这些业务场景的主要特点是:瞬间峰值高、持续时间短。每一次峰值事件的互动时间在3小时左右,而明星事件等业务,流量经常会增加至原来几倍的瞬间峰值。2、流量峰谷差大:社交媒体与人们生活作息时间紧密相关,在奔波忙碌的午后,人们专心工作无暇分享生活,流量请求量平缓;在闲暇安逸的傍晚,人们纷纷掏出手机查看当日的新鲜事,流量请求量激增。在生活的一朝一
15、夕背后,该图文社交平台的负载有着明显的波峰波谷,且峰值相差5倍以上。应对流量激增问题,平台的开发者的传统应对手段,主要通过以下几种方式:1、提前申请足够的设备保证冗余。2、降级非核心及周边的业务。但以上解决方案需要提前预知相关IT成本,造成业务负载饱和度不一及扩缩容流程繁琐且周期长等问题。如何在用户量飞速增长、热点事件流量激增及请求有明显波峰波谷的情况下,既不影响用户体验,又不增加服务器成本投入是该平台开发人员的当务之急。3.1.1.3.2 解决方案07 云上社交行业技术服务白皮书云上社交行业技术服务白皮书公有云Serverless架构具有应对爆发式峰值流量的优点。函数计算是阿里云提供的Ser
16、verless计算平台,函数计算可以根据请求量动态分配执行环境,毫秒级调度计算资源,确保在负载高时保持稳定的延时,在负载低时有较高的资源利用率,且只会对代码运行时使用的计算资源付费。函数计算还可以与对象存储服务无缝集成,可以方便地对存储在对象存储中的图片进行实时处理。该图文社交平台使用函数计算的弹性扩容、事件触发、按量付费的特性部署图片处理业务,将用户上传的图片存储到对象存储中,编写函数实现个性化的图片处理。当平台用户通过客户端获取图片时,请求通过阿里云CDN回源到函数计算,函数从对象存储中下载原图,根据客户端类型实时处理成预期规格的图片,并将结果图片返回。3.1.1.3.3 架构效果函数计算
17、可以毫秒级伸缩计算资源确保应用在热点事件发生时仍能稳定地运行,使用户体验不受访问次数的影响。通过函数计算运行图片处理服务,客户实现了持续的成本节省。无需再为平滑处理业务高峰带来的流量激增而提前预留大量闲置机器资源,同时开发人员无需花费精力管理及维护基础设施,只需集中精力与产品团队合作提升业务价值。随着社交平台活跃用户数不断增加,客户的业务规模不断扩张,函数计算可以自动弹性地分配更多执行环境以支撑社交业务的持续发展。3.1.2 视频与直播社交3.1.2.1 视频与直播社交概念及发展视频直播相对于文字图片具有更加丰富的内容展现和实时互动的特性,近年来视频直播是网民参与最多、活跃度最高的娱乐休闲方式
18、。视频直播平台已经成为当下网民普遍展示自我和沟通的平台。同时直播的发展培育了一批引领潮流的优质创作者,网红经济正在快速发展。!云上社交行业技术服务白皮书 08与传统的互联网社交平台相比,视频直播展示形式多样、内容更加丰富、互动性更强。随着技术的快速发展直播有了更加丰富的场景和素材选择,同时主播和观众的身份也可以快速的转换。以上特点大大增强了参与者的体感,促成了全民直播的热潮兴起。在这股浪潮中每个人既是主播也是观众,视频直播成为了一种新的社交方式。3.1.2.2 阿里云视频直播业务近年来直播产业不断发展,正在全面赋能电商、文娱、体育、旅游、教育等众多行业。2021年我国共有超过7亿网络直播用户,
19、超55%直播用户每天都收看直播。直播给人们的生活带来便利,同时也成了一种新的社交方式。阿里云视频直播是基于卓越的内容接入与分发网络和大规模分布式实时视频处理技术打造的音视频直播平台。提供易接入、低延迟、高并发、高清流程、端云一体的音视频直播服务。阿里云拥有遍布全球的2800余个边缘节点,超过150T带宽、9大直播中心,支持千万级直播并发。全球各地的直播流可实现就近接入,利用全球实时音视频通信网传输至指定直播中心进行内容分发,实现秒级时延和地域1%卡顿率的直播。3.1.2.2.1 阿里云直播业务整体架构09 云上社交行业技术服务白皮书云上社交行业技术服务白皮书1、主播通过采集设备采集直播内容后,
20、通过推流SDK推送直播流,视频直播服务通过边缘推流的方式将直播流推送至阿里云直播中心,推送的视频流通过CDN边缘节点进行加速保证上行传输的稳定性。2、视频流推送至阿里云直播中心后,可按需对视频流进行转码、时移、录制、截图等处理。3、处理好的视频流通过CDN内容分发网络,下发至观众的设备中进行播放。移动端的播放设备可以集成阿里云提供的播放器SDK进行开发。4、直播视频除了可以进行转码截图等操作外,还可以进行直播转点播的操作,将录制下来的视频转至点播系统中再进行点播播放和短视频云剪辑。方便直播与短视频内容生产和点播的联动。3.1.2.2.2 推流方案1、直推:主播推流到阿里云作为直播源站,并在阿里
21、云直播中心进行时移、转码、切片、录制等处理。当有观众拉流时通过阿里云CDN边缘节点接入,会经过调度找到源流/转码流进行播放。云上社交行业技术服务白皮书 102、回源:主播推流到客户自建源站,当观众拉流时通过阿里云CDN边缘节点接入并向直播中心发起请求,触发直播中心向客户源站回源拉流。当有观众拉流时通过阿里云CDN边缘节点接入,通过一系列的处理和调度后,找到源流进行播放。3、转推:主播推流到阿里云作为源站,阿里云直播中心在进行视频流处理的同时向其他供应商推一路源流,并通过其CDN系统向发起拉流请求的观众播放。3.1.2.2.3 视频流处理1、转码:直播转码是将视频码流转换成另一个视频码流功能。通
22、过转码,可以改变原始码流的编码格式、分辨率、帧率、码率等参数,从而适应不同终端和网络环境的播放。以适配不同的网络带宽、不同的终端处理能力、不同的延时要求,满足不同的用户需求。11 云上社交行业技术服务白皮书云上社交行业技术服务白皮书2、录制:视频直播录制功能,就是将直播中心接收到的推流数据进行录制,将录制后的数据以HLS协议的封装格式,保存至您指定的存储位置。支持M3U8(同时会有.ts分片文件)、MP4、FLV格式。直播录制支持将直播内容录制至VOD或OSS。录制到VOD可以联动使用VOD的云剪辑、媒资管理、播控管理等能力。3、时移:直播时移是支持用户在观看直播时随时回顾过去精彩内容的功能,
23、支持毫秒级的时移回看颗粒度。强校验保障,避免直播信号源时间戳错误导致的时移回看脏数据,播放不连续问题。4、截图:视频截图服务支持直播视频按照设定的时间间隔对正在直播的视频进行截图,保存至指定的OSS存储位置。比如视频直播的封面刷新后会发生变化,都是靠截图来实现的。5、流分发:直播平台的观众来自全球的不同地域和不同运营商网络,为给这些数量众多、地域分布广泛的观众提供高质量、低时延的视频直播服务,直播流的分发就依赖于内容分发网络(CDN)。客户端拉流请求过程如下图所示:云上社交行业技术服务白皮书 12当终端用户请求视频流时,首先向Local DNS发起请求拉流域名对应的IP。Local1DNS检查
24、缓存中是否有拉流域名的IP地址记录。如有则直接返回给终端用户;如没有则向网站授权DNS请求域名的解析记录。当网站授权DNS解析拉流域名后,返回域名的CNAME。Local1DNS向阿里云CDN的DNS调度系统请求拉流域名解析记录,阿里云CDN的DNS调度系统将为其分配最佳节点IP地址。Local DNS获取阿里云CDN的DNS调度系统返回的最佳节点IP地址。Local DNS将最佳节点IP地址返回给用户,用户获取到最佳节点IP地址。用户向最佳节点IP地址发起对视频流的访问请求。如该节点已缓存该资源,则会将请求的资源直接返回给用户,如未缓存或缓存的资源已经失效,则节点将会向源站发起对该资源的请求
25、。除以上调度分发方式之外,直播中常用的还有302调度和httpdns调度。相对于DNS调度302调度和httpdns调度的颗粒度更小、调度更加准确。3.1.2.2.4 直播监控阿里云具有直播全链路多维度监控能力,对直播关键指标进行多方位实时监控,为高质量的直播服务保驾护航。1、卡顿率:监控域名维度直播卡顿率,及时发现直播卡顿数据波动,快速优化服务质量。2、回源统计:统计实时回源带宽、流量、状态码,为优化回源,减轻源站压力提供重要参考。3、流量带宽:具有域名维度推流、拉流上下行带宽监控数据,并通过同时段环比、前后N分钟环比等方式检测异常波动。4、命中率:实时边缘节点命中率统计,对于提高命中率、优
26、化首帧时间和减少回源具有重要意义。5、状态码:通过状态码监控发现推拉流异常波动,对于4xx、5xx状态码上升等13 云上社交行业技术服务白皮书云上社交行业技术服务白皮书异常情况实时发现、快速处置。并通过同时段环比、N分钟环比等方式获取周期质量波动数据以供分析。6、全链路:展现单路直播流从推流到拉流的全链路情况,并可以分段查看帧率、码率等指标。3.2 细分领域社交3.2.1 母婴场景3.2.1.1 母婴社交的概念及发展在三孩、双减、“房住不炒”等利好政策的推动下,母婴市场迎来了新的发展机遇。根据艾媒咨询数据显示,2021年中国母婴市场规模将超过48000亿元,预计2024年将超过76000亿元。
27、目前中国母婴行业已走入存量市场,但随着母婴群体消费意识逐渐前置,早阶母婴消费市场潜力不断被开发,母婴消费周期的拉长刺激了母婴消费市场持续增长。随着母婴市场的蓬勃发展,母婴行业相关细分领域的服务不断完善升级,所提供的服务能够满足绝大多数母婴群体的需求,但母婴服务的同质化等问题未能得到有效解决,使得母婴群体在孕育过程中对服务存在一定质疑,其中在怀孕期间普遍存在的多种焦虑尤为突出。数据显示,在孕期有71.3%的母婴群体对孕育知识的缺乏表示焦虑,其中由于目前互联网信息过载,母婴群体甄别母婴知识时需要耗费较多时间和精力,如何获取专业有效的孕育知识成为了孕母群体的一大痛点。为了解决孕母群体对于专业性信息获
28、取的困难,满足母婴群体科学孕育、效率育儿的需求,包括社交分享平台、短视频平台等泛人群使用场景以及母婴社区、母婴论坛等垂直型场景都开始通过专家背书、母婴达人推荐等形式发布专业性母婴内容。而其中,母婴垂直平台通过在行业内垂直领域的深耕经验,从最初的“社区+知识”发展模式演变成“社交+口碑+知识”型综合平台,凭借母婴信息的多元化、专业化及集云上社交行业技术服务白皮书 14中化,母婴垂直平台获得的信任度较高,成为母婴群体孕育期必不可少的社交工具。2021年中国备孕群体数量达到6237万对,早阶母婴群体呈现多元化特点,高学历妈妈、职场妈妈规模不断壮大,中国早阶人群母婴消费潜力市场规模的成长迅速。数据显示
29、,2021年中国早阶人群母婴消费潜力市场规模达到10071.6亿元。早阶母婴群体身处于互联网时代,对线上相关母婴平台的需求较为强烈、依赖性强、使用频次高,具有借助线上母婴平台满足资讯获取、怀孕及育儿记录、交流分享、母婴商品挑选对比等多种诉求。其中母婴群体在不同阶段上的社交需求存在在较大的差异:在怀孕早期,母婴群体主要讨论购买孕妇服饰和孕期保健品;在怀孕中期,对于胎儿健康状态的探讨则十分火热;在怀孕晚期,对于婴幼儿用品和产后护理用品受欢迎;而在宝宝出生之后,如何育儿这又成为了连接每一位妈妈的话题;母婴群体不同阶段的不同需求,得以使母婴社交平台不断发展。3.2.1.2 某母婴社交平台介绍某母婴平台
30、是中国非常知名的母婴品牌,也是中国最大最活跃的母婴社区之一,该平台整个月活用户达到1.39个亿,移动端的月活也达到数千万。客户的主要用户是宝妈人群,尤其是年轻的宝妈人群。作为母婴类社区平台,致力于连接及服务年轻家庭。在其平台中,2021年月均活跃用户(MAU)总数就达到1点多亿。并在2007年推出官方平台,目标就是为中国的准父母又或者是年轻父母搭建一个相互交流的在线平台。在经过15年的发展历程中,早在中国母婴在线平台中树立起更受信赖的品牌,并于2018年11月27日成功登陆港股。时至今日,该母婴平台在强大的社交功能和优质的内容上为年轻的家庭建立起一个充满活力的社区。在平台上,提供了全面的产品和
31、服务,满足中国年轻家庭的四个基本需求:学习、分享、记录和购物。由手机APP和PC及WAP端官网组成,是用户流量及核心变现的主要门户。从注册用户获得十分宝贵的核心生育数据。生态系统中的用户互动产生大量行为数据。总体而言,该母婴平台拥有中国较大的母婴群体商业数据库。优质而庞大的用户数据有助于进一步了解用户的信息、精凖定位用户需求、更准确地个人15 云上社交行业技术服务白皮书云上社交行业技术服务白皮书化用户体验、开拓新产品和服务品类。目前,母婴企业面临着诸多困境,急需转型升级。在前台方面,难以实现“人货场”的统一,而后台难以实现“人财物”平衡的问题。同时,在新兴的互联网营销活动中获取的新客无法参与过
32、程管控,会员画像单一阻碍了企业对会员全生命周期开发。通过阿里云大数据平台构建了个性化的大数据架构,并在此基础上使用AI和深度学习技术实现了一些业务工具,进而支撑业务展开,实现业务价值。切实将客户生命周期宽度和深度做得更好,不断提升客户满意度和回头率。3.2.1.2.1 需求分析宝妈在整个育儿阶段其实有很多的需求,这些需求囊括起来主要是4个:1、获取知识,与专家交流育儿其实是一门学问,涉及到的知识是方方面面的,如何的把这些专业的知识,通过非常大众化的普及化的方式去传达给我们的用户,其实是一个很重要的课题。主要是通过非常专业的像PGC、UGC等编辑力量,把非常迎合需求的全面的育儿知识,通过各种方式
33、易于让宝妈去接受。2、分享经验,与宝妈交流宝妈人群其实情感非常细腻,然后有非常强的渴望去分享自己的育儿经验,然后也特别愿意与其他的宝妈去互动。因为宝妈之间的信任感是天生的,所以我们主要通过社区的方式去满足宝妈的这种相互之间沟通交流、互助以及互动的需求。3、记录成长,与家人交流随着宝宝的长大,记录是特别重要的一件事情,我们常说陪伴是最长情的告白,那么对宝宝尤其如此,因为记录不仅仅是记录宝宝的成长,也记录妈妈的成长,这种成长是双向的,那么这种成长对宝宝是一种非常特殊的礼物,我们是通过小时光和其他很多记录的工具,去满足用户的这样一种需求。4、购买产品,与消费者交流宝妈的购物需求,尤其是在某一领域,像
34、奶粉、纸尿裤这些品类,其实是宝妈的一个刚需,提供了一个在线的商城,其实更重要的是有海量的内容,有大量的UGC云上社交行业技术服务白皮书 16的讨论,宝妈可以通过这些用户的真实反馈,去发掘去判断什么样的品牌和什么样的产品是适合自己的小孩子的。然后能够天然的通过一种社区的形式,建立起用户和品牌之间的一种连接,解决很多产品品牌的核心的信任问题。通过以上针对宝妈所阐述的四大核心需求,其需求都是个性化的,如何更好的满足用户的个性化需求,需要通过大数据的方法和技术去做。3.2.1.2.2 某母婴平台所特有的两个大数据说到大数据,其实这是一个耳熟能详的话题,很多人都非常熟悉,下面从两个方面介绍该母婴平台所特
35、有的两个大数据。1、关于妈妈的核心生育数据。什么是生育数据?你当前怀孕多少天了,然后宝宝什么时候出生,预产期是什么时候,宝宝当前多大了,我们是可以精确到天的,然后这个数据是非常准确的。其实我们每天都会有很多宝妈用户现在正在产房里,等待生命的诞生。然后我们明天也会看到他们很多的报喜帖,其实基于用户的一种真实的运营数据,我们是不需要猜测对吧?我们就可以非常精准的知道在这样一个阶段,用户需求是什么,然后有针对性的去满足她们,通过一些产品或者服务。2、社区有非常海量的UGC内容加PGC内容,然后用户在这些内容上的行为,还有用户之间的互动,让积累了海量的行为数据。这种行为数据不是一种泛领域的,而是母婴领
36、域的,那么这里面有很多不是泛领域能够解决的一些问题,包括妈妈之间的一些讨论等等。基于核心生育和行为数据,精准秒回用户画像,优化用户体验,提升转化效率。17 云上社交行业技术服务白皮书云上社交行业技术服务白皮书根据这两大核心数据,可以构建一个非常完整的也是非常全面的某一领域的画像体系。基于这个画像体系,第一个会非常好的去服务我们的最大用户,也就是宝妈人群,第二个对于的B端客户也是有巨大的价值,一个是提升整个商业投放的效率、转化率等,另外一个就是可以通过反向的数据驱动,可以发现更多用户的潜在需求,那么这对B端客户的营销有着巨大的商业价值。3.2.1.2.3 母婴社交云上大数据仓库某母婴平台作为中国
37、最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,其很早就建立了自己的IDC集群,而且规模越来越大。早期该母婴平台使用的是自建的大数据体系,从数据的产生,数据的传输、存储、计算,然后到整个数据服务,再到整个上层的应用,包括BI报表以及数据分析工具等,根据其集群水位高,性能差,亟待大数据综合治理以及IDC大数据每年投入成本高,希望降本提效的多重需求下,从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop13PB降到900T,利用Flink实时数据处理能力,将该母婴平
38、台现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省30%以上。云上社交行业技术服务白皮书 18使用阿里云的一些技术,总结起来,其实主要是有几点收益:1、从成本角度,从硬件、运维以及整个操作的成本综合评估下来,可以节省40%左右。2、从产品角度,因为采用了阿里云大数据技术栈,这些技术栈对开发者来说还是非常友好的,使很多开发者长期以来面临的痛点得到了实际的解决,实现了超大规模实时,离线计算和数据治理,比如前面说的DataWorks一站式开发平台,就对开发效率有着显著
39、的提升;3、从云计算的底层来说,该平台可以很好的享受它的一些安全性,整个弹性、可伸缩性等。因为业务流量有时也会突增,在这种场景下是能够天然的享受到云服务的好处。例如该母婴平台对GPU的使用,以前都需要自己进行购买,现在可以按需使用阿里云的GPU,在技术的使用效率上有了很大的提升。3.2.2 电商场景3.2.2.1 社交电商概念及发展社交电商就是依托社交关系而进行买卖交易的电商。是电子商务的一种新的衍生模式,通过社交互动、来辅助商品的购买和销售行为,并将关注、分享、沟通、讨论、互动等社交化的元素应用于电子商务交易过程的现象。19 云上社交行业技术服务白皮书云上社交行业技术服务白皮书数据上云社交电
40、商平台类型有B2C的拼购类社交电商、内容类社交电商,S2B2C的会员制社交电商、社区拼团等。社交电商和传统电商的区别在于流量的获取/分发方式。社交电商是利用朋友圈进行熟人买卖的商品交易,大大降低销售初期的破冰行为成本。主要秘诀就是获取关注博取流量,不难看出流量越多,利润越大,但是在推销时期要花费很多的代价例如金钱去获取流量曝光,其中会有平台这个中间商获取中间费用,获取关注越多销售几率、商品卖得越好。传统电商例如微商是没有流量这个入口的,它主要表现为人与人的信任,如果口碑好了大家互相信任相互传播自然而然就买你的商品了。例如,依托微信等社交网络做营销的,都可以理解为社交电商,微商也是社交电商。社交
41、电商的本质在于依托社交链条的裂变式效应扩大用户规模和转化机会。云上社交行业技术服务白皮书 20社交电商消费者特点消费者特点追随他人分享体验评价浏览商品分享和复购购买决策产生购买兴趣种草快递促成购买兑换并推荐传统电商主动搜索多渠道查询对比下单购买评价社交首选购买路径传统购买路径提供分享与推荐奖励通过会员邀请的奖励机制和佣金奖励,让消费者更愿意在社交网络进行推荐。向消费者提供适当好处让他们紧密地融入基于社交媒体的忠诚计划中基于信任关系/内容推荐选择消费者在产生购物需求时通常已种草某特定商品。导致购买效率提升选择社交关系中口碑好的大品牌消费者或许不相信广告本身,但会相信来自网红、大V和朋友的推荐非计
42、划性需求,发现式购买消费者在社交分享和内容的驱动下,从注意到兴趣,产生非计划性购买需求更容易刺激消费者产生冲动型消费购物后分享意识弱对购物的分享以评价为主,主动传播意愿不强等待打折活动由于“618”和“双11”等打折节的活动力度大,消费者倾向于在价格最好的时候在购买基于商品销量及口碑选择消费者在众多货架式陈列的商品中进行选择,尾商品难以进入消费者视线计划性消,搜索式购买消费者在购物前通常已有基本的购买目标,在电商平台对购物目标进行搜索寻找商品。3.2.2.1.1 社交电商的四个类型1、拼购类社交电商拼购类电商基于社交关系的团购低价和分享导向型电商。其目标用户是对价格敏感的用户,比如某平台整体平
43、均客单价仅42.5元,远低于传统电商平台100-500元的平均客单价,拼购类社交电商以生活用品、服饰等消费频次高、受众广的大众流通性商品为主。拼购类电商核心功能就是拼团,花费一次引流成本吸引用户主动开团,用户为了尽快达成订单会自主将其分享至自己的社交关系链中,拼团信息在传播的过程中也有可能吸引其他用户再次开团,传播次数和订单数实现裂变式增长。概念定义:2人及以上的用户,通过拼团减价模式,激发用户分享形成自传播。模式特点:以低价为核心吸引力,每个用户成为一个传播点,再以大额订单降低上游供应链及物流成本。流量来源:关系链(熟人社交)。目标用户:价格敏感型用户。适用商品:个性化弱、普遍适用、单价较低
44、的商品。2、会员分销类社交电商会员制电商是个人微商的升级版,早期个人微商模式下,个人店主需要自己完成商品采购、定价、销售、售后全消费流程;而在会员制电商模式下,由分销平台(S)提供标准化的全产业链服务,店主只需要利用社交关系进行分享和推荐就可以获得收入。会员分销类电商核心功能就是店主的招募和分销,来自于分销裂变带来的获客红利,平台通过有吸引力的晋升及激励机制让店主获益,推动店主进行拉新和商品推广,有效降低了平台的获客与维护成本。概念定义:S2B2C模式,平台负责从选品、配送和售后等全供应链流程。通过销售提成刺激用户成为分销商,利用其自有社交关系进行分享裂变,实现“自购省钱,分享赚钱”。21 云
45、上社交行业技术服务白皮书云上社交行业技术服务白皮书模式特点:通过分销机制,让用户主动邀请熟人加入形成关系链,平台统一提供 货、仓、配及售后服务。流量来源:关系链(熟人社交)。目标用户:有分销能力及意愿的人群。适用商品:有一定毛利空间的商品。3、社区团购社区团购平台提供仓储、物流、售后支持,由社区团长负责社区运营,主要包括社群运营、订单收集、商品推广及货物分发;社区团购是微信商业化所带来电商红利,依托于小程序的兴起,商业功能逐步完善为社区团购发展奠定基础。概念定义:以社区为基础,社区居民加入社群后通过微信小程序等工具下订单,社区团购平台在第二天将商品统一配送至团长处,消费者上门自取或由团长进行最
46、后一公里的配送的团购模式。模式特点:以团长为基点,降低获客、运营及物流成本;预售制及集采集销的模 式提升供应链效率。流量来源:关系链(熟人社交)。目标用户:家庭用户。适用商品:复购率高的日常家庭生活用品。4、内容类社交电商为了满足年轻人碎片化、个性化的消费需求,电商和内容产业链正逐渐走向融合,通过内容了影响消费者决策,引导消费者的购物行为;内容社交电商即指通过形式多样的内容引导消费者进行购物;内容类电商核心点就是内容的产出,通过帖子、直播、短视频等丰富的形式吸引用户,形成从“发现-购买-分享-发现”的完整闭环。概念定义:通过形式多样的内容引导消费者进行购物,实现商品与内容的协同,从而提升电商营
47、销效果。云上社交行业技术服务白皮书 22模式特点:形成发现-购买-分享的商业闭环,通过内容运营激发用户购买热情,同时反过来进一步了解用户喜好。3.2.2.1.2 社交电商行业生命周期分布未来,在零售端的跨境电商将以互动式、娱乐式的商业模式来吸引买家,实现流量导入。社交电商的出现,使得购物趋向于场景化,在与人社交、娱乐的互动中产生需求、解决需求、极大地提高了用户购物的体验感,更好地适应了消费者消费观念的变化。3.2.2.2 社交电商架构说明3.2.2.2.1 社交电商从业务需求到架构设计电商业务的S2B2C模式需要打通供应链到C端用户的路径,技术上需要做多平台对接,应用业务逻辑实现分层服务化接口
48、,数据库采用分布式架构承接高并发访问。供应链采用自主控制供应商、货源和物流,技术上对服务进行隔离,业务实施微服务改造,数据库具备平滑切分能力。社交流量通过社交载体引流、裂变和传播,通过业务入口限流能力、数据库快速扩容能力来应对流量尖刺。分销通过平台分销、赋能小B微商来落地,技术上通过分析业务与C端业务解偶、数据库层进行冷热数据分层来做精准营销。23 云上社交行业技术服务白皮书云上社交行业技术服务白皮书3.2.2.2.2 社交电商业务架构电商业务的架构一般分为前台业务、双中台、PaaS层中台组件、IaaS层基础资源、以及后台系统。前台业务主要是面向用户的APP、小程序、天猫旗舰店等。双中台包括业
49、务中台和数据中台。业务中台主要有会员中心、商品中心、订单中心、库存中心、评论中心、物流中心和佣金中心(社交电商)等。数据中台负责全域数据汇聚、数据融合加工、数据治理体系、以及数据开放共享。PaaS层中台组件包括分布式消息队列、全局事务管理、分布式监控、数据库及工具等。其中数据库相关产品是双中台业务的的核心基础组件。IaaS层基础资源主要是弹性计算、网络、存储等。后台系统有ERP、OA、WMS 等。3.2.2.3 某个社交电商介绍3.2.2.3.1 业务简介某电商开创性的推出了先鉴别,再发货的购物流程,对电商货品实现了“强中心化的平台监管”机制,探索出电商平台交易新模式。正品潮流电商和潮流生活社
50、区是平台的两大核心服务。平台商品品类已经覆盖潮鞋、潮服潮搭、手表、配饰、潮云上社交行业技术服务白皮书 24玩、3C数码、家居家电、美妆、汽车等。作为新一代潮流网购社区,该APP聚集了新、潮、酷、炫的各类商品,也是各类潮流品牌发售和运营的首选阵地。同时作为年轻的潮流生活社区,该APP聚集了一大批热爱球鞋、潮品穿搭和潮流文化的爱好者,该APP社区通过持续沉淀潮流话题内容,正在成为年轻用户的潮流风向标和发声阵地。该APP在传统电商模式的基础上增加鉴别真假与查验瑕疵的服务,首创“先鉴别,后发货”的购物流程,以“强中心化”的平台定位把控商品质量。基于此,保证用户在收到在APP购买的商品前,该商品已经通过
51、多道鉴别查验工序中的“层层关卡”,得到全面的查验鉴别,为用户提供“多重鉴别,正品保障”的全新网购体验。3.2.2.3.2 部署架构25 云上社交行业技术服务白皮书云上社交行业技术服务白皮书3.2.2.4 某个社区电商介绍3.2.2.4.1 业务简介某平台是中国最大的体育互联网平台,为用户提供体育新闻、互动社区、电子商务、赛事活动等服务。拥有2.3亿的日均访问量,1.8亿的全平台月均活跃用户,以及近1.2亿的APP装机量。作为国内互联网体育的领导者和体育互动娱乐行业新平台建设者,该平台将为所有喜爱体育的人们提供完整的覆盖线上线下的多样化服务、内容和应用,同时致力于帮助其他企业和机构在该生态系统中
52、寻求最大化的商业价值与创新机会。平台自建的APP一直坚持以体育社区为核心的方案,通过对体育赛事的再次开拓形成以文字和视频为主的直播赛事为自身的价值主张,将自身的产品致力于为体育赛事提供最好、最完善、最准确的专业赛事报道和赛后的评论。该APP并不是像当初的篮球论坛一样主要以广告收入为主,而是主要以球迷为中心并且坚定加强线上和线下的联系,更加注重用户的体验感,通过一系列的手段来提升用户使用APP的流畅感,这样得到了很多用户的支持,而且该平台举办的“路人王”比赛吸引了很多的篮球爱好者的参与,从而无形的提升该APP在人们心中的地位。其中庞大的用户群是平台创造、传递以及宣传的重要载体,该平台以其强大的数
53、据库支撑,还有庞大的体育爱好者的支持,为用户提供良好的体育盛宴,提供最准确的CBA、NBA、西甲、中超、英超、F1方程式赛车、羽毛球等比赛,让用户随时随地去了解到该场比赛的具体信息,是用户使用率最高的体育类应用APP。并且在版权允许的情况下用户高质量的UGC(UserGeneratedContent,用户的生产内容)和在线上的互动也是该APP不断发展向上的核心资源之一,这也是该APP有别于其他的体育应用类APP的特点。其中APP里面对于比赛的直播解析也是很多人选择其进行观看比赛的重要原因之一。直播解析是由对篮球非常热爱且专业知识过硬的工作人员所组成,解说起来幽默风趣但又不失主题,就好像当年科比
54、退役之战时,观看比赛的用户一度高达800万。由于该APP具有较高的知名度,因此获得大量的融资和赞助。如2015年的时候麦迪云上社交行业技术服务白皮书 26中国行的最后一战在上海举办,就是其和淘宝等合作商进行合作的一款活动,并成功销售了大量的周边商品。3.2.2.4.2 业务挑战作为国内最大的体育互联网平台,用户希望其IT基础架构能够快速响应业务发展的需求:1、资源弹性伸缩:电商板块应用拉新,NBA季后赛等热点会导致流量突增,业务功能上线要求资源快速就绪,线下机房资源无法实现快速弹性扩容。2、用户体验优化:需要为用户提供快速稳定的访问体验,并且通过全方位数据对用户进行精确的画像。3、数据价值提升
55、:需要通过对各种数据的采集,并且进行实时的建模分析,实现对数据的价值变现。4、架构可用性:业务的发展对基础设施架构的稳定性和可靠性提出了更高的要求,线下IDC自建基础架构从技术团队的资源和保障能力上难以满足。3.2.2.4.3 解决方案经过几年的试用和考察,某客户最终决定将全站业务迁移上云,并在此基础上进一步构建云原生应用,充分利用阿里云高性能、低成本、高可用、易维护的优势,适应未来业务发展的需要。1、通过RDS/Redis/POLARDB的弹性伸缩能力,快速响应业务资源需求。2、借助DTS的实时数据同步能力,实现数据从交易系统到分析系统的实时同步,并借助分析型数据库AnalyticDB对数据
56、进行实时分析。数据库迁移上云,通过DTS的单向/双向同步能力,实现业务快速上云切换。凭借云上的全栈性能优化,包括接入、应用部署和数据库响应的优化,显著提升了用户的访问体验。27 云上社交行业技术服务白皮书云上社交行业技术服务白皮书3.2.3 陌生社交3.2.3.1 陌生社交的概念及发展陌生社交1995年从美国萌芽,千禧年初盛行于国内,并随着移动互联网浪潮进入高速发展阶段,智能手机大规模普及,陌生社交进入井喷。20年间,它似乎一直处在旋涡之中,又一直飞在风口之上。广告、会员和虚拟物品等增值服务,是现阶段陌生人社交平台最广泛采取的营收手段。其他附属功能的搭建也成了关键,留住用户之后,就可以加快商业
57、化的脚步了,用一些可以快速创收的生意来稳定平台的发展。云上社交行业技术服务白皮书 28比如目前一些APP在用户较为稳定之后,就用直播当作自身发展的第二曲线。有的APP虽然基于社交,但后续逐渐开辟了虚拟商品交易、电商交易等方面业务。眼下,陌生人社交APP仍需探索出一套可靠且符合平台调性的盈利模式,才不会使“灵魂社交”成为空中楼阁。近年来,我国陌生人社交用户规模不断增长,2016年达到4.88亿,2020年接近6.5亿人。孤独催生了“孤独生意”,熟人世界里无处排遣的孤独感,滋生了陌生人社交这个千亿元级别的市场。数据显示,我国目前有超过1300家从事陌生人社交相关业务的企业。其中,近4成的陌生人社交
58、相关企业成立于5年之内。从行业分布来看,陌生人社交相关企业主要分布在软件和信息技术服务业、以及科技推广和应用服务业,占比分别为29%和42%。3.2.3.2 陌生社交架构说明3.2.3.2.1 安全架构陌生社交业务发展迅速,自身在DDOS方面的要求较高,如果无法应对DDOS攻击则会产生较大的风险,通过以下解决方案来对云上的资源进行保护;IM业务场景:通过阿里云新BGP高仿,对后端ECS进行防护,保障4层业务安全;API业务场景:由于需要Http1DNS,同时需要Https证书双向认证,因此采用防护包的方式进行防护,提升流量入口SLB的防护阈值;通过对不同业务的不同防护方案,使得客户的核心IM业
59、务更加的稳定,可以专注于其他功能的开发;29 云上社交行业技术服务白皮书云上社交行业技术服务白皮书3.2.3.2.2 数据湖架构社交网络的大数据分析需要使用多种类型、大规模的用户相关数据,去深度挖掘出多种社交属性,通过智能算法,分析出用户多维度特征,根据用户画像去匹配出合适的其他用户和内容,智能推荐是某陌生社交APP一个核心能力。这就需要存储大量的社交访问行为数据,并且需要不定期的去使用新模型重新计算已有的数据。随着应用的长期运行和用户数增加到亿级别,累积的各类相关数据已经达到了新的规模,此类数据的长期存储成本优化对于应用的长期发展非常重要。Facebook非常成功的让客户能够查看从注册到现在
60、的整个过程的回忆器能力,让社交应用中,对于用户长期行为记录的保存在社交场景中被非常重视,不能通过简单的通过删除历史数据,去降低这些数据的存储成本。平衡存储成本和持续的挖掘数据潜力,成为了客户在业务长期发展中亟需解决的一个难题。采取分层存储的模式进行数据存储:采用OSS多种存储类型结合使用方式,对于新产生的热数据使用标准类型OSS,对于生成后达到预定义时间的数据,通过OSS Lifecycle能力沉降到低频、归档类型,当模型、算法更新后需要重新计算,只需要解冻冷数据,就可以和使用标准类型数据相同方式进行数据处理。3.2.4 其他场景3.2.4.1 游戏社交某第三人称射击游戏做到了从游戏到社交,该
61、游戏是一款将“射击”与“建造”融为一体的大逃杀游戏。在不断的发展中这款游戏拥有了更为丰富的模式,其内容逐渐突破了原有的枪战、竞争等元素,让玩家得以感受,在虚拟世界与他人进行互动和社交的乐趣;在内容上,这款游戏打破了各个主机平台之间不互通的牢笼,让内容更为共享;在交互上,不断地有歌手在该游戏中举办演唱会,甚至有电影导演在游戏中进行新电影的宣发,这无疑进一步打破了虚拟与现实的边界。同时在娱乐之外,这款游戏还有可以通过个人的创造来实现经济上的盈利,甚至可以自己设计场景来供其他玩家来游云上社交行业技术服务白皮书 30游玩。让游戏不再仅仅是游戏,而更多的具有社交的功能。3.2.4.2 职场社交 职场社交
62、随着互联网和云端技术的发展,也在不断演变。现在企业的员工不仅要与全国、全球的客户保持密切的沟通,即使是同一公司的同事,也会因为职场不同遍布在全国各地。为了满足日益增长的职场社交需求,一个高效的社交平台就显得尤为重要。钉钉就是一个典型的职场社交平台,因为它不仅是一个协同办公平台,更是一个应用开发平台,同时下联基础设施,上联行业的应用,沟通让工作更加顺利。3.3 社交安全社交媒体在满足用户社交需求的同时,也担任着维持平台上内容安全、保护平台数据安全、保障用户隐私安全等责任。我国的网络安全法规定,网络社交平台属于网络服务提供者,负有相应的网络安全管理义务和提醒义务等法定义务,主要是协助执法、内容信息
63、监管、用户数据保护等。3.3.1 社交内容安全3.3.1.1 社交内容安全需求分析早在2018年,西雅图时报撰稿人Dick Lily在一篇名为“社交媒体的算法将我们带入了黑暗、分裂的兔子洞”的文章指出:“社交媒体平台利用算法来迎合我们对“刺激”的需求 我们的担忧,我们的恐惧,还有我们对某些事物的厌恶,它驱使我们不停地点击,这样他们就可以向我们展示广告。”社交媒体导致极端主义,传播偏见和仇恨,并可能导致暴力。这种现象的根源在于算法的应用。纽约时报在一篇报导中提到,“算法决定每个用户看到的动态,它的核心使命是推广能够最大化用户参与度的内容。研究发现,凡是能够挑动愤怒以及恐惧等负面、原始的情绪的帖子
64、,其阅读数量将会激增。”德国的一项研究表明,在近几年反移民暴力事件发生后,仅31 云上社交行业技术服务白皮书云上社交行业技术服务白皮书靠单一的内容页面并不能起到煽动作用,而一旦用户登陆某个页面,Facebook和YouTube的算法便会逐步深入右翼宣传。印第安纳大学信息学与计算机科学教授Filippo1Menczer在一篇文章中提到,由于集体预测通常比个人预测更准确,人们在做出决策时倾向于依据他人的行动、意见和偏好作为指引。在数百万年的进化过程中,这种倾向以“认知偏差”的形式被编码到人类大脑中,比如“跟风效应”。人们模仿邻居、跟随赢家、跟随大多数。这种“群体智慧”(The Wisdom of
65、The Crowds)的有效性建立在一个假设之上,即群体是由不同的、独立的来源组成的。互联网科技使得人们能够获取到来自不计其数的素不相识的人的信息。由于人们倾向于与相似的人交往,他们的在线社群不再多样化。这将人们推入同质化的社区 通常被称为“回音室”(The Echo Chamber Effect)。而“群体智慧”在这一场景中不再有效。Tom1Nichols曾在专家之死一书中指出,高等教育的商品化、互联网领域的内容过剩,以及媒体行业的娱乐化使人们“无知却很自信”,大众对专家的抵触使得越来越多的专家陷入一种“社会性死亡”。由此,反智主义盛行。“社交媒体被用来传播错误信息放大问题、模仿社会运动、推
66、动阴谋”,一名哈佛大学的研究主管甚至表示,“错误信息是社交媒体的一个特征,而不是漏洞。”在这个信息膨胀时代,内容安全有位重要。同时法律法规及既为用户维权有法可依提供了基础,也为行业内各个社交平台敲响了警钟,预防是比事后补救更好的解决方法,平台构建更健全的内容审核机制和审核吐啊对的重要性可谓是不言而喻的。3.3.1.2 阿里内容安全能力随着社交媒体上用户量、用户创造和传播的内容的不断增加,内容安全的重要性也随之不断上升。各社交平台可以从零开始自建内容安全能力,也可以依托于阿里云积累的多种云上内容安全能力,一起来保障云上社交的内容安全。阿里云为云上业务提供的内容安全能力有:内容检测API、OSS违
67、规检测和站点检测等功能,其中每个功能都能适用于多种场景。3.3.1.2.1 内容检测API云上社交行业技术服务白皮书 32应用场景描述图片违规内容检测视频违规内容检测文本垃圾内容检测检测图片违规或识别图片中的不良信息。具体支持以下场景:智能鉴黄 暴恐涉政检测 图文违规检测 二维码检测 不良场景检测(图片中无内容、画中画、吸烟、车内直播)logo检测检测视频中的违规内容或不良信息。具体支持以下场景:智能鉴黄 涉政暴恐检测 图文违规检测 不良场景检测(例如黑屏、白屏)logo检测检测文本中的违规或不良内容,具体包括以下场景:广告内容检测 涉政暴恐检测 辱骂内容检测 色情内容检测 灌水内容检测 无意
68、义内容检测 违禁品内容检测 不良场景内容检测(保护未成年场景,支持拜金炫富、追星应援、负面情绪、负面诱导等检测场景)自定义关键词检测语音垃圾内容检测检测语音中的违规或不良内容,具体包括以下场景:广告内容检测 涉政暴恐检测 辱骂内容检测 色情内容检测 灌水内容检测 无意义内容检测 违禁品内容检测 不良场景内容检测(保护未成年场景,支持拜金炫富、追星应援、负面情绪、负面诱导等检测场景)自定义关键词检测文件垃圾内容检测检测文件中的违规或不良内容,具体包括以下场景:porn:鉴黄 ad:广告 terrorism:暴恐涉政 sface:敏感人脸 qrcode:二维码 live:不良场景(图片中无内容、画
69、中画、吸烟、车内直播;视频黑屏、白屏)logo:logo识别33 云上社交行业技术服务白皮书云上社交行业技术服务白皮书3.3.1.2.1 OSS违规检测应用场景描述网页垃圾内容检测图文OCR识别检测网页中的违规或不良内容,具体包括以下场景:porn:鉴黄 ad:广告 terrorism:暴恐涉政 live:不良场景(图片中无内容、画中画、吸烟、车内直播;视频黑屏、白屏)识别图片中的各种文字信息(结构化或非结构化信息)。支持识别的结构化卡证对象包括:身份证 护照 银行卡 营业执照 增值税发票 行驶证 驾驶证 车牌 车辆Vin码视频质检检测根据给定的视频,检测文件中是否有模糊、拼接、低亮度、黑屏、
70、静帧等质量问题。相似图检索根据给定的图片到用户自定义图库检索相似的TOP N张图片。图片标签识别识别图片中的主体,并输出对应的标签。人脸识别人脸识别包括以下能力:人脸属性检测 人脸比对 活体翻拍检测 图片敏感人脸识别 视频敏感人脸识别 自定义人脸检索应用场景描述检测阿里云对象存储OSS服务中的图片、视频、语音是否包含色情、涉政等违规内容检测OSS存储空间中的违规内容,支持增量内容自动检测或存量内容手动扫描。云上社交行业技术服务白皮书 34OSS违规检测能够检测阿里云对象存储OSS服务中的图片、视频、语音是否包含色情、涉政等违规内容,并可以自动冻结检测出的违规内容(禁止通过公网访问这些违规内容)
71、,帮助您规避可能遇到的内容违规风险。功能介绍OSS违规检测支持检测指定OSS1Bucket中的增量内容和存量内容,即增量扫描和存量扫描。该功能无需您开发,只需要少许页面配置即可接入使用。增量扫描开启增量扫描后,当您在OSS1Bucket上传了新的图片、视频、语音时,内容安全将自动检测新增的图片、视频是否存在违规。增量扫描一次配置即可长期生效。存量扫描存量扫描目前不支持自动检测,需要您手动创建扫描任务。创建后,内容安全将在指定时间,一次性扫描您指定的OSS1Bucket已有的图片、视频、语音文件是否存在违规。使用流程3.3.1.2.2 站点检测应用场景描述站点内容风险检测定期自动检查网站首页或全
72、站中存在的违规内容,支持检测的风险场景如下:首页篡改 色情低俗 涉政暴恐 垃圾广告 用户自定义关键词 用户自定义相似图授权访问oss存储空间授权内容安全能够读取您的oss对象存储服务tmpsample bucket权限。查询扫描结果当您完成增量扫描任务后,您可以随时在内容安全控制台查看扫描结果,并根据扫描结果执行自助审核。查询扫描结果当您完成增量扫描任务后,您可以随时在内容安全控制台查看扫描结果,并根据扫描结果执行自助审核。设置增量扫描任务通过增量扫描设置,您可以对指定OSS Bucket中新增的图片、文本和视频自动进行违规检测。35 云上社交行业技术服务白皮书云上社交行业技术服务白皮书站点检
73、测服务帮助您定期检查网站首页和全站内容,及时发现您的网站在内容安全方面可能存在的风险(例如,首页篡改、挂马暗链、色情低俗、涉政暴恐等),并向您展示违规内容的具体地址,帮助您查看和修复。1、功能描述站点检测的对象是您的网站上的网页和图片,以URL数量进行计数。在单个网站的一个检测周期内,站点检测支持的最大检测容量为10万个URL。站点检测包含首页检测和全站检测功能。首页检测:定期对您网站的首页进行检测,展示最近一次的检查结果。检查结果涵盖首页篡改、挂马暗链、色情低俗、涉政暴恐等风险提示,并提供源码、文本、图片三类呈现方式,供您参照和整改。全站检测:定期对您网站域名下的网页进行自动化全站内容检测,
74、展示最近一次的检查结果。检查结果涵盖挂马暗链、色情低俗、涉政暴恐等风险提示,并提供源码、文本、图片三类呈现方式,供您参照和整改。2、使用流程站点检测服务定期检查您的网站首页和全站内容,及时发现您的网站在内容安全方面可能存在的风险(例如首页篡改、挂马暗链、色情低俗、涉政暴恐等),并向您展示违规内容的具体地址,帮助您查看和修复。您可以设置消息通知,获取实时的站点首页风险提醒。在使用站点检测功能之前,您需要先购买站点检测实例。购买实例后,需要将实例绑定到您的站点、添加要检测的网站域名和首页地址、设定首页和全站检测的频率,并完成网站鉴权。完成设置后,系统将定期按照您设定的频率对首页和全站内容(包含网页
75、源码、文本和图片)进行检测。如果发现有风险,将按照您设定的消息接收方式通知您,您也可以登录内容安全控制台查看检测结果。购买站点检测实例首次使用内容安全站点检测功能,您需要先购买站点检测实例。查询检测结果您可以随时在控制台上查看站点检测 结果,对存在风险的URL进行处理。创建站点检测任务您需要创建站点检测任务,绑定并验证您要检测的站点。站点验证通过后,检测实例会自动 开始检测。云上社交行业技术服务白皮书 363.3.2 云上数据信息安全3.3.2.1 云上数据安全需求分析刑法第286条规定网络服务提供者不履行法律、行政法规规定的信息网络安全管理义务,经监管部门负责令采取改正措施而拒不改正的行为,
76、具有“致使违法信息大量传播”的情形,“致使用户信息泄露,造成严重后果”的情形,“致使刑事案件证据灭失,情节严重”的情形,“有其他严重情节”的情形均构成犯罪。无论是处于法律法规,还是人们对于隐私的保护,社交媒体平台对信息安全保护的重要性是不言而喻的。云上安全问题本质上都是由线下传统安全问题衍生而来的,但由于云计算平台的相对开放性又引入了新的安全风险。例如,虚拟机逃逸造成新的安全威胁,原本封闭的IDC需要开放新的通道而造成防护边界模糊,本地的身份认证系统与云上集成的风险,云产品配置错误或云账号AccessKey使用不当导致的数据泄漏风险,因缺乏专业云安全运营人员导致云上安全防护形同虚设等风险。3.
77、3.2.2 云上安全防护体系3.3.2.2.1 迁云安全设计用户在拟向云计算平台迁移或部署其业务和数据时,应选择通过第三方安全审查或认证的云服务商,确保其满足云计算安全服务能力和合规能力的要求。企业应对各种需要IT支持的业务和流程进行投入产出比(ROI)分析,而风险与收益的评估也同样重要,还应考虑合规和隐私保护的影响。云上安全防护策略是企业上云和云上资产管理的起点,提前定义完善的防护策略将显著降低被攻击或数据泄漏的风险。云上安全防护策略应考虑组织规模、组织业务安全需求、防护目标、防护边界、合规和法律等因素。在评估得到要部署的云上业务形态后,即需要分析和定义云上资产。37 云上社交行业技术服务白
78、皮书云上社交行业技术服务白皮书3.3.2.2.2 云上安全防护体系原则及框架1、云上资产访问和管理应遵从以下云上安全原则:网络隔离(纵深防御):通过云产品的安全隔离和访问控制功能,实现网络、系统、应用和数据不同维度的隔离以实现纵深防御。认证授权(最小权限):仅授权使用者必须的云账户和子账户权限,并开启双因素认证措施和关键操作二次认证能力。安全加密(开启加密措施):通过传输加密和存储加密措施实现数据在云上全程加密。监控告警:通过日志和监控措施及时发现配置变动、异常登录和操作、数据泄露以及异常攻击等。阿里云提供了全面的安全基础设施能力,覆盖虚拟化安全、主机安全、应用安全、数据安全、业务安全以及各种
79、监控审计措施的云盾系列安全产品,满足云上安全合规和风控需求。其中,以账户为核心的身份认证措施是云上安全的核心,正确地设置云账户能消除大部分安全风险;以加密为基础的防护措施是云上安全的基石,正确使用KMS系统能降低数据泄露的风险。下面主要介绍阿里云访问控制(RAM)和密钥管理服务(KMS)最佳实践。2、阿里云提供了以下两类身份认证服务:云盾应用身份服务IDaaS(Alibaba Cloud Identity as a Service,简称IDaaS),是阿里云为企业用户提供的一套集中式身份、权限、应用管理服务,帮助用户整合部署在本地或云端的内部办公系统、业务系统及三方SaaS系统的所有身份,实现
80、一个账号打通所有应用服务。访问控制(Resource Access Management,简称RAM)是阿里云提供的一项管理用户身份与资源访问权限的服务,RAM是阿里云资源认证的核心。3、密钥管理服务(Key1Management1Service,简称KMS)是云上数据安全的核心,提供密钥的安全托管、密码运算等基本功能,内置密钥轮转等安全实践,同时支持其他云产品通过一方集成的方式对云产品管理的用户数据进行加密保护。主要提供以下两种能力:云上社交行业技术服务白皮书 38主密钥在线加解密:用户可以直接调用KMS的API,使用指定的用户主密钥(CMK)来加密、解密数据。这种场景适用于少量(少于6KB
81、)数据的加解密,用户的数据会通过安全信道传递到KMS服务端,对应的结果将在服务端完成加密、解密后通过安全信道返回给用户。信封本地加解密数据:用户可以直接调用KMS的API,使用指定的用户主密钥(CMK)来产生数据密钥,并自行使用数据密钥在本地加解密数据。这种场景适用于大量数据的加解密,用户无需通过网络传输大量数据,可以低成本的实现大量数据的加解密。3.3.2.2.3 云上数据生命周期管理敏感数据主要包括客户资料、技术资料、个人信息等高价值数据,这些数据以不同形式存在于资产中。敏感数据的泄露会给企业带来严重的经济和品牌损失。因此数据安全是云上数据的核心能力,我们建议根据数据安全能力成熟度模型(D
82、ata security capability maturity model,简称DSMM),将数据按照其生命周期分阶段采用不同的能力评估等级,分为数据采集安全、数据传输安全、数据存储安全、数据处理安全、数据交换安全、数据销毁安全六个阶段。DSMM从组织建设、制度流程、技术工具、人员能力四个安全能力维度的建设进行综合考量。DSMM划分成了1-5个等级,依次为非正式执行级、计划跟踪级、充分定义级、量化控制级、持续优化级,形成一个三维立体模型,全方面对数据安全进行能力建设。阿里云建议云上数据安全参考DSMM进行安全防护,制定数据安全策略,通过组织、人员和技术推动数据安全落地。具体操作,请参见阿里云
83、企业上云数据安全最佳实践(https:/www.ali- 云上社交行业技术服务白皮书云上社交行业技术服务白皮书快速发现和定位敏感数据,追踪敏感数据的使用情况,并根据选择的安全管理规则,呈现系统化的数据总览图,以确保实时了解资产数据的安全状态。此外,DataWorks以及MaxCompute也支持数据的分类分级和打标工作。2、数据传输安全阿里云产品控制台访问均通过HTTPS加密。各产品均对外提供加密的HTTPS的Endpoint供API调用,全链路通信进行SSL/TLS安全加密处理。强烈建议SLB、CDN、OSS、RDS、MaxCompute、Datahub等常用产品开启链路加密功能。3、数据存
84、储安全落盘加密主要指数据以加密的状态落盘存储,其中又分为默认服务密钥落盘加密和自选秘钥加密,其安全强度逐次增强。阿里云ECS云盘、RDS for MySQL、RDS for SQLSever、OSS、RDS for PostgreSQL、NAS、MaxCompute、TableStore等产品均提供了存储加密能力。云服务器ECS中的云盘:支持服务密钥和BYOK密钥落盘加密云数据库MongoDB版:支持TDE服务密钥落盘加密云数据库RDS for MySQL版:支持服务密钥和BYOK密钥落盘加密云数据库RDS for SQLServer版:支持服务密钥和BYOK密钥落盘加密云数据库RDS for
85、 PostgreSQL云盘版:支持服务密钥和BYOK密钥落盘加密通用文件存储(NAS):支持服务密钥落盘加密OSS:支持服务密钥和BYOK密钥落盘加密MaxCompute:支持项目(Project)级别与表(Table)级别加密,支持服务密钥和BYOK密钥落盘加密(即将上线)表格存储(TableStore):支持服务密钥和BYOK密钥落盘加密(后者即将上线)4、数据处理安全阿里云不同产品提供了不同层次的数据处理安全能力。例如,MaxCoumpute和Dataworks提供了安全沙箱的隔离能力、OSS通过不同ACL策略进行读写分离,不同产品间数据处理通过RAM权限管理进行隔离和控制,通过安全组和
86、VPC进行数据处理环境的隔离。此外,还可以通过敏感数据保护(SDDP)和DataWorks保护伞监控云云上社交行业技术服务白皮书 40理环境的隔离。此外,还可以通过敏感数据保护(SDDP)和DataWorks保护伞监控云上数据权限变动和异常情况、以及对敏感数据进行脱敏处理,保障数据处理安全。5、数据交换安全数据的价值是通过交换和共享来实现的。阿里云上数据交换建议通过脱敏、隔离、以及API网关的形式进行数据交换,以可用不可见的方式实现数据共享。对于大数据场景,建议在MaxCompute或DataWorks中开启项目保护模式实现数据的下载控制,通过可信设置保障数据交换安全。6、数据销毁安全阿里云建
87、立了对设备全生命周期(包含接收、保存、安置、维护、转移以及重用或报废)的安全管理。设备的访问控制和运行状况监控有着严格管理,并定期进行设备维护和盘点。特别是当设备重用或报废时,阿里云会对存储介质进行覆写、消磁或折弯等数据清除处理。阿里云的数据清除技术满足行业标准,清除操作留有完整记录,确保用户数据不被未授权访问。RDS:在控制台释放实例或者删除数据库。更多详细信息,请参见删除数据库(https:/ drop table xxx命令。MaxCompute:在DataWorks上执行delete project命令(异步操作)。Datahub:控制台删除project和topic,次日凌晨4点会自
88、动删除。OSS:控制台删除文件,然后回收站删除,删除bucket。更多详细信息,请参见删除文件(https:/ 云上社交行业技术服务白皮书云上社交行业技术服务白皮书4、云上社交保障与服务案例4.1 社交平台可靠性 基于社交媒体类直播点播场景,通过对于当前主流头部客户质量监控体系模型进行提炼,输出了客户端日志上报数据推荐、质量监控通用指标及报警方式建议。可帮助相关业务同学更清晰了解媒体类客户质量核心诉求,并为多媒体客户提供质量监控系统参考。4.1.1 行业质量监控指标4.1.1.1 公共检测平台PK关键指标直播点播都是如何做的质量评估的?我们先来看看公共监测工具基调-流媒体监测关键指标:缓冲前准
89、备时间:从开始监测到第一次缓冲出现的时间,包含了DNS解析时间、发出数据 请求及接收第一个数据包的时间。缓冲时间:流媒体播放器处于首次缓冲状态待续的总时间。再缓冲时间:流媒体播放器在播放过程中出现了缓冲所花费的时间。等待时间:等于连接时间+首次缓冲时间+所有再缓冲时间;是一个重要的指标,系统用此值来表示流媒体文件监测的性能。用户体验指数:反映用户实际播放体验的综合指标,等于等待时间(秒)+(缓冲次数-1),等待时间越长,缓冲次数越多,用户体验指数表现越差。再缓冲次数:流媒体播放器在播放过程中出现了缓冲所花费的次数。4.1.1.2 社交媒体行业头部客户关键指标再来看看多媒体行业头部客户的关键指标
90、:云上社交行业技术服务白皮书 42某头部短视频客户直播:开播失败率、首帧时间、百秒卡顿sum、百秒卡顿avg、百秒卡顿 次数、百秒重试次数某游戏直播客户直播:秒开率、中度卡、重度卡、黑屏比、p2p卡比、flv卡比、adr卡比、ios 卡比、webh5 卡比某政企客户直播:卡顿率、错误率某游戏直播客户直播:卡顿率、拉流失败、秒开失败、平均延迟某头部短视频客户直播:下载失败率、下载速度、慢速下载率、视频准备时间、开播故障率、卡顿次数、卡顿率 卡顿时长某头部短视频客户点播:卡顿率、中断率、错误率,某游戏直播客户点播:成功率某政企客户点播:卡顿率、错误率某头部在线视频网站点播:卡顿率4.1.1.3 共
91、性关键指标简介直播通用:开播失败率、卡顿率、秒开率点播通用:卡顿率、错误率、失败率4.1.2 质量指标衡量标准4.1.2.1 背景 对于应用而言,应用业务质量的数据源通常会有两个,一个是来自服务器 server的日志,一个是来自客户端的日志。但是由于服务端server的日志只能记录服务端一侧的事件,对于请求发出但未抵达服务端的请求,客户端的环境信息等无法触达,如果仅依赖于服务端日志,将使得对于统计整体业务的运行情况以及对于部分异常场景的追踪变得困难。客户端日志作为程序运行状态和路径的记录,是进行统计和追踪重现问题的重要依据。因此规范的日志打印和合理的日志获取流程具有重要意义。43 云上社交行业
92、技术服务白皮书云上社交行业技术服务白皮书另一方面,要对社交中直播和点播的质量进行具体量化的分析,才能找到更好进行监控,以及有助于定向优化,进而提升平台的稳定性。4.1.2.2 某平台质量检测方式4.1.2.2.1 直播评分方式各项指标加权平均算法如下:总分=百秒卡顿次数*5+百秒卡顿时长*5+拉流成功率单项分*30+端到端延迟*15+视频渲染百秒卡顿时长*15+视频渲染百秒卡顿次数*10+首帧时间单项分*20。如果存在多个CDN厂商,会进行归一化处理,方式如下:百秒卡顿次数、百秒卡顿时长、视频渲染百秒卡顿时长、视频渲染百秒卡顿次数、拉流成功率归一化:性能最好的 CDN 供应商的分数为 100,
93、其他的为数值与性能最好的 CDN 供应商的比 值。0=单项分=100。首帧算法调整:按照区间打分。首帧时间分值首针时间650msdiff 50msdiff 100msdiff 200msdiff=400ms分值100分100分80分60分40分0分云上社交行业技术服务白皮书 44端到端延时调整:按照区间打分4.1.2.2.2 直播质量日报指标说明 首帧时间分值端到端延时=8.5 s分值100分-1分90分-1分70分0分首帧时间分值名称百秒卡顿时长百秒卡顿次数首帧时长拉流成功率端到端延迟视频渲染百秒卡顿时长视频渲染百秒卡顿次数数据来源客户端打点日志客户端打点日志客户端日志客户端日志客户端日志客
94、户端日志客户端日志说明&算式参考avg(百秒卡顿时长)avg(百秒卡顿次数)avg(首帧时长)参考算式:count(is_stream_reciv ed:1)/count(*)avg(端到端延迟)avg(视频渲染百秒卡顿时长)avg(视频渲染百秒卡顿次数)45 云上社交行业技术服务白皮书云上社交行业技术服务白皮书4.1.2.2.3 点播评分方式各项指标加权平均:总分=错误率/3+中断率/3+卡顿率/3 4.1.2.2.4 点播质量日报指标说明各项指标算法及说明:单位时间:每5分钟为一个单位。首帧时间:从用户开始播放到出现首帧画面的时长,单位时间:毫秒。卡顿:在播放过程中出现的网络卡顿次数,一次
95、播放中,不论卡顿多少次,都计数为1次。未起播:用户请求多次播放地址均未加载成功,计数为1次。播放中断:用户在播放过程中,因网络等原因未成功继续播放,计数为1次。错误数:指响应5XX状态码、连接超时的请求。播放失败:用户请求多次主备播放地址均未播放成功,计数为1次。百秒卡顿时长:用户每播放100秒视频所经历的卡顿时长,单位时间:毫秒。4.1.2.3 质量告警方式和内容4.1.2.3.1 告警平台除了质量的评价标准和日报,还需要及时发现问题、定位问题的能力,而这就需要精确有效而多样的告警方式。而一般都会选用邮件+IM工具,而有些大的客户也会选用自建平台进行质量的实时监控。直播指标:某头部短视频客户
96、:审核实时流成功率、拉流成功率、时移失败率、错误率、百秒卡顿时长、直播首推成功率某头部短视频客户:卡顿率、开播失败率云上社交行业技术服务白皮书 46点播指标:某头部短视频客户:卡顿率、下载耗时、中断率、未播放离开、失败率、成功率某头部短视频客户:下载失败率、下载失败率,慢速下载率、quic_fallback_占比、quic_占比4.1.2.3.2 告警内容直播告警内容(平台IM+邮件)上行告警方式:主播名称 线路 卡顿率占比 卡原因 流名称举例:时间主播告警主播xxx,线路3当前感官卡顿率为:60%卡原因:转码环节,流名称:http:/xxx下行告警方式:业务类型域名时间地区运营商卡顿率占比开
97、播失败率占比观看人数开播失败率状态持续时间举例:NOTI直播质量监控直播域名03-19 11:30新疆-电信:当前卡顿率24.13%,开播失败率3.78%,观看行为数1090;卡顿率超过阈值。点播告警内容(IM+邮件)下行告警方式:业务类型域名时间地区运营商终端类型下载量下载失败率占比下载失败 率日同比变化 持续时间举例:WARN 短视频下载监控点播域名03-19 06:20宁夏-VIDEO-移动-WIFI:当前下载失败率9.60%,下载量9624.0;下载失败率日同比变化125.1%。4.2 社交流量潮汐性4.2.1 基础资源满足潮汐性分析在热点频发的社交媒体上,扩容的速度和成功率成了刚需,
98、要求快、稳、省,这三个指标第一眼看仿佛是对于扩容的需求,但是对于热点过后的社交平台,缩容也有47 云上社交行业技术服务白皮书云上社交行业技术服务白皮书着类似的要求,快速,稳定以及成本节省;一般的社交媒体每日、周末或者节假日之间有波峰波谷,资源会有扩容和缩容的需求;如果热点事件时候,流量暴增,热点过后急需缩容;弹性方案分析如下:1、自建IDC-最大供应型如下图所示,虚线部分是客户业务高峰期和低谷期需求的模拟曲线,而饱和型就是资源最大供应模型,此模型主要是为了保障波峰时业务的稳定性。由于为了满足波峰的需求,需要IDC提前准备冗余的资源,因此该资源供应模型的问题也极为明显,不仅前期资源浪费验证,而且
99、在业务的低峰期,有大量的在线资源被浪费。2、自建IDC-按需扩容型如下图所示,相同虚线部分为客户业务需求的简易模拟曲线,而按需扩容型则再开始时只要满足够用,前期投入成本低,且能够满足一般的需求。云上社交行业技术服务白皮书 48由于社交媒体发展会比较迅速,前期按需求建设虽然起到了节约成本的效果,但是随着业务的不断发展,业务水位提高,资源不能满足需求时,就需要进行临时扩容。该方案在前期有较小资源浪费,但是在高峰时会有业务损失,见上图中的虚线与实线的交叉部分。而扩容之后,在业务低峰期也有最大供应型一样的资源浪费。3、云计算-按需弹性模型云计算的弹性模型,可以按照业务模型进行弹性扩容和缩容,业务架构需
100、要设置为可以横向扩展的模式。详细模型如下图所示:49 云上社交行业技术服务白皮书云上社交行业技术服务白皮书虽然自建IDC也可以采用专有云进行弹性,但是宿主机也是物理服务器,需要提供最大供应的能力才能实现按需弹性,这样也会造成资源浪费。而公共云则完美的解决了社交媒体流量潮汐,热点时间突破预估等一般和特殊场景的需求,而且可以按需进行资源的扩展和缩容,高峰期提供充分资源已保障业务安稳,低峰期进行横向缩容减少成本开支。4.2.2 某客户基础资源弹性方案某社交平台发布信息快速,信息传播速度快,基础设施支撑面临巨大挑战,为了支撑弹性需求,该社交平台通过多年的自主研发,构建了基于Docker的混合云架构,通
101、过公有云的能力支持弹性扩容。基于阿里云的ECS的弹性能力,客户业务高峰期的稳定性也不断提升。而ECS作为IaaS层的能力提供,是有存在能力上限的。需要考虑更快、更省、更稳定的方案。基于Serverless&容器化的弹性计算服务,可以支撑客户更高的弹性诉求。云上社交行业技术服务白皮书 50免运维的IaaS层服务,用户不需要购买和管理ECS,可以直接在阿里云上运行容器/Pod;从购买ECS,然后部署容器(ECS模式),到直接部署容器(ECI模式),无缝对接容器服务Kubernetes;基于Kata的安全沙箱容器,提供VM级别的安全和资源隔离,深度整合优化的轻量级虚拟化解决方案,启动更快,效率更高。
102、从2016年,100台ECS扩容需要14分钟,到2019年10分钟2000天的ECS弹性速度。到2020年ASK的使用,实现了500实例/30S的速度。再到2022的今天,推动客户使用了更加安全高效的ASK Pro版本,经过压测不仅在速度上进一步提升,安全可靠性提升、10000台的高并发的同时还带来了更加公平的调度。4.2.3 云上成本优化社交媒体云上流量的潮汐性,不仅需要架构上为成本进行优化,还需要对云上各种资源进行成本优化的分析和方案制定,这样才能“用好云”,实现在云上的高质量发展。4.2.3.1 成本优化意识4.2.3.1.1 资源投入和业务产出趋势图51 云上社交行业技术服务白皮书云上
103、社交行业技术服务白皮书4.2.3.1.2 成本意识和业务阶段4.2.3.2 成本优化方法论在进行将本增效的过程中,首先我们要注意的是,成本的管理并不是在方案实施以后才需要关注的,而是在设计方案的时候就应该考虑了。成本优化和业务上云逻辑一致,成本控制和优化需要事先规划,事中分析,并且做好事后评估,然后不断地滚动迭代,向前迈进。因为任何方案一开始都不可能是完美的,需要一直进行回顾,并且不断地,与时俱进。首帧时间分值业务阶段探索期进攻期发展期变革期业务特点验证模式,从0到1市场占有率是唯一目标稳居市场TOPN,业务成熟增速放缓、转型或变革成本管理意识粗放式管理,只控制上限粮草先行,不控制成本阅读财报
104、,关注成本问题降本增效,开始控制成本云上社交行业技术服务白皮书 524.2.3.3 成本优化流程4.2.3.3.1 确立成本优化方法论凡事预则立,不预则废。在做一件事之前,要充分评估整个工作完整生命周期的要素,并进行整体工作框架的设计,一个科学的方法论是十分有必要的。成本优化遵循的是一个行业内成熟的PDCA的方法论,即Plan、Do、Check、Act,在每个阶段都又有对应的二次迭代和微循环。在Plan计划阶段要做的事:建立意识、确定目标、分析现状、确定评价指标。在Do执行阶段要做的事:分解原子项目、确定方案、落实到人、优化原子指标。在Check检查阶段要做的事:规定动作检查、行动结果评估、系
105、统问题定位、修正标准动作。在Act优化处理阶段要做的事:定期复盘、形成报告、迭代认知、升级方法论、下阶段目标。4.2.3.3.2 计划规划阶段(Plan)53 云上社交行业技术服务白皮书云上社交行业技术服务白皮书在这个阶段的核心目标是:用尽量精简可量化的指标来衡量工作,尽量控制在2-3个。很多工作之所以最后失败,是由于很多时候相关人员根本没有办法用具体可衡量的指标来衡量自己的工作。如果没有提前制订好可量化的指标,对于工作结果,只能有一个“定性”的认识(比如很好,很不错,不好,较差),而无法做到“定量”,进而无法进行针对性的优化和迭代。对于面临成本优化,或者将本增效的研发、运维和财务的工作人员来
106、讲,不能得出一个定量的结果,是不够科学的,执行的优化动作也是不具说服性的;具体如何确定评价指标,或者确定哪些指标作为将本增效的工作目标,其实也是一门学问。这个阶段的几个建议步骤为:建立意识:这个是团队Leader的首要责任:1、明确成本控制是不是一件真正有意义和价值的事;2、要让团队成员明白自己在资源上花了多少钱;3、要做到大家认知一致。虽然见到过一些团队在提倡成本控制,但是落实到具体行动时,却流于形式或者无从下手,最后只能停留在口头上,并没有产生实际的效果。确定目标:这个过程相对宏观,也可以认为是“定性”的阶段。在这个阶段要明确的就是,在成本控制这件事上,后续动作要解决的问题是什么?比如有些
107、团队是总体成本偏高,但有些团队总成本并不高,而是应该增加成本,有些团队是非核心服务消耗的成本偏高,这些目标都需要经过团队成员讨论后得到一致的结果。在后续阶段的迭代中,也可以进行不断地修正。就像“客户永远不知道自己的需求”一样,很多人是不清楚自己的目标的,可以使用SMART原则来明确目标。分析现状:对成本这件事,罗列相关的数据,尽可能多地帮助自己做判断。自己团队在成本优化这件事上,处在哪一个阶段,哪些工作有可能被进一步优化,在此阶段要明确出来。确定评价指标:对于不同的专业序列,甚至对于同一专业序列的不同人员,大家对于成本的评价指标都不一样。这个阶段要做到最终的收敛,把团队未来成本优化的结果,用明
108、确的数据表示出来。比如在到餐研发团队中,我们确认了2个优化的核心指标:总成本、总订单成本。后续大家所有努力的目标,如果跟这两个指标没有关系或者弱相关,都可以忽略。云上社交行业技术服务白皮书 54本阶段最大的经验是“知易行难”,虽然拍脑袋想出来一两个方向和目标很容易,但是最后用数据论证现状时,如何判断自己这个指标是“优秀”、“良好”还是“不及格”?对标的团队是谁?为什么对标的对象是TA?都是需要从人员规模、业务阶段、业务量、行业特点等方面考虑仔细,也需要想清楚,其工作量甚至不比实际干活阶段小。4.2.3.3.3 执行阶段(Do)在执行阶段的流程是:分解原子项目、确定方案、落实到人、优化原子指标。
109、在这里包括两个核心要素:1、把核心指标相关的工作向下一层分解;2、在下一层,找到具体的人来执行,这个人要具备将自己负责的指标继续分解到更细的能力,类似于我们说的树状结构。这样层层地分解下去,每一层的叶子节点都可以找到对应的负责人。这种“总分”结构,在一本经典教材金字塔原理中也有详细的阐述。分解原子项目:在本阶段要建立一个完全细化的分级结构,用金字塔原理中的MECE不重不漏原则,将工作内容分解到最细的可控粒度。至于按哪个维度进行拆分,不同的团队或者业务可能会有不同的原则,比如有些团队直接按子团队进行拆分,有些团队按业务进行拆分,有些团队按流程进行拆分。从较多团队通用的角度,成本控制这件事,可以简
110、单的将指标分解到二级指标,包括“自身使用的成本”和“被分摊的成本”。其中,“自身使用的成本”是指,为了满足自己业务的需要,由本技术团队申请或者使用资源产生的成本;“被分摊的成本”是指,由于根据某种计算逻辑,间接使用了其他团队的资源,为其他技术团队承担一部分成本费用,比如常见的资源包括公司其他团队开发的广告、投放、风控、安全等系统。如果可以分拆到具体的系统,则每个系统又可以继续向下拆分到更细粒度的构成项目,每个节点都是一个小的“总分”结构,按这个逻辑继续向下分解,可以分为“可落地的最细粒度的成本”和“可落地的最细粒度的分摊成本”。再根据开篇描述的方法,确定每个原子的评价指标,无法量化的项目都是“
111、耍流氓”。这样就形成了一个更完整的金字塔结构,如下图所示:55 云上社交行业技术服务白皮书云上社交行业技术服务白皮书确定方案:根据上面的金字塔结构,每个原子指标,都需要专业的同学来评价分析,确定如何进行优化。比如,系统主机的成本,主要集中在虚拟机+存储这样的资源上,衡量的指标可以确定为“资源利用率”和“单订单成本”。为了解决“资源利用率”这个原子指标,就需要考虑目前的空闲机器是否可以下线,在线的服务是否可以优化或者合并;为了解决“单订单成本”这个指标,可以考虑分析下系统架构,跟核心流程处理有关的服务是否可以更加高效或者抽象出来成为服务中台,这样就可以释放一些烟囱式的建设资源,使得核心处理能力更
112、加集中、高效。类似这样将所有的解决方案整合起来,就形成了最后的解决方案。落实到人:有了方案之后,一定要确定唯一的Owner(主R),根据经验,主R只有一个会比较好,否则会造成“责”、“权”、“利”分割不清。在这个过程中,也是培养团队技术能力和架构能力的好机会。优化指标:不同的方案,实施的周期和代价不同,各个主R深入到不同专业后,会对目前的资源指标有分析和反馈。有可能理论上所有的指标都需要优化,也有可能一些指标已经很好了,这时候要甄别出来哪些资源指标的实施“杠杆率”比较高。建议应用80/20原则进行分析,即某些指标投入20%的资源和精力可以解决最后80%的核心问题,保证投入适合的工作量带来较高的
113、产出。对于没有解决方案的资源或者实施难度过大的资源,建议果断放弃或者搁置。云上社交行业技术服务白皮书 56在具体实践中,我们可以把以上的过程,再次用一个金字塔结构来表述,如下图所示:建立了以上的结构,就可以根据各个专业的不同,对各自的指标进行优化了,如果最细一级的指标被成功优化之后,最上层的指标一定会有下降。因为上述指标都有其各自深层次的业务、技术,甚至是财务上的逻辑,故在此把一些需要关注的概念再赘述一下。很多公司每个技术团队的机器成本,在财务上叫做“网站运维成本”,从顶层可以分为两类构成因素,就是“自己产生的成本”和“被分摊的成本”两大类。跟自己有关的继续向下钻取,可以分为交易相关的资源成本
114、(跟业务流程相关的)以及跟分析有关的大数据成本(分析、算法、决策相关)。4.2.3.3.4 检查(Check)在这个阶段,建议关注以下结果:规定动作检查:规定的方案是否执行?相关的同学是否按照规定的动作进行了相对应的行动?这个阶段只关注过程不关注结果,而且更多的是关注执行人、配合方、时间点,用项目管理的思路来运营。57 云上社交行业技术服务白皮书云上社交行业技术服务白皮书结果评估:之前梳理出来的指标是否得到了优化?这个过程是在验证结果,各项指标中得到优化和未优化的都要整理出详细的List,有些指标如“资源利用率”是立即可以查看结果的,有些结果是需要周期性的时间才能获得。在这个基础上可以继续深入
115、反向思考,按“指标定义是否有问题-方案制定是否有问题-执行人是否有问题-配合方是否有问题”这个流程来进行评估。系统问题定位:在这个过程中,可以做到小范围闭环,建议针对某个指标的优化方案可以设计多套,方案A不行马上迭代成方案B,快速试错,找到合理的方案。修正标准动作:在执行的过程中,很多方案和动作,都是在一线现场发现和修正的,不需要等待大规模复盘的时候再提出问题和总结,主R要具备这样的意识,在执行过程中多说多问,找到关键要素,相信每个同学都有过这样的经历。经历过某个完整项目生命周期的同学,往往也是团队内成长最快的骨干。4.2.3.3.5 复盘总结,继续迭代(Act)定期复盘:复盘是一个非常重要的
116、能力,个人以为,复盘总结的能力在某种程度上也代表了自己的“抽象能力+思考能力+管理能力”,关于复盘的方法论书籍很多,这里不再进行赘述。在这个阶段,个人建议关注的点在于两个“知道”:“知道自己不知道”,通过复盘掌握了成本优化的方法、框架、方案、团队素质、结果;“不知道自己知道”,通过一些结果,知道了自己原来一直是在正确的道路上还是在错误的道路上前进,把带有“运气”成分的成功,升华成为一种未来的“习惯性成功”。形成报告:让第一次看到这个报告的人,也能通过一两次实践,学会成本优化这件事。迭代认知:将之前的过程开始深化和迭代,也是再次进行PDCA的过程,反复打磨自己的抽象能力、思考能力、管理能力,使自
117、己工作深度、广度的ROI继续提升。在迭代过程中,总会有一些惊喜和收获。从个人来说,原来以为成本项目仅仅是个管理项目,在不断通过技术手段取得成本优化的过程中,收获了对架构、技术的理解,并且很多时候需要用创新的手段来解决前人未曾突破的问题,另外还收获了7项跟架构升级、数据压缩、技术处理有关技术专利,也是技术能力提升的一个佐证。云上社交行业技术服务白皮书 584.2.3.4 成本优化实施4.2.3.4.1 成本的组成4.2.3.4.2 计算成本计算成本,在阿里云上的计算能力是通过ECS去提供的,云服务器ECS(Elas-tic1Compute1Service)是阿里云提供的性能卓越、稳定可靠、弹性扩
118、展的IaaS(Infra-structure as a Service)级别云计算服务。云服务器ECS免去了用户采购IT硬件的前期准备,让用户可以像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。4.2.3.4.2.1 计算产品架构59 云上社交行业技术服务白皮书云上社交行业技术服务白皮书4.2.3.4.2.2 计算成本分析其中ECS的成本结构可以分为拥有成本和运维成本两部分,我们再进行成本优化的时候主要是针对拥有成本展开:云上社交行业技术服务白皮书 601、计费方式:成本项资源类型计费说明相关文档计费方式以实例规格的形式提供,包括vCPU和内存,收取
119、实例规格费用。计算资源计费镜像计费块存储计费公网带宽计费快照计费根据镜像类型以及使用情况决定是否收费。按快照容量和存储时长收取费用。按云盘容量和使用时长收取费用。说明本地盘与特定实例规格绑定,不支持单独购买,费用已计入实例费用。使用固定公网IP访问公网时,仅收取公网出网带宽费用。说明如果使用弹性公网IP或NAT网关访问公网,计费相关详情参见EIP计费概述或NAT网关计费说明。计算成本计算资源(vCPU和内存)镜像块存储公网带宽快照存储成本存储成本存储成本存储成本包年包月按量付费按量付费+预留实例券按量付费预付费存储包存储容量单位包SCU包年包月按量付费按量付费+预留实例券抢占式实例节省计划按固
120、定带宽按使用流量包年包月按量付费存储容量单位包节省计划2、计费方式对比:3、计费方式选择:61 云上社交行业技术服务白皮书云上社交行业技术服务白皮书所有操作与购买的某台实例绑定。资源和账单解耦,搭配按量付费实例灵活使用。可选全预付、部分预付或0预付。相比按量付费有一定优惠,灵活性极佳,但价格比预留实例劵略高。搭配按量付费实例使用。按量付费实例可随时释放。释放后再创建新实例,节省计划照常抵扣。抵扣按量付费实例账单,可用于固定的Web服务、数据库等。资源和账单解耦,搭配按量付费实例灵活使用。可选全预付、部分预付或0预付。相比按量付费有一定优惠,价格与包年包月相近。搭配按量付费实例使用。按量付费实例
121、可随时释放。释放后再创建新实例,预留实例券照常抵扣。抵扣按量付费实例账单,可用于固定的Web服务、数据库等。所有操作与购买的某台实例绑定。后付费,按秒计费,按小时出账。后付费,按秒计费,按小时出账。适用于固定的7*24服务,例如Web服务、数据库等。相比其它方式价格最高。价格随市场供需变化而浮动,可低至按量付费的1折。用户可以随时释放实例用户主动释放或系统自动释放。抢占式实例存在回收机制,出保护期后可能会被自动释放。所有操作与购买的某台实例绑定。预付费,一次性付清。应对爆发业务,例如临时扩展、测试、科学计算等。应对爆发业务,例如临时扩展、测试、科学计算等。相比按量付费有较大优惠。用户主动释放或
122、系统自动释放。到期前需要申请退订或者转换为按量付费实例释放。到期后未及时续费,实例将自动释放。使用方式付费方式价格特点释放实例应用场景包年包月对比项按量付费预留实例劵节省计划抢占式实例4、典型场景示例4.2.3.4.2.3 成本优化建议ECS成本优化建议,使用云服务器ECS时,推荐您从以下方面管理成本:1、前置优化方法:云上社交行业技术服务白皮书 62业务类型共振型平稳型突刺型混部型业务相对比较平稳,无明显的波峰波谷。多个业务,不同业务在不同时间段对算力的要求不同,优先级不同。多套环境交替使用(如蓝绿部署),在线、离线、Job任务型混合部署。按量付费+节省计划(或预留实例劵)。各个业务之间关联
123、不大,具有突发性。平稳型在线业务,如内部OA系统。事件型业务、Job任务、仿真任务。包年包月。按量付费+节省计划(或预留实例劵)。按量付费。高频突刺部分可适当搭配节省计划(或预留实例劵)各个业务间有关联,流量增长后各业务对资源的诉求同时增长。热点事件、电商大促、泛互联网流量高峰。按量付费+节省计划(或预留实例劵)。业务特征场景举例推荐计费方式做好设计,针对不同的业务选择合适的实例类型和大小;对可预测的长周期业务可以选择包年包月的进行将本,少量计算可以使用lambda(请求数量+使用时间),无服务的计算尽量使用spot。2、业务优化方法:归集成本:通过混部等手段,如在离线混部,在在线业务波谷的时
124、候进行离线业务的处理,实现多个项目进行成本的分摊;升级换代:同等价格,将单机的运算能力提升,进而减少机器的总体数量以起到将本增效的作用;优化资源:实时监控计算使用率,优化资源的一些参考指标,在满足以下所有条件时,可以考虑关闭虚拟机:CPU利用率最大值的第95个百分位数小于3%、7天内的网络利用率低于 2%,内存压力低于阈值;如果可以在较小的实例规格,或使用较少数量的实例中容纳当前负载,则顾问会考虑重设虚拟机大小,以使非面向用户的工作负荷的当前负载利用率不超过80%,面向用户的工作负荷的负载利用率不超过 40%;容器化:对云上的ECS资源再次进行切分,充分利用所有资源。3、其他优化方法:充分利用
125、免费的资源或者打折资源(双十一双十二活动打折等)实现自动化运维(弹性伸缩、运维编排、资源编排等)4.2.3.4.3 存储成本4.2.3.4.3.1存储产品阿里云提供了丰富多样的存储产品63 云上社交行业技术服务白皮书云上社交行业技术服务白皮书其中常用的存储方式:文件存储NAS、对象存储OSS、块存储EBS;4.2.3.4.3.2 费用分析存储产品的计费方式及对应的计费规则如下表所示:(不同产品可能有差异)通过不同方式创建云盘时,支持的计费方式不同:随ECS实例创建的云盘,计费方式和ECS实例相同。为已有实例创建并挂载云盘,包年包月实例支持包年包月和按量付费云盘,按量付费实例仅支持按量付费云盘。
126、计费规则相关文档包年包月按量付费储存容量单位包 计费方式包年包月按量付费存储容量单位包SCU一种预付费资源包,可以自动匹配云盘,并抵储的按量付费账单。费用=容量*单价*购买时长费用=容量*单价*购买时长云上社交行业技术服务白皮书 64单独创建云盘,且暂时不挂载到实例,计费方式仅支持按量付费。对象存储产品收费方式比较复杂,具体参考:https:/ 网络成本时延访问模式上千个ECS通过POSIX接口并发访问,随机读写数百万客户端通过WEB并发,追加写单ECS通过POSIX接口访问,随机读写吞吐数百Gbps数百Gbps数百Gbps储存产品文件存储NAS对象存储OSS块存储EBS极低时延(微秒级)较低
127、时延(几十毫秒级)低时延(毫秒级)65 云上社交行业技术服务白皮书云上社交行业技术服务白皮书4.2.3.4.4.1 网络产品在阿里云上提供了多样的网络产品:主要的网络产品有:负载均衡SLB、NAT网关、弹性公网IP和贡献带宽包等;其中最常用的网络产品就是负载均衡SLB,负载均衡SLB(Server1Load1Balanc-er)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务器来扩展应用系统的吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。根据不同的业务和应用场景,阿里云服务均衡SLB支持以下三个类型的负载均衡:1、应用型负载均衡ALB(Application Lo
128、ad Balancer):专门面向七层,提供超强的业务处理性能,例如HTTPS卸载能力。单实例每秒查询数QPS(Query1Per Second)可达100万次。同时ALB提供基于内容的高级路由特性,例如基于HTTP报头、Cookie和查询字符串进行转发、重定向和重写等,是阿里云官方云原生Ingress网关。2、网络型负载均衡NLB(Network1Load1Balancer):面向万物互联时代推出的新一代四层负载均衡,支持超高性能和自动弹性能力,单实例可以达到1亿并发连接,帮您轻松应对高并发业务。NLB面向海量终端上连、高并发消息服务、音视频传云上社交行业技术服务白皮书 66输等业务场景针对
129、性地推出了TCPSSL卸载、新建连接限速、多端口监听等高级特性,在物联网MQTTS加密卸载、抗洪峰上联等场景为用户提供多种辅助手段,是适合IoT业务的新一代负载均衡。3、传统型负载均衡CLB(Classic1Load1Balancer):支持TCP、UDP、HTTP和HTTPS协议,具备良好的四层处理能力,以及基础的七层处理能力。4.2.3.4.4.2 费用分析以CLB为例,规格分析如下:实例费=实例单价(元/小时)使用时长 实例使用时长是实例从创建到被释放的时间。流量费=流量单价(元/GB)使用流量 公网流量为公网出流量(下行流量),公网入流量(上行流量)不计入费用。按流量计费的公网SLB实
130、例按小时计费,以日结算。使用时间不足一小时,按一小时计算。规格费:性能保障型实例规格费按量收取,即不论您选择何种规格,实例规格费均按照您实际使用的规格收取。详情参见规格费(https:/ 云上社交行业技术服务白皮书云上社交行业技术服务白皮书实例计费方式实例类型公网计费方式按使用量计费按使用流量计费按使用流量计费按固定带宽计费不涉及公网私网不涉及公网私网按规格计费slb.s3.large以上规格,不含slb.s3.large规格)。性能保障型实例的三个关键指标如下,不同规格的实例,性能指标也不同。详情参见性能保障型实例FAQ(https:/ Per Second(CPS)每秒新建连接数定义了新建
131、连接的速率。当新建连接的速率超过规格定义的每秒新建连接数时,新建连接请求将被丢弃。每秒查询数-Query1Per1Second(QPS)每秒请求数是七层监听特有的概念,指的是每秒可以完成的HTTP/HTTPS的查询(请求)的数量。当请求速率超过规格所定义的每秒查询数时,新建连接请求将被丢弃。性能保障型实例规格费按使用量收取,即不论您选择何种规格,实例规格费均按照您实际使用的规格收取。如果实例的实际性能指标在两个规格之间,按照较大规格的费用计算(向上取整原则)。例如,您选择了超强型I(slb.s3.large)规格(最大连接数1,000,000;CPS 500,000;QPS 50,000)。该
132、实例在某小时内各项指标产生的实际峰值如下:从最大连接数维度看,90,000超过slb.s2.small规格中最大连接数50,000的上限,但未达到slb.s2.medium规格中最大连接数100,000的上限,因此从最大连接数维度计算,该小时规格为slb.s2.medium。从每秒新建连接数(CPS)维度看,4,000超过slb.s1.small规格中CPS 3,000的上限,但未到达slb.s2.small规格中CPS 5,000的上限,因此从CPS维度计算,该小时规格为slb.s2.small。从每秒查询数(QPS)维度看,11,000超过slb.s2.medium规格中QPS 10,00
133、0的上限,但未达到slb.s3.small中QPS 20,000的上限,因此从QPS维度计算,该小时规格为slb.s3.small。综合以上三个维度,QPS指标的规格(slb.s3.small)最大,因此将云上社交行业技术服务白皮书 68因此,按量付费的性能保障型实例具有自动弹性伸缩(或计费)的能力。您在购买时所选的规格,是性能的上限,例如您选择高阶型II(slb.s3.medium),那么意味着,您的实例最大可以达到的规格上限就是高阶型II(slb.s3.medium)。按流量计费实例:实例带宽请参见带宽峰值限制(https:/help.ali- 费用计算器(可以通过计算器计算具体消耗成本)
134、:https:/ 新计费模式介绍LCU(Loadbalancer Capacity Unit)计费模式:比如ALB和NLB,均推出了更加灵活的按照使用量计费的逻辑,其费用由三部分组成:实例费、性能容量单位LCU(Loadbalancer1Capacity1Unit)费和公网网络费。实例费计算方式:QPS维度的规格作为该小时实例的综合规格,该小时内该实例将按照slb.s3.small规格进行计费。以后每小时规格费均按照上述方式计算,如下图所示:69 云上社交行业技术服务白皮书云上社交行业技术服务白皮书实例费=实例单价(元/小时)计费时长(小时)LCU计算方式:每小时LCU费=LCU单价(元/个)
135、每小时LCU个数 每小时LCU个数=max新建连接数LCU个数,并发连接数LCU个数,处理流量LCU个数公网网络费计算方式:私网的SLB实例不收取公网网络费用,只有购买公网SLB实例的时候才会收取公网网络费用。公网SLB通过弹性公网IP(EIP)提供公网能力,选择公网SLB将会收取EIP实例费、带宽与流量费用。不同的产品应用场景不同,所以拥LCU有不同的LCU设定,ALB的LCU规格:https:/ 网络成本优化建议1、前置优化方法:尽量选用私有IP,或者私网SLB+弹性公网IP的方式,这样的组合可以结合共享带宽包,以达到资源共享的目的;尽量减少跨AZ数据复制;根据不同的业务场景,选择不同的S
136、LB;根据流量模型,使用共享带宽包,或者95带宽包等有折扣的方式;2、业务优化方法:使用数据压缩,在可能的情况下,尽量压缩数据,以减少传输的时间和费用。监控网络流量的使用,实时监控网络的流量和费用,防止突发的人为或者意外的大规模数据传输而导致成本飙升;及时巡检释放不用的资源,比如弹性IP,减少浪费;同时针对重点的资源开启释放保护功能,防止被误删除;优化传输协议。云上社交行业技术服务白皮书 703、其他优化方法:选择LCU等按使用量计费的方式进行成本的降低。4.2.3.4.5 应用和管理成本优化1、系统类型的选择:Linux VS Windows;2、应用架构的选择:分层架构VS微服务;3、服务
137、模式的选择:ECS、K8S容器、ACK、ASK。4.3 关键时刻保障4.3.1 图片业务保障方案社交网络最重要的就是内容的分享,视频、图片的存储和展示。针对客户的图床业务,进行了专项保障方案梳理。首先确认需要进行保障的域名,核实域名的调度域,然后确认图片源站以及配置。针对图片业务的各个环节可能出现的问题,进行不同的预案准备:1、当前源站为了保证源站有弹性能里,在重大节日期间,源站只保留函数计算源站;函数计算评估源站能力可以满足客户的带宽和QPS能力。2、自建源站出问题当自建CDN出现回源问题后,自建回源会切到阿里的边缘,通过阿里边缘回源函数计算。3、函数计算源站出问题客户侧:如客户当前自建CD
138、N回源是到阿里边缘的话,需要客户先切回自建;阿里侧:按照与客户约定好的自建源站,按照权重进行切换;并且将函数计算源站的优先级降低。4、图片业务降级预案71 云上社交行业技术服务白皮书云上社交行业技术服务白皮书5、日志降级紧急情况下可以对图片业务的日志进行关闭,第二天再进行补齐。降级后,通知到相关客户,以客户群进行信息同步。4.3.2 直播业务保障方案随着直播的发展,越来越多的观众习惯于从网络直播来获取自己关注的内容。目前互联网直播已经成为晚会、演唱会、重大赛事的重要转播途径。相对于普通的直播场次这类活动几乎是全民热点,观看人次多、并发大,对于直播平台和云服务厂商都是一个考验。因此针对热度高的重
139、大直播阿里云推出重大直播保障护航方案。4.3.2.1 保障方案及流程1、重保流程如下保障前与直播平台确认活动时间、活动域名、发布点、流名、转码模板、资源占用预估等信息,以上信息确认后按照既有的保障流程启动保障。云上社交行业技术服务白皮书 722、重保工具直播重保流大屏功能:73 云上社交行业技术服务白皮书云上社交行业技术服务白皮书阶段活动前活动当日资源检查监控大盘数据展示正常天眼数据检查系统自查:推流节点检查、转码模板检查、域名配置检查、推拉流测试资源评估和准备数据播报检查现场及online保障人员确认大屏监控帧率、码率、卡顿、拉流成功率监控九宫格重保流合流开关播告警状态码告警资源监控告警应急
140、预案准备应急演练直播流全链路信息检查推流节点重点保障直播流预热资源监控监播值守告警监控异常情况处理活动数据信息汇总保障总结活动结束活动期间开播前预备监控配置保障演练告警配置分项操作3、九宫格监播视频直播提供广目监播功能,可随时监控线上直播效果与质量,并对帧率码率变化、音视频同步、延迟和卡顿等异常情况时进行告警,为各类专业直播保障护航。云上社交行业技术服务白皮书 744、信息播报4.3.3 热点事件护航保障流程4.3.3.1 明确护航目标明确本次活动在业务上最终需要达到什么样的目标即可符合预期。护航目标主要包含整体业务活动目标明确与整体活动架构方案确认,通俗来讲在护航前需要对客户的业务架构、应用
141、架构、数据架构、技术架构等进行梳理及对保障方案进行确认,并通过压测数据对本次活动的流量等指标进行评估,通过不断探底来确保云上可以完美承载业务压力即为护航目标。75 云上社交行业技术服务白皮书云上社交行业技术服务白皮书云上护航服务checklist护航流程护航目标对焦/活动预估流量/访问量(QPS/TPS)安全风控(DDOS峰值、WEB防护)高峰时间点保障方案沟通+活动驻场支持,其余远程保障为主业务目标确认技术目标确认活动日期确认保障方式确认检查项任务评估负责人开始时间完成时间备注及问题风险4.3.3.2 设计护航方案护航方案的设计理念,1、确保客户业务无损的在云上运行,2、确保服务的即时性,拉
142、通产品7*24小时保障护航,3、设计相关的应急预案,在业务有损的情况下有效回滚恢复。云上社交行业技术服务白皮书 76安全风险识别验收复盘多因素认证、操作审计、访问控制验收报告确认整体验收复盘保障得失,总结经验,沉淀流程工具大促复盘方案确认方案确认安全产品接入状态业务安全堡垒机访问权限*账户安全账户安全资源风险识别ECS、RDS、SLB、RedisDRDS、MQ、ES等CPU/MEM/IOPS/磁盘空间等核心实例梳理资源使用率巡检系统容量分析资源需求评估,提前一个月报备阿里云阿里云为客户准备并预留资源资源需求报备资源准备预留护航应急方案重点大项预案预热各个产品的紧急落地预案播报流程、问题升级流程
143、告警推送/风险巡检同步ECS、SLB等监控大盘及告警配置ECS、SLB等应急人员名单提前预案紧急预案现场预案护航群预警监控告警配置护航群建设应急人员监控告警项配置服务大盘事项描述责任人计划完成时间 实际完成时间备注/4.3.3.5 护航大屏大屏功能:可以实时关注客户业务实例的资源使用及网络情况,并能实时关注客户侧保有量从而间接体现出业务高峰期所对应云上的压力。为上云的客户提供了,可扩展性、可复制性的便利。4.3.3.3 风险巡检及评估通过架构梳理及全链路评估,对架构及全链路风险进行识别,达到风险提前规避的作用。4.3.3.4 护航事件记录记录护航时间段出现的事件、风险及重点时间节点等,在后续可
144、以根据记录的问题进行针对性复盘。77 云上社交行业技术服务白皮书云上社交行业技术服务白皮书活动巡检风险*风险描述风险等级高中低风险规避方案责任人风险规避时间备注护航事件记录日期事件描述责任人是否解决备注4.3.4 重大活动和赛事保障4.3.4.1 保障概述重大活动和顶级赛事期间阿里云对客户业务提供全程业务护航保障服务,针对客户业务特性和资源使用情况提前梳理风险点并制定保障方案,确保期间业务平稳运行。4.3.4.2 保障信息同步保障前阿里云与客户共同确认保障时间段以及保障期间管控动作,确认资源需求、变更管控、在线值守、信息同步机制等。4.3.4.3 巡检与风险治理云上社交行业技术服务白皮书 78
145、业务类型巡检项结论无风险无风险无风险无风险无风险无风险无风险无风险无风险无风险无风险电力、空调、油料储备机房物理设施物理网络设备、水位。云网络实例规格、水位。计算资源容量、水位、风险。云盘、OSS水位;容量和QPS情况。安全产品规格合理,各类产品配置齐全。容量检查,带宽储备充足。容量检查,满足预估突发请求。核实护航域名,配置监控告警。数据上报接口测试,数据正常上报。域名证书检查。网络计算存储安全CDNDCDN监控接口客户证书79 云上社交行业技术服务白皮书云上社交行业技术服务白皮书4.3.4.4 应急预案4.3.4.5 保障演练阿里云保障团队根据保障业务类型选定多个场景进行全链路保障演练。演练
146、前后端团队按照实战场景触发问题上报、问题升级、应急处置等各个环节,验证机制流程和各项预案的有效性。4.3.4.6 保障值守序号异常情况预案应急响应,执行快恢和兜底方案。批量卡顿或拉流失败9配置告警,重保团队响应处理直播推流异常8根据大盘水位决策承接或切量直播点播整体带宽超限7配置告警,重保团队响应处理单个域名或节点异常6配置告警,重保团队响应处理OSS状态码异常5产研响应处理存储水位异常4自动限速并通知客户,客户调整流量云网络水位异常3通知客户,业务流量调度 物理网络水位异常2确保油运行正常,有量储备充足。空调系统备份正常。机房电力、空凋等物理环境异常。1姓名联系方式职责张XX保障总指挥客户服
147、务负责人-值班长客户服务工程师解决方案负责人李XX王XX赵XX/5、展望在整体趋势上:社交媒体是信息的传播主要渠道,随着用户数的不断攀升,社会责任也会越来越重;在商业生态上:由于社交媒体是一个流量的入口,不同的流量变现的商业模式都会在这里进行尝试,除了目前已有的广告、电商、知识付费等业务,未来随着元宇宙和NFT的发展,每个人都可以在社交媒体上创造属于自己的价值;在技术发展上:随着机器学习、大数据、AR/VR以及通讯技术的发展,更加便利、沉浸式以及多元化的社交方式必然会出现;云计算促进了数以亿计的用户与社交网站之间更便利连接,它还解决了视频、音频等海量内容的快速存储需求。现在,我们将继续进行云计算能力边界的探索,以更好的为用户提供高质量的云计算服务,如更稳定灵活的计算资源、高效安全的数据存储、数据传输、数据处理和数据管理能力。未来,我们将继续针对百行百业的业务特点进行分析,以更好的云为用户提供更好的云计算服务。云上社交行业技术服务白皮书 80