《未来移动通信论坛:2025年6G沉浸式通信场景需求与关键技术研究白皮书(75页).pdf》由会员分享,可在线阅读,更多相关《未来移动通信论坛:2025年6G沉浸式通信场景需求与关键技术研究白皮书(75页).pdf(75页珍藏版)》请在三个皮匠报告上搜索。
1、2/75目目 录录1 引言.32 应用场景和需求.42.1 应用场景.42.2 需求.83 相关标准化和产业化进展.133.1 国际标准化进展.133.2 国内标准化进展.233.3 国内政策.253.4 国外政策.273.5 产业化进展和发展趋势.284 关键技术.354.1 沉浸式终端相关技术.354.2 媒体处理技术.424.3 编解码技术.504.4 业务保障和网络传输技术.595 总结和展望.67参考文献.69缩略语.71白皮书贡献人员.753/751 引言引言沉浸式通信作为 6G 的重要应用场景之一,正逐渐成为科技和产业革命的发展机遇。它集成了扩展现实(XR)、全息技术和感官互联技
2、术,将彻底改变人们的工作、娱乐和交流方式。随着 5G-A 技术的成熟,通信业务正向着高沉浸、强交互、多维多模态的方向演进,进一步实现人与人、人与物的三维动态感知与交互。沉浸式包括沉浸式 XR、全息通信、感官互联三大应用场景,具有强交互、高沉浸、智能化的特点。VR/AR 已经通过 5G 网络应用于行业应用(ToB)和个人消费应用(ToC)的诸多领域,包括工业制造、影视、直播、游戏、社交等。例如在杭州亚运会期间,中国移动打造了 VR 电竞、VR 赛事直播、裸眼 3D 看亚运等新业务,实现了多用户多业务并发场景下20ms 业务帧级无线传输时延以及 125Mbit/s 帧级保障速率。可以看到 5G 沉
3、浸式多媒体业务已经可以满足一部分应用场景需求。随着 RedCap、无源物联、通感一体、AI、边缘计算、云计算等技术的发展和完善,无线传感、视频监控、可穿戴设备的高速规模化应用,沉浸式多媒体业务基于未来 6G 网络的更高性能,将得到更好的发展,满足用户对于更加自然、直观和沉浸式交互体验的需求。6G 沉浸式通信将支持多维多模态协同控制、QoS 智能感知、高效编解码技术、渲染呈现技术以及多种类型终端等,同时也将满足端到端毫秒级时延、Tbps 级带宽、超高可靠性等需求。白皮书从沉浸式应用场景及需求、标准化情况、产业发展现状以及关键技术对 6G 沉浸式业务进行分析研究,希望能够为业界开展 6G 沉浸式业
4、务研究提供参考。4/752 应用场景和需求应用场景和需求2.1 应用场景应用场景沉浸式通信是指利用人的感官和认知,通过技术手段为用户营造身临其境的感受,从而提供一系列高逼真度体验的业务。高逼真度体验可基于各类多媒体技术的结合实现,如感知信息获取、媒体处理、媒体传输、媒体同步和媒体呈现。面向 2030 及未来,社会发展将会逐步进入到数字智能化时代,6G 沉浸式通信将在 5GeMBB 场景基础上不断的拓展深化,具体表现在真实场景的体验感、更清晰流畅的内容显示、多通道交互等,通过真实与虚拟三维建模影像相互交融,给人带来不一样的视觉和感官体验。6G 沉浸式通信围绕以人为中心的发展理念,高效能的融合通信
5、、感知、计算等能力支持各类的智能化服务,满足以人为中心、以场景为单位,为用户提供更及时、更精确的持续性体验服务。沉浸式通信场景具备虚实相应、时空跨越、情景重现、实时传递、多重维度、智能体验、体感交互等特征。6G 沉浸式通信主要包括沉浸式 XR、全息通信、远程多感官互联、智能移动机器人和社交互联网等典型应用场景。在沉浸式场景中信息以高实时和多维度进行传播,6G 沉浸式通信应用场景需要超大的带宽、超高的数据速率和超高的可靠性来保证用户在虚拟现实环境中的交互和沟通。为此,6G 技术将在速率、容量、交互、算力、感知、安全和时延等方面进行全面优化,为沉浸式体验提供更加稳定、低时延、高效的通信环境。2.1
6、.1 沉浸式沉浸式 XRVR(虚拟现实)、AR(增强现实)、MR(混合现实)等技术的集合统称为扩展现实 XR。沉浸式扩展现实 XR 通过数字化手段来增强用户感官体验和实现人机交互,可通过有限的传感器连接实现从现实世界到完全沉浸式的虚拟世界,利用多种交互技术的集成和融合,为用户提供沉浸式体验和真实感受。在虚拟环境中,用户可以利用 XR 设备构建虚拟人物形象。因此,XR 技术是连接元宇宙最好的桥梁,也是实现元宇宙的主要技术之一,可以把它理解为是人类进入元宇宙的入口。业界已经开始沉浸式扩展现实(XR)交互方式的探索,相关技术已被应用到各个垂直应用领域中,沉浸式 XR 技术向着裸眼 3D、宽带实时交互
7、、沉浸式体验、超高清视频等方5/75向发展,业务场景逐步扩展到智能工厂、智慧城市、医疗健康、数据中心等领域。沉浸式扩展现实(XR)有可能改善人们沟通、互动和获取信息的方式,使用户能够享受更加身临其境和个性化的用户体验,实现远程控制、实时虚拟现实等新应用,改变人们沟通协作的方式。例如,沉浸式扩展现实(XR)可以实现影视、广播、直播娱乐制作,使虚拟演播和虚拟制作成为行业主流;实现虚拟会议、互动营销、远程协作、虚拟报告会和产品发布会等模式,为用户提供真实的环境和大规模的多人互动与沉浸式感官体验。以下是几个沉浸式 XR 技术的典型用例:1、钢铁在 AR 设备检维修方面,钢铁行业的检维修需要工程师对各生
8、产设备的结构和功能非常熟悉。基于 AR 技术可辅助钢铁行业检维修工程师更高效地进行点检、维护和维修工作。在需要专家远程接入时,6G 网络可为专家提供低时延高可靠的沉浸式体验,指导现场工程师高效解决问题。在 VR 模拟教学实训方面,钢铁冶炼操作处于高温高压危险环境,VR 模拟教学实训借助 6G 网络,脱离实际场域,深入三维仿真冶金现场,还原冶炼全程,辅助学员掌握操作与安全规程,降低设备故障磨损,延长使用年限。2、汽车在 VR 设计生产方面,为应对消费者个性化需求增长以及产品生命周期缩短的挑战,汽车制造企业将 6G 与虚拟现实技术应用于工业设计和生产。设计者用虚拟现实头盔展示汽车细节,减少失误和资
9、源浪费。3D 投影与手势控制应用于虚拟装配线校检,提高装配准确性,优化生产流程,提升效率。在 AR 辅助装配方面,6G 与 AR 技术实现实时辅助装配、防错防漏及新员工指导。操作人员佩戴 AR 眼镜采集数据,接收专家指导,提升装配准确性与效率,智能化防错系统避免错误,同时为新员工提供规范、标准化的操作指导。3、娱乐XR 游戏能够为玩家提供一个高度逼真的虚拟世界,让他们在其中进行冒险、竞技和社交。这种沉浸式的游戏体验,依托 6G 高速率、大带宽及低时延的网络性能,不仅让玩家感到身临其境,还极大地丰富了他们的娱乐生活。此外,XR 技术还可以应用于虚拟演唱会、体育赛事等娱乐活动中,为观众带来前所未有
10、的观看体验。4、教育6/75在教育领域,沉浸式 XR 结合 6G 网络,为学生提供了一个全新的学习途径。通过创建虚拟的学习环境,学生可以在其中进行探索、实验和互动,从而更深入地理解复杂的概念和历史事件。例如,在历史课上,学生可以通过 XR 技术“穿越”到古代,亲身体验历史事件,感受不同文化的魅力。这种教学方式不仅提高了学生的学习兴趣,还增强了他们的记忆和理解能力。沉浸式扩展现实(XR)对于网络带宽、容量、高数据速率、精确定位、流量密度、算力和感知的空间映射、端到端低延迟和边缘云的处理提出了更高的要求。当前,5G 网络仍是按照传统网络建设,不具备为智能体之间的信息传递和交互,无法为网络环境提供超
11、大容量、超高数据速率、超低时延的数据与反馈信息的可靠传输。6G 将提供更快的数据传输速率、更低的延迟和更高的可靠性,为高速的数据传输和实时数据采集提供更加快速的数据响应和更高质量的虚拟现实体验。6G 系统将通过异构网络融合技术,内生支持实时业务及通信的技术将不同类型、不同频段、不同覆盖范围的网络资源组合起来,扩大网络覆盖能力,提高系统容量。未来,沉浸式扩展现实(XR)为了减轻 UE 视频压缩与解压,与媒体渲染的算力需求,将借助 6G 高速稳定的承载网络,实现云,边,端的三方协作,利用算力进行合理的分配,实现云化 XR 业务的内容上云、渲染上云,实现用户与环境的多重业务交互,开启云应用、宽管道、
12、智终端的全新模式,将原有的物理硬件迁移至云端/边缘端,实现轻量级客户端转型。沉浸式扩展现实(XR)将实现大带宽,XR 远程全息会议与协作,要求体验速率达到Gbps 量级;强交互,交互时延短,云化 XR 网络传输时延为 10ms 以下。随着 6G 技术的成熟,沉浸式扩展现实(XR)实现轻便化、智能化、低碳化的商业化新模式。2.1.2 全息通信全息通信随着无线网络通信性能、终端显示设备不断发展,全息通信通过采集来自人、物和环境的数据信息,使得用户可以通过全息方式,实时深度参与人、物和环境交互的三维空间场景,最终让用户获得完全沉浸式的体验,构建出人_机_物_境协同发展的新通信方式。全息场景的实现依赖
13、全息技术与通信技术的紧密结合,结合多维度信息影像投射技术,呈现出真实影像复现的视觉盛宴。全息通信作为新兴的通信业务,主要用于实现人与人、人与物、物与物之间的远程交互和沟通,具有高度的交互性、感知性、安全性和时延性等特点。这种业务的应用前景非常广泛,包括教育、医疗、工业、文化娱乐等各个领域。例如:在文化娱乐方面,可以实现全息7/75影院、全息剧院等场景下的数字全息交互技术,从而给用户带来极致的沉浸感体验。在医疗、工业、教育等方面,具有快速计算的全息通信服务能力,在远程手术、工业远程管控和远程教学等方面,可以使用全息影像对工作情况进行精确的复制,进而实现远程操纵和精准交互。全息通信高精度现实还原和
14、实时交互场景的特性,对带宽、时延、速率、算力、安全、可靠、定位精度等提出了很高的要求,仅依靠 5G 现有的网络和技术是难以满足这些要求的,现有的 5G 网络中业务应用层无法精准、实时掌握网络性能,导致业务体验感差,网络无法进行分析数据并自适应调整。随着 6G 技术的发展,全息通信正在逐步走向可能。6G 将以超高带宽、超高的数据速率、超高频谱效率、超高可靠性和超低时延,支持基于传感的物联网应用架构,支持各类终端设备的数据采集和利用,支持多模态联合传输来提升全息通信服务体验。全息通信将通过移动算力网络、云计算、智能感知、超高带宽频谱、优化网络和传输协议等技术,在交互、算力、感知、安全和时延等方面进
15、行全面优化,以实现更加真实、生动、自然的远程交互和沟通。未来,随着对 6G 技术的探索,在太赫兹通信和可见光通信等更高工作频段,全息通信将实现用户体验速率有望达到 100Gbit/s,移动性可实现 1000 公里/小时的突破,满足全息通信高沉浸式、高交互性、高还原度和强参与度的需求。2.1.3 感官互联感官互联远程多感官互联通过使用多感官交互技术,包括声音、图像、触觉、味觉、嗅觉等,可以让远程交互更加真实、生动、自然。远程多感官互联的诞生,让数实之间从“连接”升级为双向交互,利用人的多感官即眼、鼻、口、手、脑进行输入,实现交互。在远程多器官互联时,用户可以利用 6G 网络环境充分调动视觉、味觉
16、、听觉、触觉等重要的感官信息,实现感觉互通的体验型传输神经网络,从而实现体感信息智能交互。目前,远程多感官互联的应用前景非常广泛,这种技术依托 6G 网络环境,涉及领域主要包括教育、健康医疗、工业制造、文化娱乐等各个领域。无论在哪里,远程多感官互联都可以在休闲娱乐、远程协作、健康医疗、智能驾驶等方面,获得真实环境的沉浸式体验。例如,可以感受到真实、不消耗实物的美食、护肤、旅游、美妆试用体验;可以获得精准操控平台硬件设施的云端协同办公体验;智能感知设备可以实时获取用户的动作、姿态、心率、体温等信息,从而更加准确地响应用户的需求;在智能驾驶领域,自动驾驶汽车采用无数传感器来生成数据,通过雷达、激光
17、雷达、摄像头和其他驾驶员辅助设备等传感器,来实现多维“感觉”互通与情感交流。远程多感官互联最大的特点是交互性强,智能化操控对时延有着较高的要求,对于目标8/75物体之间实现频繁交互,需要触觉反馈交互并同步反馈多重感官信息,这种多重感官交互行为需要大量的计算资源。目前,对于触觉的研究与标准化属于起步阶段,触觉作为强交互的重要输入部分,对其传输时延要求非常短。5G 具有低延迟特点,但不足以支持实时控制。远程多感官互联需要高度的安全保障,以保护用户的隐私和数据安全。6G 将提供更高的带宽、更低的时延、更强的可靠性,为远程多感官互联应用提供了更加平滑、可靠、高效的连接,来实现沉浸式的远程交互和沟通。远
18、程多感官互联将通过支持端边协同、智能感知技术、移动算力网络、加密技术、访问控制和云计算等技术,以保障良好的用户体验。利用 6G 使能技术充分满足多种感官(如听觉、视觉与触觉)之间的协同性,实现低延迟、高可靠性、高安全性、高清晰度和高帧率的传输和处理,以便为用户提供更加个性化、实时化、真实化的交互体验。2.2 需求需求从沉浸式通信应用场景中可以看出,沉浸式通信需要 6G 网络提供高速率、低时延、高可靠、高安全等性能以及多模态协同传输,以实现更加丰富和真实的用户体验。同时沉浸式业务具有业务模式随着场景和应用变化的特点,需要支持可变 QoS 和 QoE。沉浸式设备需要减少发热,延长电池续航时间,对网
19、络和终端节能都有需求。2.2.1 超高带宽超高带宽/极高数据速率及低时延高可靠极高数据速率及低时延高可靠沉浸式通信作为 6G 网络的关键应用场景之一,对网络性能提出了更高的要求,主要体现在超高带宽、极高数据速率以及低时延高可靠三个方面。1.极高数据速率极高数据速率:沉浸式通信需要极高的数据传输速率来支持高清、3D 甚至 6D 视频内容的实时传输,以及高交互 XR 业务。ITU-R M.21604 对用户体验速率的举例为 300Mbps到 500Mbps。ITU-R M.25163 中指出室内场景峰值数据速率可能达到 Tbps。3GPP TS22.2611 中针对 VR 8K 视频的用户数据速率
20、要求为 1Gbit/s,通过头显观看视频的 VR 业务数据速率可以高达 10Gbit/s。3GPP TS 22.2632 中即使一些压缩的视频数据速率也能达到 3Gbit/s,医疗的数据速率甚至达到 50Gbit/s。2.低时延低时延:为了保证用户沉浸感体验,沉浸式通信要求网络具有极低的时延。3GPP TS22.2611 中 VR 的 MTP(Motion-To-Photon)要求为 7 15ms,云/边缘/分割渲染用例的MTP 为 5ms。3GPP TS 22.2632 中对音频的端到端时延指标为 750 s 和 4ms,对视频的端9/75到端时延指标为 3ms,6ms,40ms,400ms
21、 和 1s,对医疗的端到端时延指标为 1ms,10ms,20ms 和 100ms。ITU-R M.21604 中对用户面时延的研究目标是 0.1 1ms。3.高可靠高可靠:可靠性指标有误包率(Packet Error Ratio,PER),误块率(Frame Error Rate,FER)和误码率(Bit Error Rate,BER)三种表述形式。误包率=错误数据包数/总数据包数,误块率=错误数据块数/总数据块数,误码率=错误比特数/总比特数。对沉浸式业务应用,可靠性往往指的是误包率或传包率(1-误包率)。3GPP TS 22.2611 中对 VR/AR 业务的可靠性(传包率)要求为 99.
22、99%,对多模态业务的可靠性要求在 99.9%到 99.999%。3GPP TS22.2632 中音频的 PER 指标为 105和10-6,视频的 PER 指标为 107到 1010,医疗的 PER指标为低于104到107,ITU-R M.21604 中对可靠性(传包率)的研究范围为1-105到1-107。2.2.2 多维多模态多维多模态沉浸式业务的生成和传输包含了多个维度的信息,这些信息来源于视频、音频、触觉、嗅觉、味觉等。只有当各个维度的信息保持严格同步(包括时间,空间,运动方向等的同步和一致性),才能给用户身临其境的感觉。因此,在传输过程中,来自不同传感器、不同角度的物体生成的各个并发媒
23、体流之间需要保持相当严格的同步。沉浸式业务的多维多模态需求体现在时间,空间,运动方向等多个维度,其中空间,运动方向等维度主要是通过构建包含完备的通信信息与多模态感知信息的数据集来实现。多模态需求中与通信直接相关的需求体现在多维多模态时间同步上。3GPP TS 22.2611中以图形方式对多模态交互系统的显示图见图 1。图1多模态交互系统1对于沉浸式多媒体多维多模态业务的同步传输,引入了同步阈值的概念,同步阈值可定义为两个多媒体流的最大可容忍时间间隔。其中一个多媒体流为一种感官的数据,另一个10/75多媒体流为另一种感官的数据,满足同步阈值的感官就会被认为是同步的。对于音视频同步,目前在音视频同
24、步方面影响最大的国际标准是 ITU-R BT.1359-1(RELATIVE TIMINGOF SOUND AND VISION FOR BROADCASTING)5,该标准由国际电信联盟在 1998 年提出,针对电视广播的音视频同步标准,该标准至今依然被使用。该标准根据人体评测结果,将音视频同步划分为 5 个等级。表1音视频同步等级体验感无法感知能够感知可以忍受不可接受延迟范围(-100ms,+25ms)(-125ms,+45ms)(-185ms,+90ms)(-,-185ms)(+90ms,+)其中延迟范围是视频延迟与音频延迟的差值,负数表示音频延迟更大,正数表示视频延迟更大。现实中光速快
25、于音速,人体习惯于画面快于声音,对声音滞后有更大的耐受度,而音频提前于视频则会导致不适。因此音视频同步阈值是非对称的。基于以上音视频同步等级,可以简化为音频与视频的延迟 100ms 都是不可忍受的,音视频的同步阈值可以定义为(-200ms,+100ms)。在 3GPP TS 22.2611 中进一步缩小了 VR 的音视频的同步阈值,规定为音频延迟范围为125 ms,5 ms,视频延迟范围为45 ms,5 ms。沉浸式多模态除了音视频外,还包括触觉、嗅觉、味觉等,目前对触觉研究较多,3GPPTR 22.8479 中对触觉与音频和视频的同步阈值规定见表 2。表2触觉与音频,视频的同步阈值多媒体流同
26、步阈值(note 1)音频-触觉音频延迟:50 ms触觉延迟:25 ms视频-触觉视频延迟:15 ms触觉延迟:50 msNOTE 1:对于每个媒体流,“延迟”指的是该媒体流与其他媒体流相比延迟的情况。多维多模态是沉浸式通信的特点,如何更好的支持多模态是沉浸式通信的研究重点。2.2.3 业务特征动态变化及协作控制业务特征动态变化及协作控制以 XR 为代表的沉浸式通信可以为用户创造一个沉浸式的交互环境,使用户能够享受到身临其境的极致体验。在这个过程中,受到用户行为和需求变化、网络状态起伏和设备性能11/75等影响,虚拟环境也需要动态变化和适配,以免影响用户体验。因此,XR 业务的一大特点是其业务
27、模式(Traffic Pattern)会随着场景和应用变化,从而具有动态变化的业务数据特性,例如可变的数据比特速率、可变的数据帧/数据包大小12。文献13 对沉浸式通信业务特征的动态变化和影响有进一步描述。例如,用户拖拽业务进程会影响媒体帧大小,引起应用层业务特征的变化,为此,应用层可预先为网络提供多组 QoS 需求,并在业务进行中提供实时特征指示,网络需要识别和适配业务特征的变化。对于实时性较强的沉浸式业务,应用层采用了 FEC(Forward Error Correction,前向纠错)编码增加冗余,提高包传输的可靠性,减少重传降低时延。其中,编码开销在 10-50%之间,可能随传输状况动
28、态调整,从而影响业务数据速率,也需要网络按需满足。此外,沉浸式多媒体业务可能由多个不同媒体流组成,在传输时,这些媒体流可以复用在一个传输通道中,也可以使用不同的通道传输。而且,每个媒体流有不同的 QoS 需求,业务特征也可能发生变化。因此,6G 网络不光需要识别并支持多路复用、共享传输下的差异化 QoS,还需要在部分数据流特征发生变化时,支持同一业务下不同流 QoS 满足的协同控制,特别是涉及多基站下多个终端承载的多流协同,以便多个数据流 QoS 实时需求同时得到满足,保障用户的沉浸式业务体验。综上所述,为了实现沉浸式通信场景下对业务特征的实时满足,以及多流之间的协同控制,6G 网络需要增强对
29、业务需求动态变化的感知和适配能力,通过基站之间、基站与终端之间的实时信息交互,提高网络对沉浸式业务的服务能力。2.2.4 安全性安全性沉浸式业务在网络中会传输更多前所未有的数据形式,传输的信息可能涉及用户人脸、声音等生物特征以及行为数据等其他敏感信息和个人隐私。因此,需要确保这些数据在传输和处理过程中不被未经授权的人获取和篡改,避免隐私泄露风险。因此,安全性是沉浸式通信的重要需求。6G 的安全机制应该为差异化的应用场景与新的网络架构提供全面且可靠的安全防护。其中涉及多个安全域,如终端设备安全、网络接入安全、网络域安全等。2.2.5 绿色低碳绿色低碳沉浸式终端,如 VR 和 AR 设备,通常需要
30、较高的计算负荷和能耗,这导致设备发热和电池消耗快,影响用户体验。大带宽传输和多收/发天线数目会增加终端的射频前端和收发12/75链路的能耗。通过节能技术,可以减少设备发热,延长电池续航时间,提升用户佩戴舒适度。另一方面,通过节能技术,使得设备变得更轻便,更易于商业化和用户日常使用。6G 网络需要绿色可持续发展,因此对 6G 网络提出了更严苛的性能指标。可以通过架构智简、协议智简、组网智简构建绿色低碳的网络体系,以及采用动态关断技术来降低能耗。13/753 相关标准化和产业化进展相关标准化和产业化进展沉浸式通信作为未来通信六大应用场景之一,国内和国际多个标准组织均对沉浸式通信进行了研究,发布了多
31、项研究报告和标准。同时,各国和各大公司正在积极布局沉浸式产业,以期在未来的广阔市场中占据先机。3.1 国际标准化进展国际标准化进展3.1.1 3GPP3GPP 是制订无线通信标准的国际标准化组织。从 Release 15 开始,3GPP SA4 工作组就开始对虚拟现实开展研究工作,在 Rel-17 对 XR 的典型业务特征、编解码特征和协议特征进行了研究。RAN1 工作组则对 XR 业务模型和评估方法进行了研究。3GPP 在 Rel-18 全面启动端到端 XR 业务的系统架构和网络机制的研究,涉及 RAN1、RAN2、RAN3、SA1、SA2、SA4 等多个工作组。5G XR 的网络增强被广泛
32、地认为是 3GPP Rel-18 的重要标准工作。SA1 在 3GPP TS 22.104,3GPP TS 22.261,3GPP TS 22.263 标准中针对沉浸式业务给出了具体 KPI 参数集。SA2 进一步进行 5G 网络架构增强,以更好地支持移动媒体服务、云 AR/VR、云游戏、基于视频的机器或无人机远程控制等 5G XR 业务。包括多模态传输、5GS 信息公开、基于PDU set 的 QoS 处理、上下行传输协调、包时延变化监测和报告以及节能增强。SA4 对虚拟现实 VR 音频和视频内容制作,格式,质量评估,应用场景和质量衡量标准进行了研究和标准化工作,给出了 VR 流媒体的 pr
33、ofile,定义了沉浸式语音和音频服务的EVS 编解码,定义上行链路直播流媒体(例如 360 视频,VR,UHD,多声道音频)的框架,给出了 VR 的 QoE 指标。RAN 工作组针对 XR 业务特征,进一步在上下行带宽、时延、抖动、丢包率、网络拥塞、节电方面进行了增强。Rel-18 XR 在 RAN 侧的增强集中在三个方面:XR 业务感知、节能、容量提升。当前 3GPP 正在进行 Rel-19 的标准化工作,包括 SA1,SA6 和 SA3 参与的 Rel-19 本地化移动元宇宙业务研究,SA1 的 XR 业务 UE 移动性支持,SA2 和 SA6 参与的 XRM 第二阶段项目,以及 RAN
34、 的 XR 第三阶段项目。XR 涉及很多 3GPP 标准,大部分协议中都会针对增强点做相应的标准修改,例如14/75BSR,DSR 的增强主要体现在 TS 38.321 中,这里仅列出一些沉浸式通信强关联的协议和标准。表33GPP沉浸式相关标准序序号号标准号标准号标准名称标准名称标准内容标准内容1TS 22.104Service requirements for cyber-physicalcontrol applications in vertical domains垂直领域中的网络物理控制应用的服务要求2TS 22.156Mobile Metaverse Services;Stage 1移
35、动元宇宙业务3TS 22.261Service requirements for the 5G system5G系统业务需求4TS 22.263Service requirements for Video,Imagingand Audio for Professional Applications专业应用的视频、图像和音频业务需求5TR 22.847Studyonsupportingtactileandmulti-modality communication services关于支持触觉和多模态通信业务研究6TR 22.856Feasibility Study on Localized Mob
36、ileMetaverse Services本地化移动元宇宙业务可行性研究7TR23.700-60Study on XR(Extended Reality)and mediaservicesXR和媒体业务研究8TR23.700-70Study on architecture enhancement forExtendedRealityandMediaservice(XRM)扩展现实和媒体业务架构增强研究9TS 26.1183GPP Virtual reality profiles for streamingapplications流媒体应用的虚拟现实配置文件10TS 26.119Device M
37、edia Capabilities for AugmentedReality Services增强现实服务的设备媒体功能11TS 26.238Uplink Streaming上行链路流12TR 26.818Virtual Reality(VR)streaming audio;Characterization test results虚拟现实(VR)音频流;特性测试结果13TR 26.918Virtual Reality(VR)media services over3GPP3GPP虚拟现实媒体业务14TR 26.926Traffic Models and Quality EvaluationMe
38、thods for Media and XR Services in 5GSystems5G系统媒体和XR业务的业务模型和质量评估方法15TR 26.928Extended Reality(XR)in 5G5G扩展现实15/7516TR 26.929QoE parameters and metrics relevant to theVirtual Reality(VR)user experience与虚拟现实(VR)用户体验相关的 QoE参数和指标17TR 26.997Codec for Immersive Voice and AudioServices(IVAS);Performance C
39、haracterization沉浸式语音和音频服务(IVAS)编解码器;性能鉴定18TR 26.999VirtualReality(VR)StreamingInteroperability and Characterization虚拟现实(VR)流媒体互操作性和特性分析19TR 38.835Study on XR enhancements for NRNR XR增强研究20TR 38.838StudyonXR(ExtendedReality)Evaluations for NRNR XR评估研究3.1.2 ITUITU 的国际电联电信发展部门(ITU-D)、国际电联无线电通信部门(ITU-R)
40、和国际电联电信标准化部门(ITU-T)都在进行 VR/AR 相关的研究工作。早在 2018 年,ITU-D 研究组进行了新广播技术和新兴服务在 VR/AR 上的趋势以及电信业务对应的政策和方法的研究。ITU-T 下的研究组 SG9(broadband cable and TV)、SG12(Performance,QoS and QoE)、SG16(Multimedia)、SG20(IoT,smartcity&communities)、SG21(Multimedia,contentdelivery&cable TV)都有 VR/AR 标准研究项目,其中云 XR 研究成果较为突出。ITU-T SG
41、16完成了 H.430 系列标准的制定,为交互型沉浸式业务提供了标准化的框架,推动了 VR、AR等技术的发展和国际标准化进程。ITU SG16 与 ISO/IEC JTC1/SC29 合作成立的联合视频专家组(Joint Video Experts Group,JVET)已制定 VR/AR 相关的 H.266(VVC)通用视频编码标准。H.266 支持 8K 超高清、屏幕、高动态和 360 度全景视频等新的视频类型以及自适应带宽和分辨率的流媒体和实时通信等应用。相对于 H.265/HEVC,H.266 在同等画质下可以节省近 50%的传输流量,对于高清晰度视频,码率节省甚至更多。另外,ITU-
42、R 下的 SG6(broadcasting service)研究组开展了 VR/AR 视频相关的技术研究,已经发布了 BT.2123-0 和 BT.2420-0 两项研究成果。ITU Network2030 提出全球性网络发展愿景,旨在定义 2030 年及以后网络和相应通信服务的能力。Network 2030 将支持更丰富的应用,如全息通信、多感官通信、紧急通信和协作机器人(或称 Cobots)。在其系列报告中,将多感官协同业务、全息业务作为代表性新兴业务,开展了详细的技术 gap 和性能目标分析。16/752022 年 12 月,ITU-T 成立元宇宙焦点组(FG-MV),致力于为元宇宙制定
43、国际技术标准,并发布了2024-FSTP-ACC-MV-SUST-Accessibility in a sustainable metaverse。2023 年 11 月国际电联发布了IMT 面向 2030 及未来发展的框架和总体目标建议书ITU-R M.21604,定义了六大场景,其中“沉浸式通信”场景作为 5G eMBB 场景的增强,主要包括沉浸式 XR 通信、远程多感官呈现、全息通信等典型用例。表4ITU沉浸式相关标准序序号号标准号标准号标准名称标准名称标准内容标准内容1H.266Versatile video coding多用途视频编码标准2H.266.1Conformance spe
44、cification for ITU-T H.266versatile video codingITU-T H.266 多用途视频编码的一致性规范3H.266.2Reference software for ITU-T H.266 versatilevideo codingITU-T H.266 多用途视频编码参考软件4H.430.1Requirements for immersive live experience(ILE)services沉浸式现场体验(ILE)业务需求5H.430.2Architectural framework for immersive liveexperience(
45、ILE)services沉浸式现场体验(ILE)业务架构框架6H.430.3Service scenario for immersive live experience(ILE)沉浸式现场体验(ILE)业务场景7H.430.4Serviceconfiguration,mediatransportprotocols,signalling information of MPEGmedia transport for immersive live experience(ILE)systems沉浸式现场体验(ILE)系统MPEG媒体传输业务配置,媒体传输协议,信令信息8H.430.5Reference
46、modelsforimmersiveliveexperience(ILE)presentation environments沉浸式现场体验(ILE)演示环境的参考模型9H.430.6Media transport protocols,signallinginformation of haptic transmission forimmersive live experience(ILE)systems媒体传输协议,沉浸式现场体验(ILE)系统的触觉传输信令信息10H.430.7Requirements of interactive immersive services互动沉浸式业务需求11H.
47、430.8Functional architecture of interactive immersiveservices(IIS)systems互动沉浸式业务系统功能架构17/7512H.431.1Functional architecture for cloud virtual realitysystems云VR系统功能架构13BT.2123-0Videoparametervaluesforadvancedimmersive audio-visual systems for productionandinternationalprogrammeexchangeinbroadcasting规
48、定了用于制作和国际交换的高级沉浸式视听(AIAV)系统的视频参数14BT.2420-0Collectionofusagescenariosandcurrentstatuses of advanced immersive audio-visual(AIAV)systems规定了用于制作和国际节目交换的高级沉浸式视听(AIAV)系统的视频参数15ITU-RM.2160-0Framework and overall objectives of the futuredevelopment of IMT for 2030 and beyond面向2030及未来发展的框架和总体目标建议16ITU-RM.2
49、516-0Future technology trends of terrestrialIMT systems towards 2030 and beyond面向2030及未来的地面系统技术趋势172024-FSTP-ACC-MV-SUST-Accessibility ina sustainable metaverse可持续元宇宙中的无障碍环境18ITU-TFGNET-2030Sub-G2New Services and Capabilities for Network2030:Description,Technical Gap and PerformanceTarget Analysis20
50、30网络的新服务和功能:描述、技术差距和性能目标分析3.1.3 ISO/IEC MPEG国际标准化组织ISO和国际电工委员会IEC下属的运动图像专家组MPEG于 2016 启动针对服务于虚拟现实 VR、增强现实 AR 和混合现实 MR 等场景的沉浸式媒体的标准化工作,发布了 ISO/IEC 23090 MPEG-I 标准,该标准包含沉浸式媒体的总体框架和系统、全向媒体格式、视频编码、MPEG 沉浸式视频 MIV、MIV 的一致性测试、触觉编码、场景描述等多个技术领域。目前,3DoF 视频的标准化工作已完成,针对 6DoF 视频的工作还在推进中。18/75表5ISO/IEC 23090 MPEG
51、-I系列标准序序号号标准号标准号标准名称标准名称标准内容标准内容1ISO/IEC23090-1Coded representation of immersive media Part 1:General framework and timeline沉浸式媒体的总体框架和系统2ISO/IEC23090-2Coded representation of immersive media-Part 2:Omnidirectional media format定 义 了 全 向 媒 体 格 式(OmnidirectionalMedia Format)3ISO/IEC23090-5Coded repres
52、entation of immersive media-Part 5:Video-based point cloud compression定义了基于视频的体积视频编码(VisualVolumetric Video-based Coding,V3C)和基于视频的点云压缩(Video-based Point CloudCompression,V-PCC)。4ISO/IEC23090-12Codedrepresentationofimmersivemedia-Part 12:MPEG immersive video详细描述了MPEG沉浸式视频(MPEGImmersive Video,MIV),它支
53、持压缩沉浸式视频内容,使得真实或虚拟的3D场景可以通过多个真实或虚拟相机捕获,并支持6自由度(6DoF)的视角位置和方向进行播放。5ISO/IEC23090-14Coded representation of immersive media Part 14:Scene description场景描述,为沉浸式媒体提供场景的数字化表示。6ISO/IEC23090-23Coded representation of immersive media Part 23:Conformance and reference softwarefor MPEG immersive video规定了如何进行MIV
54、的一致性测试,并提供了参考编码器和解码器软件。7ISO/IEC23090-33Coded representation of immersive media Part 33:Conformance and reference softwarefor haptics coding涉及触觉编码的一致性和参考软件,定义了与触觉相关的术语和格式。ISO/IEC 23005 系列标准为多媒体内容的交互和控制提供了一套全面的规范,支持虚拟世界和真实世界之间的数据流动和交互,旨在规范物理世界与虚拟世界以及虚拟世界之间的接口,以实现互操作性、同步反应和无缝信息交换。ISO/IEC 23005 适用于广泛的元宇
55、宙商业服务。19/75表6ISO/IEC 23005系列标准序序号号标准号标准号标准名称标准名称标准内容标准内容1ISO/IEC23005-1MediacontextandcontrolPart1:Architecture沉浸式媒体的总体框架和系统。MPEG-V(媒体上下文和控制)的架构以及与之相关的三种用例类型:从虚拟世界到真实世界的信息适应、从真实世界到虚拟世界的信息适应、虚拟世界之间的信息交换。2ISO/IEC23005-2Media context and control-Part 2:Controlinformation媒体上下文描述3ISO/IEC23005-3Media cont
56、ext and control Part 3:Sensoryinformation媒体控制描述4ISO/IEC23005-4Media context and control Part 4:Virtualworld object characteristics媒体控制接口5ISO/IEC23005-5Media context and control Part 5:Dataformats for interaction devices交互设备的数据格式,包括用于识别设备的标识符、环境信息、控制指令、设备状态和执行结果等内容。它为交互设备的通信提供了标准化的格式和协议,确保数据的准确性和一致性。
57、6ISO/IEC23005-6Media context and control Part 6:Commontypes and tools媒体控制协议3.1.4IEEEIEEE 消费技术协会下的虚拟现实和增强现实标准委员会设立了两个标准工作组,包括13 个 VR/AR 的标准项目,覆盖设备分类、沉浸式视频、沉浸式音频、用户界面、身份认证、环境安全、虚拟对象映射、虚拟对象与现实世界之间的互操作性、内容的评级等多个技术领域。针对全景视频投影技术,IEEE 发布了面向沉浸式视觉内容编码的标准 IEEE 1857.9,该标准定义了一套有效编码沉浸式视觉内容的工具,以及相应的解码和重建程序。沉浸式视觉内
58、容包括但不限于全景视频、自由视图视频、光场、三维(3D)模型和其他类型的合成视觉内容。通过计算沉浸式视觉内容的目标视觉质量下的数据速率来衡量编码效率。20/75表7IEEE沉浸式系列标准序序号号标准号标准号标准名称标准名称标准概述标准概述1IEEEP2048.1Standard for Virtual Reality and AugmentedReality:Device Taxonomy and Definitions规定了VR和AR设备的分类和定义2IEEEP2048.2Standard for Virtual Reality and AugmentedReality:Immersive
59、Video Taxonomy andQuality Metrics规定了沉浸式视频的分类和质量指标3IEEEP2048.3Standard for Virtual Reality and AugmentedReality:Immersive Video File and StreamFormats规定了沉浸式视频文件和流媒体格式以及这些格式的功能和交互性4IEEEP2048.4Standard for Virtual Reality and AugmentedReality:Person Identity规定了在VR中个人身份认证的条件和方式5IEEEP2048.5Standard for V
60、irtual Reality and AugmentedReality:Environment Safety详列了为工作站和内容消耗的环境提出的参考意见,包括VR、AR、MR及所有数字覆盖的相关设备。这些设备可能与现实世界交互,潜在地影响用户感知。此外,该标准重点制定了产品质量保证和测试标准,用以检测上述环境中的合格品,从而保证多数用于消费和商业用途的产品在投入生产和消费过程前达到符合安全标准的水平6IEEEP2048.6Standard for Virtual Reality and AugmentedReality:Immersive User Interface规定了在VR应用中使用沉浸
61、式用户界面的条件和方式,以及沉浸式用户界面的功能和交互性7IEEEP2048.7Standard for Virtual Reality and AugmentedReality:Map for Virtual Objects in the RealWorld规定了AR/MR应用的使用条件、系统、使用方式、检测和认证方式,以创建并使用其在真实世界中的虚拟对象映射21/758IEEEP2048.8Standard for Virtual Reality and AugmentedReality:InteroperabilitybetweenVirtualObjects and the Real
62、World规定了虚拟对象与现实世界之间的互操作性的使用条件、系统、使用方式、检测和认证方式9IEEEP2048.9Standard for Virtual Reality and AugmentedReality:Immersive Audio Taxonomy andQuality Metrics规定了沉浸式音频的分类和质量指标10IEEEP2048.10Standard for Virtual Reality and AugmentedReality:Immersive Audio File and StreamFormats规定了沉浸式音频文件和流媒体格式11IEEEP2048.11St
63、andard for Virtual Reality and AugmentedReality:In-Vehicle Augmented Reality规定了车辆内AR的应用12IEEEP2048.12Standard for Virtual Reality and AugmentedReality:Content Ratings and Descriptors规定了VR和AR内容的评级和描述符13IEEEP2048.101Standard for Augmented Reality on MobileDevices:General Requirements for SoftwareFrame
64、work,Components,and Integration定义了移动设备上增强现实系统的一般技术框架、组件、集成和主要业务流程,并规定了其技术要求,包括功能要求、性能要求和相应的测试方法14IEEE3333.1.1IEEE Standard for Quality of Experience(QoE)and Visual-Comfort Assessments ofThree-Dimensional(3D)Contents Based onPsychophysical Studies基于心理物理研究的三维内容体验质量(QoE)和视觉舒适性评估标准15IEEE1857.9IEEE Stand
65、ard for Immersive Visual ContentCoding面向沉浸式视觉内容编码IEEE 针对元宇宙发布了多个标准,分别规定了元宇宙的术语、类别和级别、物理世界和虚拟世界的接口,元宇宙的道德和伦理可行性方法。22/75表8IEEE元宇宙相关标准序序号号标准号标准号标准名称标准名称标准内容标准内容1IEEEP2048Standard for Virtual Reality and AugmentedReality:Device Taxonomy and Definitions定义元宇宙的术语、类别和级别,以促进元宇宙相关活动的可持续发展,并推动元宇宙市场的健康成长2IEEEP2
66、888IEEE Standard for Actuator Interface for Cyberand Physical Worlds定义了物理世界和虚拟世界同步的标准接口,并定义了控制执行器和获取感官信息的信息格式和应用程序接口(API),允许虚拟世界和现实世界之间的交互。3IEEEP2888.1IEEE Standard for Specification of SensorInterface for Cyber and Physical Worlds定义了从传感器获取信息的词汇、数据格式和应用程序接口(APIs),以实现虚拟世界与物理世界之间的通信。4IEEEP2888.2IEEE S
67、tandard for Actuator Interface for Cyberand Physical Worlds定义了词汇、要求、度量、数据格式和应用程序接口(APIs),用于描述、设置参数和指挥使能定义虚拟世界和物理世界之间接口的执行器。5IEEEP2888.3IEEE DraftStandardon OrchestrationofDigital Synchronization between Cyber andPhysical Worlds定义一系列词汇、要求、度量、数据格式和应用程序接口(APIs),以便为数字对象设置参数并与物理对象进行同步和交互。6IEEEP2888.4IEEE
68、 Standard for Architecture for VirtualReality Disaster Response Training Systemwith Six Degrees of Freedom(6 DoF)定义了实施虚拟现实系统所需的架构。7IEEEP2888.5IEEE Approved Draft Standard for VirtualTraining System Evaluation Methods定义了虚拟训练系统的评估方法。该标准包括主观和客观评估方法,以及用于评估虚拟训练系统的有效性、效率和满意度的评估标准、问卷和评估指标。8IEEEP2888.6Stand
69、ard for Holographic Visualization forInterfacing Cyber and Physical Worlds定义全息内容的表示方式,以提供虚拟世界与物理世界之间的接口。23/759IEEEP2888.7Standard for Architecture of a Digital TwinSystem for Carbon Emission Management为碳排放管理提供一个数字孪生系统的架构框架,以支持对碳排放的监控、分析、预测和管理。10IEEEP1589IEEEStandardforAugmentedRealityLearning Experi
70、ence Model针对增强现实学习体验的标准,描述了如何在标准化的交换格式中表示活动、学习背景、特定环境以及可能的其他AR增强学习活动的元素,以及数据规范11IEEEP7016IEEE Standard for Ethically Aligned Designand Operation of Metaverse Systems提供元宇宙系统的社会技术方面的高层次概述,并指定在其设计和操作中使用的伦理评估方法3.2 国内标准化进展国内标准化进展3.2.1 国家广播电视总局国家广播电视总局在沉浸式视频技术方面,国家广播电视总局科技司于 2020 年 8 月 26 日发布了5G 高新视频沉浸式视频
71、技术白皮书(2020),该白皮书旨在引导和规范沉浸式视频行业应用。国家广播电视总局批准并发布了三项与沉浸式通信相关的行业标准,分别是 沉浸式终端通用技术要求、云游戏总体技术要求 和 自由视角视频系统技术要求,这些标准均从 2023年 12 月 1 日起实施。这些标准的发布旨在推动广播电视和网络视听行业的高质量创新性发展,特别是在 5G 高新视频领域。3.2.2 CCSA中国通信标准化协会(CCSA)的移动互联网应用和终端技术工作委员会第 1 工作组(TC11/WG1)成立了第 5 子工作组(SWG5),旨在开展基于移动互联网应用和终端的 VR/AR研究和标准化工作。目前,TC11/WG1/SW
72、G5 工作组开展了分体式 VR 设备、云化虚拟现实/增强现实、MR操控接口、设备测试等 VR/AR 国标和行标的制定。当前 TC11/WG1/SWG5 工作组关于扩展现实有 2 个项目已经结项,分别是基于 5G 技术的扩展现实(XR)总体研究,以及扩展现实测试方法 第 1 部分:增强现实设备光学显示性能(基于移动互联网的分体式增强现实设备光学测试方法),发布了基于 5G 技术的扩展现实(XR)总体研究和扩展现实测试方法第 1 部分:增强现实设备光学显示性能。当前 TC11/WG1/SWG5 工作组仍有 8 个 XR 项目24/75正在进行中,包括:面向扩展现实(XR)业务的 5G 网络承载性能
73、指标及测试方法,扩展现实测试方法 第 2 部分:虚拟现实设备光学显示性能,扩展现实测试方法 第 3 部分:扩展现实设备定位性能,扩展现实测试方法 第 4 部分:扩展现实设备视频透视性能,面向扩展现实触觉交互的信息采集指标要求,基于移动互联网的扩展现实(XR)设备通用接口技术要求,基于多相机成像的扩展现实手势交互技术要求,基于移动互联网的扩展现实(XR)设备通用接口技术要求。TC5 WG9 的“面向扩展现实和云游戏的 5G 无线网增强技术研究”项目已结项,发布了面向扩展现实和云游戏的 5G 无线网增强技术研究报告。TC5 WG9 仍有“面向扩展现实及多模态业务的 5G 无线网增强技术研究”项目正
74、在进行中。TC5 WG12 的“面向 XR 及多媒体增强的核心网络技术研究”项目已结项,发布了面向XR 及多媒体增强的核心网络技术研究报告。TC5 WG6 则着眼未来,成立了“面向 6G 沉浸式通信场景的技术需求与关键技术研究”项目。TC11/WG3 正在进行关于“扩展现实(XR)设备安全能力技术要求”的研究工作。3.2.3 AVS 工作组工作组数字音视频编码技术标准工作组(The Audio Video Coding Standard,AVS)由国家原信息产业部科学技术司于 2002 年 6 月批准成立,旨在面向我国的信息产业需求,联合国内企业和科研机构,制(修)定数字音视频的压缩、解压缩、
75、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用。先进高效视频编码(AVS3)是 AVS 工作组制定的第三代音视频编解码技术标准,也是全球首个已推出的面向 8K 及 5G 产业应用的视频编码标准。AVS3 规定了适应多种比特率、分辨率和质量要求的高效视频压缩方法编码位流的结构、语法、语义和解析、解码过程。AVS3 编码效率比 AVS2 提高了近 1 倍,与视频编码国际标准 H.266/VVC 相当。目前AVS3 已经应用于冬奥、世界杯直播转播,中国移动咪咕公司首发 A
76、VS3 移动端规模化商业版本咪咕视频 6.0.7.00,展现了极具潜力的应用前景。AVS6DoF 标准全称“(AVS3+6DoF)over 5G”,是在 AVS3 的基础上,增加了对六自由度沉浸视频的支持,从而提高了视频的沉浸度和交互性。AVS 6DoF 标准详细描述了虚拟现实全景视频和自由视角视频的编码表示与重建方法,包括压缩域的语法、语义以及重建过程。25/75该标准适用于虚拟现实视频内容制作、播出和传输等应用场景。3.3 国内政策国内政策2022 年 11 月 1 日,工业和信息化部、教育部、文化和旅游部、国家广播电视总局、国家体育总局联合印发虚拟现实与行业应用融合发展行动计划(2022
77、2026 年)。该行动计划提出了 2026 年我国虚拟现实产业总体规模(含相关硬件、软件、应用等)超过 3500亿元,虚拟现实终端销量超过 2500 万台的目标,同时提出要加速多行业多场景应用落地。2023年8月,工业和信息化部办公厅、财政部发布 关于印发电子信息制造业20232024年稳增长行动方案的通知,提出要落实上述行动计划,紧抓战略窗口期,提升虚拟现实虚拟现实产业核心技术创新能力,推动虚拟现实虚拟现实智能终端产品不断丰富。2023 年 8 月,文化和旅游部办公厅、工业和信息化部办公厅发布关于组织开展“5G+智慧旅游”应用试点项目申报工作的通知,其中提到:促进 5G+4K/8K 超高清视
78、频、5G 智慧导览、5G+VR/AR 沉浸式体验沉浸式体验等应用场景规模发展,满足游客在旅游全过程智慧体验。基于 5G 的 AI 摄像头、VR/AR 终端终端、可穿戴设备等数字化产品与文化和旅游企事业机构等深度融合,促进 5G+智慧旅游产品的规模化推广。2023 年 10 月,文化和旅游部办公厅、国家发展改革委办公厅、工业和信息化部办公厅发布关于组织开展智慧旅游沉浸式体验新空间培育试点项目推荐遴选工作的通知。智慧旅游沉浸式体验新空间是指依托旅游景区、度假区、休闲街区、工业遗产、文博场馆、剧院剧场等文化和旅游场所或相关空间,运用增强现实增强现实、虚拟现实虚拟现实、人工智能等数字科技并有机融合文化
79、创意等元素,通过文旅融合、虚实结合等方式,对展示内容进行创造性转化、创新性发展,让游客深度介入与互动体验而形成的一种旅游新产品、消费新场景。2024 年 1 月,国务院办公厅发布关于发展银发经济增进老年人福祉的意见,其中提到:鼓励利用虚拟现实虚拟现实等技术,开展老年用品和服务展示体验。2024 年 1 月,工业和信息化部等十一部门发布 关于开展“信号升格”专项行动的通知,其中提到:支持景区开展 4K/8K 视频、智慧导览、VR/AR 沉浸式旅游沉浸式旅游等应用。2024 年 1 月,工业和信息化部、教育部、科学技术部、交通运输部、文化和旅游部、国务院国有资产监督管理委员会、中国科学院七部门发布
80、 关于推动未来产业创新发展的实施意见。其中,在“突破下一代智能终端”中提到,发展量大面广、智能便捷、沉浸体验沉浸体验的消费级终端;突破高级别智能网联汽车、元宇宙元宇宙入口等具有爆发潜能的超级终端。在“开拓新型工业化场景”中提到,加快工业元宇宙元宇宙、生物制造等新兴场景推广,以场景创新带动制26/75造业转型升级。2024 年 4 月,国家文物局办公室、教育部办公厅发布关于开展 2024 年度以革命文物为主题的“大思政课”优质资源建设推广工作的通知,其中主要推广类型包括:AI 交互、ARVR 互动体验互动体验、人工智能、虚拟仿真课堂虚拟仿真课堂等新技术应用案例。2024 年 6 月,国家发展改革
81、委、农业农村部、商务部、文化和旅游部、市场监管总局发布关于打造消费新场景培育消费新增长点的措施,其中,在“拓展文娱体育消费空间”部分,提到要“促进虚拟现实虚拟现实(VR)体验体验等文娱业态场景创新”;在“利用新技术拓展购物消费体验”部分,提到要“探索利用人工智能大模型、虚拟现实(虚拟现实(VR)全景和数字人)全景和数字人等技术,拓展电商直播场景。发展线上“虚拟家居布置虚拟家居布置”“虚拟试衣虚拟试衣”等产品展示业务,促进沉浸式沉浸式体验消费。”2024 年 11 月,工业和信息化部等十二部门印发了5G 规模化应用“扬帆”行动升级方案,旨在到 2027 年底构建形成“能力普适、应用普及、赋能普惠
82、”的发展格局,全面实现5G 规模化应用。其中多次提到沉浸式、XR 相关内容,包括:要推进 5G 与人工智能、虚虚拟现实拟现实等技术的融合,探索新型内容生产、传播和体验方式;加快演艺、娱乐、文化会展、文博等行业的数字化转型,打造沉浸式沉浸式文旅体验新场景;完善 XR、虚拟交互、虚拟交互、智能文化装备等产业链,提升文化装备智能化水平和产业化能力。从上面的政策可以看出,我国政府对沉浸式相关产业和发展高度重视,近 2 年密集出台了多项与沉浸式相关的政策,未来必定还将出台更多相关的技术,可见沉浸式应用已经成为了我国重点发展方向之一。另外从上面的政策还可以看出,沉浸式相关政策主要集中在下面几个领域:1、文
83、旅文旅一直是沉浸式技术的重要应用场景之一,这些技术为旅游体验带来了全新的维度和深度。在此领域,国家出台了关于组织开展智慧旅游沉浸式体验新空间培育试点项目推荐遴选工作的通知 关于组织开展“5G+智慧旅游”应用试点项目申报工作的通知等政策,强调用 VR/AR 等沉浸式技术将旅游深度融合。2、消费在 2024 年 12 月中央经济工作会议中提到要大力提振消费、全方位扩大国内需求。可见如何促进消费在国内越来越重要。在国家出台关于打造消费新场景培育消费新增长点的措施 中强调了用虚拟现实(VR)全景和数字人等技术,拓展电商直播场景;用线上“虚27/75拟家居布置”“虚拟试衣”等产品展示业务,促进沉浸式体验
84、消费。3、银发经济银发经济作为国内越来越重要的领域,国务院办公厅发布 关于发展银发经济增进老年人福祉的意见,鼓励利用虚拟现实虚拟现实等技术,开展老年用品和服务展示体验。通过沉浸式技术来为老人提供高质量的服务。4、教育在 关于开展 2024 年度以革命文物为主题的“大思政课”优质资源建设推广工作的通知中提到的“虚拟仿真课堂”是沉浸式技术在教育领域应用的一个重要体现。由此可见,沉浸式技术对多领域的发展起到促进和辅助作用。通过与传统领域的融合发展,沉浸式技术将释放传统行业的创新活力。在政策的推动下,未来沉浸式技术将有更多的应用场景落地。3.4 国外政策国外政策美国:2022 年 8 月,美国总统签署
85、2022 年芯片与科学法案,其中,沉浸式技术被纳入了法案中关键技术重点领域的名单。该法案对 XR 技术的发展提供了重要的资金支持。2023 年 5 月美国两党议员共同提出美国劳动力沉浸技术法案,旨在劳工部设立一项为期5 年的拨款计划,支持社区学院和职业技术教育中心利用包括增强现实和虚拟现实在内的沉浸技术开发劳动力发展教育和培训项目。欧盟:2022 年 11 月,数字市场法正式生效,欧盟通过该法案,维护欧盟市场的竞争与活力。2022 年 11 月,数字服务法案生效,欧盟通过该法案,强化数字领域的监管力度,防范国际巨头市场垄断。2024 年 5 月,欧洲理事会正式通过了欧盟人工智能法案,欧盟通过该
86、法案,对元宇宙采取保守和严苛的立场,包括增加透明度、尊重用户选择权、严格保护隐私等。韩国:2022 年韩国政府公布元宇宙新产业领先战略-培育数字新政 2.0 引领新产业发展以“数字新大陆,迈向元字宙的韩国”为愿景口号,提出到 2026 年,元宇宙产业规模全球前五,并计划投资 5560 亿韩元用于完善官方制度,培养 40000 名元宇宙领域专家,220家销售额超过 50 亿韩元的供应商企业,发掘 50 个模范案例。首尔市政府于 2023 年 1 月推出了元宇宙首尔平台,耗资超过 21 亿韩元,使首尔成为全球首个提供 VR 公共行政服务的城市。2023 年 9 月,韩国公布数字权利法案,是韩国政府
87、为了建立数字时代的新秩序而提出的一份重要文件。2024 年 6 月韩国科学与信息通信技术部提出了“新数字秩28/75序建立计划”,该行动计划旨在将韩国之前提出的“数字权利法案”落实到具体政策中,以建立数字时代的新秩序,解决与深化数字化相关的问题。日本:2022 年 4 月,日本成立了面向应用推进研究和规则完善的“元宇宙推进协议会”。该组织由 ANA 控股和三菱商事等 20 家以上企业参与,力争未来在生活和商务中普及元宇宙的应用。2022 年 10 月,日本首相岸田文雄表示日本将投资数字转型服务,包括了 NFT和元宇宙;2023 年 6 月,日本参议院通过了不正当竞争修正法,旨在通过对元宇宙知识
88、产权的保护,为初创企业等中小企业提供良好的发展环境。3.5 产业化进展和发展趋势产业化进展和发展趋势3.5.1 XR 产业现状产业现状XR 产业链是一个生态系统,涉及多个环节,包括硬件、软件、内容、应用、传输网络等。XR 硬件是指将现实与虚拟结合起来进行人机互动的设备。XR 硬件依靠穿戴式设备或有定位设备的特殊环境(裸眼式 XR)实现,目前市场上以穿戴式设备为主。XR 硬件从完整度上区分,主要包括 XR 整机,XR 模组,关键元器件三个部分。对应的产业链从上到下包括 XR 终端厂商,XR 模组厂商,元器件厂商。XR 整机指的是集成了 XR 技术,能够提供虚拟现实(VR)、增强现实(AR)和混合
89、现实(MR)体验的设备。这些设备可以是头戴式显示器(HMD)、智能眼镜或其他可穿戴设备,它们通过计算机技术和传感器为用户提供沉浸式体验。XR 模组通常是指构成 XR 整机的一些关键部件或子系统,比如光学器件、显示器件、传感器、芯片等。这些模组共同工作,实现 XR 设备的特定功能,如环境感知、图像渲染、用户交互等。XR 关键元器件包括处理器芯片、内存、通信芯片、传感器(IMU,光感)、光学器件、显示设备、摄像头、电池、扬声器等,供应给 XR 模组厂商和 XR 终端厂商。XR 元器件除了光学和显示器件外,基本上可以复用手机元器件,如处理器芯片使用手机处理器平台。对于 XR 光学器件除了对比度、清晰
90、度、细腻度等要求外,还需要考虑体积,重量等影响用户使用体验感的因素。近几年 Pancake 光学器件因其更轻薄、更舒适、更高性能成为 VR 头显设备的重要解决方案。Meta、苹果、微软、三星、高通等企业持续布局 XR 产业,纷纷发布 XR 产品。以下是一些公司推出的 XR 产品。29/75表9科技公司推出的XR产品公司XR 产品MetaQuest 3,Orion AR 眼镜,Ray-Ban Stories 智能眼镜苹果Apple Vision Pro索尼PlayStation VR2微软HoloLens 2三星Galaxy GlassPICOPICO 4 Ultra高通骁龙 XR1,骁龙 XR
91、2 Gen2 芯片XR 软件平台是用于创建、管理和渲染扩展现实体验的关键工具和环境。XR 软件平台可分为系统平台和开发平台两类。系统平台主要指操作系统(Operating Systerm,OS)以及对应的用户界面(User interface,UI),目前开发 XR 操作系统的主要公司有微软、谷歌、Meta、苹果、华为和 Magic Leap 等;开发平台提供了从创建、渲染到分发的全套工具,使得开发者能够构建和部署跨平台的沉浸式体验。开发平台主要包括 3D 建模平台、内容开发引擎、AR SDK、渲染处理等。以下是一些主流的 XR 开发平台:表10XR开发平台XR 开发平台平台特点Unreal
92、Engine(虚幻引擎)虚幻引擎是一个功能强大且经过验证的平台,专为 3A 级游戏、电影制作和照片级可视化等要求苛刻的应用而设计。它提供对 OpenXR 和各家硬件供应商 API 的广泛支持,能够将 XR 体验部署到任何平台,包括 Hololens、ARCore 和 Oculus 等。虚幻引擎还允许开发者使用蓝图可视化脚本或 C+代码来创作定制的 XR 应用程序。UnityUnity 是一个广泛使用的 XR 开发平台,提供了跨平台的工具,如 XRInteraction Toolkit 和 XR Hands,帮助开发者添加物体检测、遮挡、运动、手势、物体交互等关键功能。Unity 支持开发者构建
93、可触及 Meta Quest、Apple iOS 和 visionOS、PlayStationVR2 等领先设备的 XR 应用程序。OpenXROpenXR 是由 Khronos Group 制定的开放标准,旨在标准化各种 VR/AR 平30/75台上的设备和应用程序之间的规范。它允许应用程序开发人员编写一次代码,就能在任何支持 OpenXR 的系统上运行,简化了 XR 开发。高通骁龙 XR 平台高通骁龙 XR 平台结合了智能增强现实(AR)、虚拟现实(VR)和人工智能(AI)功能,满足扩展现实(XR)生态系统不断增长的需求。该平台提供沉浸式音频、视觉效果,以及娱乐、游戏、教育、工业应用等之间
94、的互动。LarkXR 云 XR 平台LarkXR 是实时云渲染产品,基于 GPU 云化、图形容器、实时编解码、网络传输优化等核心技术。它支持多终端访问/交互,包括浏览器直接访问和Android、iOS 等客户端 APP,以及 VR/AR 眼镜、手机/Pad、PC、全息等终端交互。阿里云 XR 平台阿里云与平行云联合发布的云 XR 平台,提供算力调度、3D 实时渲染、音视频编码与推流、应用发布与用户管理等服务。该平台支持多种流行实时3D 引擎和多种 AR/VR/MR 终端,兼容不同系统。中兴通讯 Cloud XR 平台解决方案中兴通讯推出自有品牌的 Cloud XR 平台解决方案:uSmartI
95、N XRExplore,其架构包括应用层、平台层和基础视频能力层。该平台支持 Cloud XR 教育培训、旅游、金融、工业、房地产等业务共性能力,提供能力开放,第三方应用开发者可利用平台提供的 VR/AR 云渲染、推流等 SDK 开发自己的业务应用,丰富 XR 平台的生态圈。PICO 开发者平台PICO 4 Ultra 开发者专题页提供了全新 OS、新功能特色、SDK 3.0 及示例,以及业界创新能力。PICO 4 Ultra 提供完善的虚拟现实(VR)体验和全新的混合现实(MR)体验,具备 6 自由度(6DoF)头部和手部追踪能力。Snapdragon Spaces XR 平台Snapdra
96、gon Spaces XR 平台是一个集成的平台和生态系统,用于基于 XR的设备制造商,可以加速上市时间并降低创建企业级设备复杂性。该平台包括处理器、软件和感知技术、参考设计和开发者工具,帮助创造企业新的未来潜力。LayaAirLayaAir 是 Layabox 旗下的轻量化全平台图形引擎,具有开放式的可编程的渲染管线,次世代 PBR 渲染流,ClusterLighting 多光源技术,Forward+渲染管线,高性能并行渲染器 API 的接入(WebGPU)等核心技术。支持开发者 2D 和 3D 内容创作。31/75Cocos CreatorXRCocos CreatorXR 是基于 Coc
97、os Creator 和 Cocos Engine 打造的 XR 内容创作工具。它支持 OpenXR 标准协议,提供一站式开发并发布到不同的 XR设备中。Cocos CreatorXR 1.2.0 版本新增了对 WebXR 的支持,正式支持发布到 WebXR 的图形化编辑器,并开启 MR 之路。中科创达 XR 平台中科创达提供的 XR 平台包括 SoC Qualcomm XR2、8GB LPDDR5、128GBUFS3.1 存储、Pancake 光学、2 x 2280 x 2280 分辨率、90 fps 刷新率、6DoF头部和手部追踪、视频透视、无线渲染等功能。创通联达 XR 解决方案创通联达
98、提供端到端的 AR/VR HMD/智能眼镜的开发服务,拥有操作系统优化、功耗及性能优化、相机、显示及音频优化等功能。XR 应用和内容是吸引用户的关键,不断丰富和优化 XR 应用和 XR 内容生态,提供丰富的内容为用户带来更加沉浸式的体验选择是 XR 产业发展的核心推动力。XR 应用非常广泛,基于应用对象,可以分为行业内容应用(ToB)和个人消费市场应用(ToC)。XR 在行业应用领域方面较广泛,包括军事安防、办公协作、工程培训、安装检修、物流仓储、产品营销、自动驾驶、太空探索、商业应用、工业应用等方面。XR 在个人消费市场上主要凸显在商业营销、教育、游戏、旅游、医疗和社交方面。当前优秀的内容和
99、应用主要集中在游戏领域,XR 内容数量整体偏少,缺少现象级重磅内容,优质内容匮乏,用户粘性受制于内容数量与质量。XR 要打破游戏机定位,亟需更多领域的优秀内容的开发,例如 XR 健身,XR 短视频及直播,XR 影视,XR 社交,XR 旅游,XR 医疗等。目前,XR 产业链的诸多环节发展仍不成熟,未来发展趋势有以下几方面:1)XR+AI:通过智能感知/动作识别、自然语言处理等技术提升 XR 设备的智能化水平,实现更自然的交互和更智能的服务。AI 可以使 XR 内容的生成变得更低成本、更高效率,为XR 的沉浸式体验提供更多内容可能性的同时增加XR内容的互动性。2)细分场景和应用,丰富 XR 内容:
100、游戏仍是当前 XR 市场主流,针对消费市场的应用的细分及内容的开发,可能是促进 XR 产业快速增长的主要驱动力。针对行业应用需要了解行业特点和需求,抓住痛点进行精准布局。3)改善 XR 体验,移动性能力和交互方式能力提升:主流 XR 设备需要划定区域内运动,可实现的场景受限,如果能支持更大范围的移动性,将扩展 XR 的应用场景;另外,大部分 XR 设备以手柄作为交互形式,输入信息有限,交付不够自然,如果32/75能扩大 XR 设的交互方式,将大幅改善 XR 体验。4)软硬协同促进产业链良性循环:硬件性能得到提高,赋予用户高度沉浸式体验感,吸引更多 XR 用户,促进更多软件和内容厂商的开发。随着
101、 XR 内容和应用的增长,增强用户粘性,增加市场对 XR 产品需求,促进硬件厂商出货量增加,形成产业链良性循环。3.5.2 全息全息产业现状产业现状全息投影技术突破了传统声、光、电局限,将美轮美奂的画面带到观众面前,给人一种虚拟与现实并存的双重世界感觉。数据显示,2023 年中国全息投影行业市场规模约为 13.5亿元,市场规模持续增长,展现出广阔的应用前景和商机。全息投影产业链上游为基础层,包括电子元器件、集成电路、光学材料等,下游为全息投影应用,主要应用于旅游、建筑、教育、医疗、零售物流、游戏等领域。全息投影产业链基础层的组成部分为全息投影行业提供必要的硬件支持和技术基础,是全息产业链稳定发
102、展的重要保障。表11全息投影产业链基础层组成部分基础层组成部分功能全息材料研发与制造商负责研发和生产全息投影所需的特殊材料,如全息膜、反射镜等。这些材料的质量和性能直接影响全息投影的效果和稳定性全息设备零件商提供投影机的核心零部件,包括芯片、镜头、光源和光学元组件等。这些零部件的质量和性能对全息投影的效果和稳定性起到关键作用全息技术服务器商提供全息投影所需的技术支持和数据存储服务。随着云计算和大数据技术的发展,全息投影的数据处理能力得到了极大的提升全息芯片商专注于研发和生产用于全息投影的高性能芯片。随着5G、AI等技术的融合应用,全息投影芯片的性能也在不断提升云计算、云服务器和服务器硬件设备提
103、供整个产业中的算力支持,包括图像的采集、处理、传输编码等芯片或微型集成电路作为所有设备的核心处理与控制逻辑单元电路元器件与光学器件完成全息业务的支撑信号处理设备用于衔接不同部分,在整套业务逻辑中的各环节之间进行信号传递33/75专业仪器决定全息图像的采集清晰度和呈现效果,例如镜头、投影纱幕等基础层公司是产业链的源头,目前在基础材料、核心技术上已经可以提供必要的保障,尤其在头戴式显示领域,已经拥有了高精度的传感器,芯片和产品,例如微软推出的配备了Windows 全息操作系统的 HoloLens 2。在裸眼 3D 和空气成像领域,技术和材料研究近几年也有显著进展,但离成熟还存在一定距离。目前裸眼
104、3D 技术主要应用于广告传媒、影视娱乐、教育培训、医疗影像、展览展示等领域。华为在 2024 年 3 月 11 日于北京举行的新技术发布会上推出了名为“空中成像”的技术,将光线投射到空中,形成三维图像,无需依赖屏幕或其他物理介质,为用户带来全新的视觉体验。全息成像方式主要包括光学全息、数字全息、计算全息、360 度全息显示、360 度幻影成像和透射式全息显示几类。表12全息成像方式全息成像方式原理光学全息传统的光学全息技术,通过激光作为照明光源,将光源发出的光分为两束,一束直接射向感光片,另一束经被摄物的反射后再射向感光片。两束光在感光片上叠加产生干涉,记录下物体光波的振幅与相位信息数字全息数
105、字全息技术利用电荷耦合器件(CCD)等电子设备取代传统光学全息中的记录介质来记录全息图,重建过程在计算机中完成。这种方法继承了传统全息的特点,并具有实时图像获取和处理、数值重建获取相位信息等优点计算全息利用计算机模拟光的传播,通过计算机形成全息图,打印全息图后微缩形成母板。这种方法可以在空间重叠,十分紧凑、轻巧,适合于宇宙飞行使用360度全息显示通过将图像投影在一种高速旋转的镜子上实现三维图像,允许从 360的任何角度观看影像的不同侧面360度幻影成像将三维画面悬浮在实景的半空中成像,营造了亦幻亦真的氛围,效果奇特,具有强烈的纵深感。形成空中幻象中间可结合实物,实现影像与实物的结合透射式全息显
106、示利用相干光照射物体,物体表面的反射光和散射光到达记录干板后形成物光波;同时引入另一束参考光波照射记录干板。再现时,利用与参考光波相同的光波照射记录干板,人眼在透射光中观看全息板,便可在板后原物处观看到与原物完全相同的再现影像34/75全息技术应用非常广泛,在教育、医疗、文旅、商业、娱乐、展览、军事、餐饮等领域都有广阔的空间。例如德国马戏团 Roncalli 使用全息影像代替活体动物,实现无动物马戏表演。目前,全息产业链的诸多环节发展仍不成熟,未来发展趋势有以下几方面:1)技术融合:未来全息投影技术将与人工智能、虚拟现实等技术融合,形成更为完整的生态系统。2)应用领域和场景拓展:全息技术的应用
107、领域将从娱乐、教育、医疗、军事扩展到更多行业,如工业、商业等。应用进一步细分,内容数量和质量都进一步提升。3)市场规模增长:预计未来几年全息投影市场规模将继续保持高速增长态势。4)成本降低:随着技术的发展和规模化生产,全息投影技术的成本将逐渐降低,吸引更多人使用和享受到全息技术带来的便利。35/754 关键技术关键技术沉浸式业务对端到端产业提出了挑战,包括终端设备、媒体处理技术、编解码技术、业务保障和网络传输等方面。4.1 沉浸式终端相关技术沉浸式终端相关技术6G 时代基于泛在连接进一步融合通信、感知、计算等多种能力,描绘出一种物理世界与虚拟世界万物智联的愿景。虚实融合体验通过沉浸式终端实现,
108、包括穿戴式近眼显示设备、裸眼 3D 显示设备以及洞穴式虚拟现实系统 CAVE(Cave Automatic Virtual Environment)等。本章将分别介绍不同终端的光学技术、显示技术及交互技术。4.1.1 光学技术光学技术光学器件通过光学透镜的折射原理,改变光线传导的方向,从而达到在近眼聚焦以及扩大视场的效果。作为连接显示屏和人眼的重要桥梁,光学器件是近眼显示设备最为关键的组件之一,直接影响到最终的显示效果。光学器件生产主要包括:光学设计、透镜加工、透镜贴膜、组装、检验和封装六个流程。评估光学器件的性能参数包括:视场角、出瞳距离、眼动范围、光学效率、透镜厚度、成像质量、角像素密度和
109、成本等。如前文所述,近眼显示设备包括:虚拟现实(VR)、增强现实(AR)、及介于两者之间的混合现实(MR)。VR 头显利用数字技术为用户提供视觉、听觉和触觉的感官模拟,构建一个与外界隔绝的沉浸式虚拟三维世界,其光学器件利用光学折射原理,将靠近人眼的微显示器屏幕上所显示的图像聚焦、放大,而后投射到人眼中形成更大视角的画面。两组光学器件和微显示屏通过模拟双目视差,使佩戴者获得三维立体沉浸式的视觉体验。佩戴头盔时所看到的图像完全由微显示器提供,现实场景中自然反射的光线无法进入人眼。然而利用透视技术(See-Through),通过头盔上的采集与显示设备,佩戴者可透过头盔看到真实世界,进而实现混合现实(
110、MR)。VR 光学技术的发展经历了三个主要阶段:非球面透镜阶段,菲涅尔透镜阶段和 Pancake阶段(见图 2)。前两个阶段采用垂直光路方案,通常使用单个透镜,基于光线折射的原理,常见于早期的 VR 头显设备。现在则主要采用以 Pancake 为代表的折叠光路技术,由多个透镜的组合,通过光线的折射、反射和偏振来实现光路的多次转折,有效缩短了光学总长。该方案大幅度降低了 VR 头显的厚度和重量,是目前消费级 VR 头显的首选光学方案,以 Meta、36/75苹果、PICO 为代表的头部企业推出的主流产品均是采用折叠光路 Pancake 方案。另外当前较为前沿的 VR 光学技术还包括异构微透镜方案
111、以及液晶偏振全息方案、超透镜方案等。图2 VR光学技术AR 眼镜与 VR 头显不同,佩戴者可透过半透明的显示镜片直接观察真实世界,并在真实场景的基础上叠加图像、声音、视频等数字信息,实现虚实融合。AR 眼镜主要的光学方案包括棱镜方案、自由曲面方案、Birdbath 方案和光波导方案(见图 3)。棱镜方案技术原理23:自由曲面棱镜方案原理24:Birdbath 光学方案技术原理24:光 波 导 光 学 方 案 技 术 原 理 24:图3 AR光学方案自由曲面方案和 Birdbath 量产较为成熟,成像质量、光效、色彩饱和度相比于棱镜方案37/75更高,但是存在模组较厚、透光率低、入眼亮度低、出瞳
112、距离小等缺点。基于这种方案的AR 眼镜主要用于观影、游戏或办公等静态场景。另一方面,近年来光波导方案发展迅速,因其在体积、透光率、清晰度等方面都有明显优势,有望成为下一代主流 AR 光学方案。基于光波导的 AR 眼镜主要由三大核心组件构成:显示模组、波导片以及耦合器。显示单元产生的光信号首先经由耦入器件进入波导片,然后在波导内部通过全反射的方式沿特定路径传输,最终通过耦出器件离开波导片,直射入用户的眼睛,在视网膜上形成图像。根据耦合器件不同,光波导可分为衍射光波导和几何光波导,其中衍射光波导又分为表面浮雕光栅和体全息两种方案;几何光波导包括锯齿光波导和阵列光波导,锯齿光波导在应用中存在杂散光、
113、工艺难度大以及能量利用率低等问题,所以目前几何光波导以阵列光波导为主。表面浮雕光栅光波导虽然存在光损严重、彩虹效应等问题,但是相比其他光波导方案,生产工艺可控、良率更优,是目前光波导 AR 眼镜的首选光学方案。阵列光波导和体全息光波导具备轻薄、色彩均匀等特点,主要问题是生产工艺复杂、良率低,进而导致量产成本高。具体参见表 13。表13光波导方案对比24 25 26光波导类型光波导类型几何光波导几何光波导(阵列光波导)(阵列光波导)衍射光波导衍射光波导表面浮雕光栅表面浮雕光栅体全息光栅体全息光栅光 学 元 件 设光 学 元 件 设计计半透半反镜面阵列(多层镀膜玻璃/塑料镜片)表面浮雕光栅(SRD
114、)高折射率复合材料全体息光栅(VHG)或全息光学元件(液晶、光聚合物等)扩瞳技术扩瞳技术一维扩瞳/二维扩瞳二维扩瞳二维扩瞳光学效率光学效率一维扩瞳:10%-15%二维扩瞳:5%1%1%-3%优点优点设计原理简单,大部分工艺为成熟的冷加工工艺显示性能极佳无色散、光效高制备工艺简单、良率高可实现二维扩瞳可量产性较高透明度高、结构轻薄可实现二维扩瞳透明度高、结构轻薄成本较低缺点缺点制作工艺繁琐单片价格较高显示效果较差光学效率较低隐私泄露问题显示效果一般视场角小、光损耗大材料、制造工艺要求高量产程度量产程度小规模量产小规模量产尚未量产另外最新的碳化硅衍射光波导方案凭借高折射率和低损耗的高效光学显示、小
115、型和轻量38/75化以及高温稳定性和抗氧化性等一系列优势,可实现单片全彩无彩虹纹显示,代表着光波导技术的未来趋势,但同样存在生产工艺复杂、成本高的问题。值得一提的是,2024 年 Meta公司发布的 Orion 眼镜采用的就是碳化硅衍射光波导方案,原型样机在显示质量、镜片重量等指标上存在明显优势。裸眼3D显示指不需要穿戴辅助设备的情况下,通过裸眼即可获得立体视觉效果的系统。裸眼 3D 显示存在不同的技术方案:一种方案是利用双目视差原理,人眼同时或分时接收不同的图像信息,经过大脑处理将图像信息融合,从而创建出具有三维立体效果的影像。这种方案易产生辐辏冲突,引发观看者眩晕与不适感。另一种方案基于光
116、场 3D 显示技术,在空间中重新构建出三维物体的光场分布,实现与自然世界无限接近的立体显示效果。北京邮电大学研究团队提出了空间光场积分原理,通过反向光线追迹的方法积分获得高阶离轴非球面反射模组的光学表面分布,并在此基础上综合考虑光学重构过程中像差的分布特性,利用可以补偿波面变形的光学模组对光波阵面进行调制,完成携带 3D 信息的光场在自由空间中的自然重构和显示,实现了宽视角、大尺寸、无介质裸眼真 3D 动态显示。4.1.2 显示技术显示技术VR 头显显示屏的分辨率、响应速度、刷新率、亮度、对比度等指标直接影响用户体验。目前,主要的显示技术有 LCD、OLED、Mini-LED、Micro-LE
117、D、Micro-OLED 等。表 14.列举了不同显示技术的优缺点。表14显示技术优缺点对比显示技术显示技术优点优点缺点缺点LCD技术成熟、成本低、生产效率高、无烧屏问题需要背光源,能耗高,响应速度较慢,对比度较低OLED对比度高,响应速度快,自发光成本高,有机材料易老化,存在烧屏问题Mini-LED画质较好、分区调光、对比度高、高亮度、不易烧屏,寿命长、色彩更细腻散热要求高、成本高于 LCD、体积厚度较大Micro-LED亮度高、对比度高、分辨率高、响应速度快、功耗低、寿命长生产技术复杂,良品率低,成本高,量产困难,且可能存在像素化问题Micro-OLED轻薄、低功耗、发光效率高,响应速度快
118、,亮度和像素密度高技术成熟度相对较低,成本较高LCD 技术成熟,成本较低,但需要背光源,能耗高,且响应时间相对较慢,对比度相39/75对较差;OLED 能够自发光,其响应速度快,对比度高,但寿命较短,成本较高;Mini-LED和 Micro-LED 最直观的差异就是 LED 晶体的颗粒大小,以 100m 为界,Mini-LED 被视为LED 与 Micro-LED 之间的过渡技术。Micro-LED 具有响应速度快,亮度高,对比度高,寿命长等优点,但其生产技术复杂,良品率低,成本高,且可能存在像素化问题;Micro-OLED又称硅基 OLED,采用单晶硅晶圆作为背板,更轻薄短小、耗电量更低、发
119、光效率高,亮度和像素密度表现都很好,但生产成本高,目前主要用于VR中的高端产品,如Apple Vison Pro。目前主流 VR 头显多采用的 LCD 方案,针对其存在响应速度慢的问题,业内提出改良版的 Fast-LCD 方案,能够有效提升刷新率至 7590Hz,且具有较高的量产稳定性及良率,目前应用的设备有 PICO 4、奇遇 Dream Pro、大朋 VR E4 以及今年发布的 PICO 4 ultra 等。另外,为了解决背光层的漏光问题,将 Mini-LED 作为 Fast-LCD 的背光,提升了 Fast-LCD 在对比度、刷新率以及亮度等方面的性能,Meta Quest Pro 采用
120、了该套方案。但对于 VR 来说,Micro-OLED 具有高像素密度、高亮度、高分辨率、高填充系数、更高的效率和更长的寿命,未来可能成为显示技术的趋势。AR 眼镜的光学显示系统由光学元件和显示面板组成,其中显示面板有多种方案,以适配不同光损和结构的光学方案。常见的显示面板主要包括 LCD、LCoS、Micro-OLED 和Micro-LED,其中前两个需要外部光源,后两者是无机自发光。LCD 与 LCoS 技术相对成熟,但存在对比度低、能耗高等问题26。Micro-0LED 具有较好的技术成熟度与显示效果,是目前 AR 领域应用最为广泛的显示技术。Micro-LED 具有高亮度、高可靠性、以及
121、超低功耗、超紧凑外形的明显优势,原理上是最佳的显示技术方案,但由于在芯片、巨量转移、全彩化等方面仍存在技术挑战,距离实现规模量产仍有多项技术难度亟待解决。在搭配方案上,Micro-OLED+Birdbath 是当前较为成熟的技术组合,但仍存在低透光率和图像畸变等问题;Micro-LED+衍射光波导可有效解决视场角和体积的矛盾,但目前受限于技术问题,无法实现规模化量产。随着技术和良率的不断提升,Micro-LED+光波导方案将持续渗透。CAVE 是一种基于完全沉浸式的洞穴式可视协同环境,融合了虚拟现实显示系统、人机跟踪交互系统、多通道视景同步技术、三维空间整形校正算法和立体显示技术等。通过多通道
122、投影系统在封闭的沉浸式空间内创造出逼真的三维立体影像,实现高度逼真的虚拟环境,可以同时为多人提供沉浸式三维交互体验。CAVE 技术的核心在于高分辨率投影系统、多通道投影以及精确的投影映射。其中,高分辨率投影仪能够在沉浸式空间内展示出清晰、细腻的影像;多通道投影将影像投射到多个墙面,形成包围观众的立体画面,带来沉浸式的体验;40/75投影映射技术确保画面在不同墙面之间的衔接自然、连贯,同时与实际空间的比例和透视关系相符合,营造出逼真的虚拟环境。除此之外,美国拉斯维加斯耗资 23 亿美元打造的地标性建筑 MSG Sphere 是当今世界上最大的球形沉浸式体验中心。MSG Sphere 外立面覆盖
123、54,000 平方米可编程 LED 屏,也是目前世界上最大的 LED 屏幕。这些屏幕由 120 万个灯珠组成,每个灯珠能显示多达 2.56亿种颜色,可播放任何编程的 3D 影像。内部装有 15,793 平方米的环绕式 LED 屏幕,有超过 268 块显示屏,形成一个巨大的内球面屏幕,显示面积是 IMAX 的 40 多倍,分辨率为 16K,是目前全球最高分辨率的 LED 屏幕。并且,通过采用多台 8K 摄像机来捕获 360 度全景视频,从而达到在场馆内无需佩戴眼镜,就可以享受 VR 体验的效果。另外,MSG Sphere 还从听觉、触觉、嗅觉等多个方面为观众提供多模态的沉浸式虚拟现实体验。4.1
124、.3 交互技术交互技术PC 时代主要通过键盘、鼠标完成计算机输入;移动互联网时代交互模式被触摸屏重新定义。随着技术的进一步发展,下一代互联网智能化、3D 化的发展趋势越发明确,人机交互的方式会突破 2D 平面的限制转向空间计算,语音交互、手势识别、眼动追踪、以及脑机接口的多模态交互将发挥重要作用。手势识别手势识别可以通过非接触式传感器或接触式传感器实现。非接触式的手势识别首先通过摄像头进行图像采集,捕捉手部信息,之后可将手部动作映射为操作指令,通过特定手势动作调用相关指令与虚拟环境交互,以微软 HoloLens 为代表的 AR 眼镜采用这种手势识别式的交互方式。但映射的指令集不能满足如操作目标
125、对象等复杂交互需求,此时就需要对捕捉到的图像信息进一步处理。可以利用图形学技术将手部进行三维重建,提取如指尖位置、手型、运动轨迹等关键手部特征,进而通过模式识别实现复杂手势交互,苹果、Meta、PICO推出的具有手势识别功能的 VR 头盔主要采用这种操作式的手势交互技术。另外现代手势识别技术常使用机器学习算法来提高识别的准确率和效率,北京理工大学团队在手部重建与手势识别上也有深入的研究。接触式的手势识别需要用户佩戴指环、腕带或数据手套。技术方案上,主要有视觉追踪、惯性追踪、弯曲传感器追踪、磁性追踪等。数据手套可采用多种传感技术,还可集成触觉反馈、温度模拟等功能,具有较高的追踪精度,但舒适性较低
126、且成本较高;腕带、指环等轻小的可穿戴设备集成度高,但精度相对较低。此类设备一般配置按键、触摸屏等装置实现更多交互功能。41/75眼动追踪眼动追踪通过捕捉和分析眼球运动数据来研究个体的视觉注意、认知过程和行为,具有实现注视点渲染、瞳距自调节、虹膜解锁等功能,广泛应用于人机交互、心理学、用户体验设计和认知科学。目前主流眼动跟踪技术方案有四种:直接图像处理方案、瞳孔角膜反射法(PCCR)、事件相机方法(DVS)、微电机系统(MEMS)。其中直接图像处理方案结构简单、成本低,但设备滑动影响眼动精度;DVS 方法具有高时间分辨率、高动态范围、低功耗的优势,但噪声大,尚未有成熟的商业落地;MEMS 方法具
127、有刷新率高、体积小、功耗低的优点,但同样存在设备滑动影响眼动精度的问题;PCCR 是目前的主流方案,具有精度高、非接触、无创等优点,广泛用于现代的眼动追踪设备中。北京航空航天大学研究团队在眼动追踪方面有着多年的研究积累。语音交互语音交互以声音信号作为输入和输出媒介,实现人与计算机之间的交互,从而完成信息的传递和任务的执行,是智能时代人机交互的关键入口。其核心技术包括语音识别、自然语言处理以及语音合成等。语音识别将人类的语言中的词汇内容转换为计算机可读的输入,该过程中首先需要建立声学模型和语言模型,通过对声学信号的编码和解码实现实时语音识别;自然语言处理是语音交互的核心,涉及的技术包括文本预处理
128、、词法分析、句法分析、语义理解、分词、文本分类、文本相似度处理、情感倾向分析、文本生成等等;语音合成是把文本转化成语音的过程,涉及的技术包括文本正则、文本结构分析、文本转音素以及韵律预测等。脑机接口脑机接口。作为变革性的人机交互技术,脑机接口技术可以使大脑与外部设备建立全新的通信与控制通道,并捕捉大脑信号并将其转换为电信号,实现信息的传输和控制,在医疗、教育、沉浸式娱乐领域展现了巨大的应用潜力。根据脑电信号获取的方式,脑机接口主要可分为侵入式、非侵入式和半侵入式三种形式。侵入式脑机接口将芯片直接贴在大脑皮层上,接收的信号精度高,目前主要用于医学临床使用;非侵入式脑机接口的电极在可穿戴的帽子上,
129、风险小,操作相对简便,但信号强度弱,精度低,多用于改善心理疾病、睡眠或监测疲劳驾驶等。半侵入式脑机接口将电极置于颅骨内、硬脑膜外,距离神经元更近,但不直接接触神经元细胞。其优势在于没有神经细胞损伤的风险,且可获得较高信号强度和分辨率。脑机接口产业目前的发展仍在初期阶段,一是数以亿计的神经元信号采集存在精度和广度问题,二是神经系统的运作机制极为复杂,脑电信号的解析难度巨大。但脑机接口作为促进国防、医疗、教育等诸多领域未来产业发展的关键核心技术,将成为未来全球竞逐的产业新赛道。42/754.2 媒体处理技术媒体处理技术内容是沉浸式通信的核心,内容的采集,处理和呈现贯穿沉浸式通信产业链。沉浸式内容通
130、过创造一种全新的叙事空间,使用户在视觉、听觉、嗅觉、味觉或触觉上达到与周边环境心理上的“隔绝”,从而提供一种全新的感受。这种体验可以降低理解成本,通过技术手段还原感官“在场”,将抽象概念和静态图表以直观、动态的数字内容完整模拟再现,使得用户能够通过“亲身体验”更好地理解科学原理和现象。本节重点介绍沉浸式内容采集,视频投影和渲染技术。4.2.1 内容采集内容采集内容采集是构建丰富 XR 体验的基础,XR 内容采集主要包括全景视频、3D 全息视频、三维音频、动作姿势的捕捉、感官信息等的采集和处理。1)全景拍摄:全景(Panoramic)是一种使用相机环绕四周进行 360 度拍摄,将拍摄到的照片拼接
131、成一个全方位、全角度的图像。这些图像可以在计算机或互联网上进行浏览或展示。三维全景(Three dimensional panorama)是使用全景图像表现三维虚拟环境的虚拟现实技术,也称虚拟现实全景。全景拍摄技术通过特殊的拍摄方法和设备,将一个场景的整体视觉信息捕捉到一张图片或视频中。全景拍摄技术的原理是将多张图片或视频拼接在一起,形成一幅具有更大视角和更多细节的全景图像或视频。全景拍摄可以通过全景拼接方法实现,即在拍摄过程中将多张图片或视频拼接在一起;或通过全景摄影方法,即使用特殊的全景相机或设备进行拍摄。专业的全景相机设备能够捕捉水平 360 度和垂直 360 度的图像,用于创建全景视频
132、或照片。2)三维扫描:三维扫描技术用于捕捉现实世界中的物体或场景,并将其转换为数字三维模型。这涉及到使用三维扫描仪和相关的扫描流程。三维扫描技术主要应用于逆向工程、实物扫描建立CAD 数据、不能使用三维 CAD 数据的部件数据建立、竞争对手产品与自己产品的确认与比较、使用由 RP 创建的真实模型建立和完善产品设计、检测 CAT/CAE、生产线质量控制和产品元件的形状检测、文物的录入和电子展示、牙齿及畸齿矫正、整容及上颌面43/75手术等。三维扫描技术包括拍照式、关节臂式、三坐标(固定式)和激光跟踪式等类型,每种类型都有其特定的扫描范围和精度。拍照式三维扫描仪是一种高速高精度的三维扫描测量设备,
133、采用结构光非接触照相测量原理。通过投影特定编码的结构光到待测物体上,并利用两个摄像头同步采集图像,然后对图像进行解码和相位计算,解算出像素点的三维坐标。这种扫描仪的优点包括扫描范围大、速度快,精细度高,扫描的点云杂点少,系统内置标志点自动拼接并自动删除重复数据,操作简单,价格较低。关节臂式三维扫描仪的扫描范围可达 4 米,精度最高可达 0.016mm。它的优点是精度较高,测量范围理论上可达到无限。关节臂式扫描仪符合人体工程学设计,轻便且易于操作,可以直接放在机床边进行高精度测量,大幅降低使用成本。三坐标(固定式)三维扫描仪的扫描范围为指定型号的工作台面,扫描精度最高可达 0.9um。它的优点是
134、精度较高,适合测量大尺寸物体,如整车框架。缺点是扫描速度慢,需要花费较长时间。激光跟踪式三维扫描仪的扫描范围可达 70 米,扫描精度可达 0.003mm。它的优点是精度较高,测量范围大,可对如建筑物这类的大型物体进行测量,价格较高。3)动作姿势捕捉:动作姿势捕捉技术用于捕捉、分析和模拟人或物体运动。它通过使用传感器、计算机视觉算法和运动模型,可以准确地捕捉人或物体各部位的运动和姿态,并将其转化为数字化的三维数据。动作姿势捕捉技术捕捉人或物体的实时动作,并将这些动作数据应用到虚拟角色或对象上,以实现更加自然和真实的动画效果。这包括动作捕捉外设和相关的动作捕捉流程。动作信息(力、扭矩、位置、方向)
135、的获取与再现目前主要是利用力反馈设备。力反馈设备包括传感器和由直流电动机控制的执行器。身体姿势追踪技术可以分为基于传感器的姿势追踪技术和基于计算机视觉的姿势追踪技术。基于传感器的姿势追踪技术利用惯性测量单元(IMU)、深度摄像头、心率传感器等传感器来采集用户的身体动作数据。通过数据处理和姿势解算实现姿势追踪。基于计算机视觉的姿势追踪技术依赖于图像处理技术和深度学习算法,通过对图像或视频数据进行特征提取、姿势估计和运动跟踪等处理步骤,来实现对用户身体姿势的追踪。44/75图4动作姿势捕捉身体姿势追踪技术在电影制作、游戏开发、运动分析、人机交互等领域有广泛的应用。4)三维声场麦克风:三维声场麦克风
136、用于捕捉空间音频,为用户提供更加沉浸式的听觉体验,增强 XR 内容的真实感。三维声场麦克风技术,特别是 Ambisonics 技术,是一种用于录制、混合和播放三维 360 度音频的方法 Ambisonics 能提供沉浸式的声音体验,广泛应用于 VR 和 360视频。在音频编解码(4.3.2 节)中对三维声场麦克风技术进行了描述。内容采集是沉浸式体验的基础,高效高精度内容采集使得 XR 内容的创作和呈现变得更加丰富和真实。4.2.2 视频投影视频投影视觉信息在感官信息中的占比约为 80%,作为感官信息中占比最大的部分,是沉浸感的主要来源。3DoF 视频和 6DoF 视频是电气电子工程师学会(In
137、stitute of Electrical andElectronics Engineers,IEEE)制定的沉浸式视觉内容标准,分别为支持用户 3 维度自由运动(Degrees of Freedom,DoF)和 6 维度自由运动。3DoF 视频也称为全景视频(panoramic video)、360视频或全向视频(omnidirectional video),是以一个球心为观察点,记录 3 维空间在各个方向上投影所得到的 3 维球面视频,见图 3(a)所示,3DoF 视频支持用户获得 3 个空间旋转自由度,即偏航(yaw)、翻滚(roll)和俯仰(pitch)。相比仅支持用户头部转动的 3D
138、oF 视频,6DoF 视频在旋转自由度的基础上增加了平移自由度,用户不仅可以旋转视角,还可以在空间中前后、左右、上下移动,实现更真实的沉浸体验,因此,6DoF 沉浸式视频也可称45/75为自由视点视频(Free-View Video,FVV),见图 3(b)所示。(a)3DoF(b)6DoF图5 3DoF和6DoF示意图103DoF 投影模型投影是三维球面像素到二维平面像素的映射,从球面到平面的投影会带来冗余像素、形状失真和不连续边界等问题,进而造成编码效率的下降,因此,选择合适的投影模型十分重要。文献6对当前的主流 3DoF 投影模型进行了总结,将投影模型分为基于地图的投影、基于图块分割的投
139、影、基于多面体的投影方式。1)基于地图的投影(EquiRectangular Projection,ERP)基于地图的投影是一种将球面均匀映射到平面上的投影方法。它将球面上的经线映射为等间距的垂直线,纬线映射为等间距的水平线,是一种基于地图的线性投影变换,如图 6 所示。图6 ERP格式投影示意图6基于地图的投影将球面像素点的经纬度坐标系映射到二维平面的直角坐标系。其中球面上的像素点位置用球面经纬度坐标系(,)表示,二维视频像素位置用平面直角坐标系(u,v)表示。基于地图的投影投影过程简单,易于生成,帧内画面的连续性好,且赤道区域的画面没有畸变或畸变程度很小,便于直接播放和编辑,是虚拟现实视频
140、映射中最常用的方法之一。但由于平面内的均匀采样会使球面采样密度沿着经线向两极逐渐增大,使画面沿纬线在46/75平面被水平拉伸,并且随着纬度增加这种问题越来越严重,在极点附近区域出现严重的几何拉伸畸变。一种改善拉伸畸变的方式是进行非线性映射,如柱状等面积投影(Equal-Areacylindrical Projection,EAP)通过加入拉伸因子使平面上纬线非等间距分布,这样相同纬度差的区域在球面上覆盖相等面积,改善了 ERP 在极点附近采样密度过大的问题。调整后的柱状等面积投影(Adjusted Equalarea Projection,AEP)则进一步改进了 EAP,加入采样率修正参数使极
141、点区域的收缩程度变小,改善了极点采样率为 0 的问题。基于地图的投影映射过程简单,画面连续性好。2)基于图块(tile)分割的投影基于图块分割的投影方法涉及将球体分割成不同的区域,不同的区域采用不同的投影参数或模型将投影平面依据纬度划分为不同的图块,并调整每块图块的球面采样率,纬度越高的图块对应的采样率越低,以改善 ERP 格式极点区域画面畸变问题。这种方法可以提高压缩感知算法的效率,尤其是在图像采样和重构方面。通过在空间域对每个分割块使用平滑滤波器进行平滑投影,并在稀疏域进行稀疏变换和阈值处理,可以改善块效应。此外,这种方法通过自适应采样克服了子块内稀疏性能受限于相同采样率的问题。基于图块分
142、割的方式,相比 ERP 格式减少了 34%的像素浪费,有助于提高编码效率。基于图块分割的投影方案不仅可以缓解过采样带来的像素浪费问题,而且有利于在视频流传输场景中实施针对不同区域和内容的图块差别化编码,从而在有限的传输带宽条件下提升用户的视觉质量。3)基于多面体的投影基于多面体的投影方法将球面上的特定部分映射到平面上。立方体映射投影(CubeMap Projection,CMP)将球面投影到球外接立方体上,再将立方体展开成 6 个表面并重新排列成紧凑形式得到投影平面。这种方法是全景成像的基本投影策略,可以用于提高图像识别的准确性。多面体投影方法可以减少全景图像中物体识别的困难,因为它们提供了更
143、接近自然视角的投影结果。相比基于地图的投影,CMP 适用于局部视角的渲染,因此常应用于 VR 游戏中。CMP中每个面内的画面畸变小,有利于进行面内运动估计和补偿。CMP 模型的主要缺点是压缩性能低,相比原始球面,CMP 的过采样率高达 190%,相比 ERP 提升了 33%,这源于面内采样率不均匀,面内采样率从面中心到顶角逐渐增大。为了改善 CMP 模型的过采样问题,考虑采用更多面的外接多面体来逼近理想采样率。47/75例如 6 面体,8 面体,20 面体和截断的金字塔等投影模式,如图 7 所示。投影面的增加虽然降低了采样率,但也导致人工接缝的增加,降低了画面连续性,影响跨投影面的运动估计和运
144、动补偿,导致编码效率下降。图7基于多面体的投影15针对多面投影问题的主要解决方案是引入非线性映射来调整采样率。投影模型的改进目标一方面是降低过采样率,减少比特开销,提高编码效率;另一方面是减轻画面几何畸变对传统预测模型性能的影响。主要的增强方式包括对现有的投影方案的优化,以减少计算负担,提高处理速度,同时保持或提高视频质量。以及对新的投影方法的探索,以改善全景视频的投影效果。4.2.3 渲染渲染渲染(Rendering)是计算机图形学中的一个过程,它涉及将三维模型、场景或动画转换成二维图像或视频序列,以便在屏幕上显示或进行后期处理。这个过程包括计算视角、光照、阴影、纹理和其他视觉特效,以生成逼
145、真的图像。渲染可分为基于模型的渲染(Model-Based Rendering,MBR)、基于图像的渲染(Image-Based Rendering,IBR)和基于神经网络的渲染(Neural-Based Rendering,NBR)。1)基于模型的渲染基于模型的渲染是计算机图形学中最经典的渲染方法。先对场景进行三维建模,并赋予三维模型正确物理材质属性(包括几何形状、纹理、光照和材质等属性的定义),再通过渲染器渲染生成目标视点,渲染的图像质量主要取决于模型的物理正确性。其中,三维建模(3D Modeling)是一种利用计算机软件进行三维模型创建的技术。它涉及将现实世界中的物体或场景通过计算机软
146、件建立成三维模型的过程。三维建模将三维场48/75景表述为某种数据结构的集合,常见的数据结构包括网格(mesh)、体素(voxel)和点云等。网格,是由顶点(vertices)、边(edges)和面(faces)组成的几何结构,通常用于表示多边形表面,能够精确地表示复杂的几何形状和曲面,网格模型可以包含纹理、法线和颜色等附加信息,以增强视觉效果,最常用的是三角形网格。体素,是体积像素(volume pixel)的简称,体素模型由体素数组组成,每个体素代表一个小的立方体,是三维的网格单元,用于构建体积数据。体素模型能够表示实体物体的内部结构和体积信息,与平面像素类似,体素表示规则间隔的三维网格上
147、的样本点。点云是由一组在三维空间中的点组成的集合,每个点包含位置信息,可能还包括颜色和法线信息。点云能够捕捉物体的表面特征,适用于从现实世界中扫描和重建三维模型。点云数据灵活,易于获取和处理,但不如网格和体素那样结构化。点云是一种非结构化的离散数据,本身不包含几何和拓扑信息,在三维建模时通常被转换为网格或体素等结构化组织形式。场景建模后,渲染器将摄像机内外参数、场景的光照情况和模型材料表面的物理属性等场景参数转换为目标虚拟摄像机视点,常用的渲染方法有光栅化(rasterization)和光线追踪法(ray tracing)。光栅化渲染是目前大多数游戏和可视化工具使用的渲染方法。它的核心在于将三
148、维物体或场景转换成二维图像的过程,通过投影将三维物体显示在屏幕上的一个个发光点上。光栅化的关键在于投影,它涉及将三维几何数据转换为二维像素数据。这种方法以对象为中心,首先迭代场景中的所有三角形,然后确定哪些像素被这些三角形覆盖。光线追踪是一种基于物理的渲染技术,它通过追踪从眼睛发出的光线路径来创建图像,从而生成逼真的阴影、反射和折射效果。光线追踪方法以图像为中心,首先迭代图像中的所有像素,然后追踪穿过每个像素的光线,并确定这些光线是否与场景中的任何几何体相交。光栅化渲染速度更快,适合实时渲染,因为它将场景划分为 2D 图像,然后由 GPU进行处理。光栅化渲染只能处理直接光照,不能很好地去表示软
149、阴影(Soft Shadow)、光泽反射(Glossy Reflection)和间接照明(Indirect Illumination)等全局光照效果。而光线追踪能较好地处理全局光照,提高渲染质量,但目前还不能完全替代光栅化技术。因为光线追踪技术的计算非常慢,自诞生以来更多被用来做离线渲染,比如三维动画、电影特效等等。直到近几年随着 NVIDIA 的 RTX 系列显卡的不断迭代,硬件光线追踪技术和游戏引擎功能的进步,现在的 3A 级游戏才慢慢支持了实时光线追踪技术(Real-TimeRay-Tracing)。49/75基于模型的渲染方法复杂度较高,但是能够获得更好的细节信息,尤其是在复杂场景中,
150、MBR 可以提供更丰富的细节表现,实现任意精度的高质量渲染,常用于计算机生成内容(Computer-Generated content,CG)、电影特效等领域。2)基于图像的渲染基于图像的渲染是一种不依赖于传统几何模型的渲染技术。它通过使用多个视角拍摄的 2D 图像数据来重建或合成三维场景或物体的渲染效果。IBR 的优势在于减少对复杂几何建模的依赖,提供高效的实时渲染,并生成逼真的视觉效果。IBR 技术的核心在于使用真实拍摄的图像来进行渲染,使得生成的效果比完全依赖于 3D 模型渲染的图像更加逼真。基于图像的渲染技术根据对几何信息的需求程度可以分成 3 类:无几何渲染,隐式几何渲染和显式几何渲
151、染。无几何渲染是指不依赖于明确的几何形状信息进行的渲染。这种技术通常依赖于图像或数据驱动的方法,如基于深度学习的渲染技术,它们可以从大量的图像数据中学习场景的表示,而无需显式的几何模型。无几何渲染的核心工作是如何从离散样本中构造光场函数,以及对光场函数进行采样以得到目标视点。隐式几何渲染是一种通过数学函数或方程来描述几何形状的渲染方法。在隐式几何中,空间中的每一点都有一个值,表示该点到最近表面的距离,这个距离可以是正的(如果点在形状的外部),也可以是负的(如果点在形状的内部)。隐式几何渲染的优势在于高效的几何操作、复杂形状的表示以及支持动态变化。隐式几何特别适合描述复杂或有机形状,如流体、云雾
152、和生物组织,并且可以支持实时更新和变形。显式几何渲染是传统的三维建模和渲染方法,它依赖于明确的几何形状信息,如点、线、面和体素等。显式几何通过直接定义物体的几何结构来进行渲染,这包括多边形网格、NURBS 曲面、细分曲面等。显式几何的优点在于直观和精确,但可能需要复杂的建模过程和较高的计算成本。显式几何渲染方法需要精确的场景几何信息,如三维坐标、深度信息等。基于图像的渲染无需场景的预设信息,渲染复杂度较低,但是渲染质量往往受限,常用于沉浸式视频等领域。3)基于神经网络的渲染基于神经网络的渲染是一种新兴技术,它结合了深度学习与传统计算机图形学渲染50/75方法,以生成高质量的图像或视频。神经渲染
153、利用神经网络学习复杂的几何形状、材质属性和光照信息,从而生成高质量的图像或视频。与传统基于物理的渲染方法相比,神经渲染能够更好地处理复杂的光照效果、材质和几何形状,同时具有更高的渲染效率。早期基于神经网络渲染方法主要用基于学习生成的神经网络代替人工设计的启发式算法。例如深度渲染通过神经网络来预测投影源图像的混合权重,代替传统 IBR 方法中人工设计的权重混合算法,相比经典 IBR 方法减少了伪影,提高了渲染质量。近期,基于神经网络的渲染主要集中在神经辐射场(NeRF),隐式神经表示和神经纹理这三种方法的研究。神经辐射场是一种完全基于神经元进行场景建模和渲染的方式。神经辐射场使用多层感知器(ML
154、P)来学习三维空间中场景密度和辐射强度分布,基于光线投射和体积积分的渲染方式实现了任意角度的高精度渲染。通过优化 MLP 的参数,神经辐射场可以学习到复杂场景的几何和外观信息,实现高质量的新视角合成,以相对简单的方法提供高质量渲染效果,是神经渲染领域最具影响力的方法之一。隐式神经表示方法使用神经网络来表示连续的 3D 形状或场景,而不是传统的离散表示(如网格或体素)。隐式神经表示具有无限分辨率、内存效率高等优点,特别适合表示复杂的几何形状和纹理。神经纹理是一种将深度学习与传统纹理映射相结合的方法。它使用神经网络来学习和存储物体表面的外观信息,实现高质量的纹理渲染和编辑。基于神经网络的渲染技术正
155、在改变计算机图形学和计算机视觉的多个领域,包括新视图合成、新光照条件下的重光照、脸部或身体动画、新姿态合成等。随着技术的进一部发展,有望在渲染复杂度和画面质量等方面达到综合增益,能够在增强现实、虚拟游戏、电影动画等各类图形渲染实践中得到广泛应用。4.3 编解码技术编解码技术超高清音视频技术为用户提供了平面方向的视听体验,但为了提升用户的沉浸感,需要将视听内容扩展至立体空间,并在互动过程中尽可能提供多维度的感知体验,如触觉、嗅觉等。沉浸式多媒体编解码技术是实现这一目标的核心技术之一,尤其在沉浸式多媒体传输过程中,通过高效的编码方案可以显著降低数据对存储空间和带宽的需求,将沉浸式内容转化为适合网络
156、传输的格式。本章节将重点讨论在三维立体空间中的沉浸式音视频编解码技术,并探讨与触觉相关的编码技术。51/754.3.1 视频编解码视频编解码在沉浸式视频系统中,三维视频内容的编码是将复杂的三维场景信息转化为适合传输和存储的数字格式的关键过程。为了应对三维视频内容捕获、终端呈现和业务需求的特性,编解码技术也需要相应的技术改进。与传统二维视频编码不同,三维视频不仅涉及空间维度的扩展,还需要考虑如何处理视角、深度信息和三维显示设备的兼容性。不同的三维视频需要相应的编解码方案来实现最大化压缩效率并优化数据传输,如图 8 所示,针对传统的平面视频,有 MPEG 标准组织制定的系列标准,ITU-T 与 M
157、PEG 标准组织联合制定的 H.26x 系列标准,谷歌制定的 VPx 系列标准,以及国内标准组织制定的 AVS 系列标准,这些标准组织也针对多视点视频、全景立体视频、体积视频等制定了相应的编解码标准。随着沉浸式视频应用的多样化,编解码技术的持续创新将为提供更加流畅、真实的沉浸体验打下坚实的基础。图8主流视频编解码标准组织与标准方案1)传统平面视频编码技术二维平面视频编解码技术经过多年的发展,已经相对成熟。从 1980 年代国际标准组织ITU 发布 H.261 标准开始,编解码技术经历了多次更新和迭代,现已能够满足 8K 视频编解码的需求。传统的视频编解码技术大多采用混合编码框架,如图 9 所示
158、,主要包括预测、变换量化、滤波和熵编码等几个核心模块。通过这些技术,能够有效消除视频序列在时间和空间上的冗余,从而实现视频数据的高效压缩。编码过程将视频数据转化为二进制码流,便于在网络中进行传输和存储。在编码过程中,首先通过预测阶段,利用视频帧间的相似性来减少冗余信息,这一阶段通常包括帧间预测和帧内预测。接着,变换量化技术将视频数据转化为频域表示,并通过量化过程进一步降低数据精度,以减少数据量。然后,滤波阶段对视频信号进行去噪处理,改善视觉效果,尤其是在高压缩比下保持图像质量。最后,熵编码对经过上述处理后的数据进行编码,通过哈夫曼编码、算术编码等技术实现数据的高效存储和传输。52/75随着视频
159、分辨率的不断提升,尤其是进入 4K 和 8K 时代,传统的视频编解码技术仍然能够有效支持高质量的视频传输,但随着对实时性和带宽需求的增加,新的编解码技术(如HEVC、AV1 等)逐渐取而代之,提供更高的压缩效率和更低的延迟,以适应大流量视频内容的需求。图9通用混合编码框架2)多视点视频编码技术多视点视频由多个相机视角组成,通常包括多个相近或分布式的视角,为用户提供更广泛的深度感和视野,从而提升用户沉浸式体验。其中,每个视角都是独立的图像,并且这些图像可以被用于 3D 重建或不同视角的实时显示。多视点视频对存储空间和带宽的需求随视点的增加而增加,相较于传统二维视频,多视点视频除了空间序列和时间序
160、列上的冗余,缓存在视点图像之间的空间冗余,因此编码技术上也存在差异。为了高效编解码多视点视频,2012 年 7 月 ISO/IEC MPEG 与 ITU-T 视频编码专家组VCEG 成立了 3 维视频编码扩展开发联合协作小组(Joint Collaborative Team on 3D Videocoding extension development,JCT-3V),基于 H.264/AVC 与 H.265/HEVC 开发 3D 视频编码标准,扩展并制定了 MVC(Multi-view Video Coding)、3D-AVC、MV-HEVC(Multiview HEVC)和 3D-HEVC
161、 标准16。3D-HEVC 将同一视点(view)下的纹理图或深度图划分为不同的层(layer),并将相同时间点的图像划分为一个访问单元(Access Unit,AU)。每个 AU 中的第一个图像层作为基础层,后续的图像层作为增强层。基础层在编码时使用标准的 HEVC 编码器进行独立编码,而增强层(非基础层)需要参考已编码的基础层信息进行编码。因此,编码顺序遵循从第 0层到第 n 层的顺序,并且每个 AU 内的编码顺序是统一的。3D-HEVC 主要依赖于图像内预53/75测、层间预测和 AU 间预测来消除视频数据的冗余。与普通二维视频的帧内预测和帧间预测相比,3D-HEVC 的预测方式更加多样
162、和复杂,因此它引入了许多新的编码技术来提升编码效率。例如,为了减少相邻视点之间纹理信息的冗余,3D-HEVC 引入了相邻块视差矢量(Neighboring Block Disparity Vector,NBDV)。此外,它还将运动估计从传统的帧间扩展到视点间的视点间运动估计;通过基于深度图块分割技术(Depth-Based Block Partitioning,DBBP)来优化深度图的编码性能;并针对深度图的特性提出了深度建模模式(DepthModeling Modes,DMM)等创新技术,进一步提升了编码效率。MPEG 标准组织提出新的编码标准 MIV(mpeg immersive vide
163、o)主要以多视点加深度图(mvd)作为信号源,通过基于视点渲染的方式压缩多视点间的冗余,得到多视点数据的紧凑表示形式图集(atlas),图集再通过传统视频编解码压缩时空冗余得到二进制码流。3)全景立体视频编解码全景视频的呈现方式是 360 度的球面视频,全景视频的捕获与编码流程如图 10 所示,由于现有的编码和存储技术不支持对球面视频直接处理,因此,全景视频内容需要通过投影技术映射到二维平面,然后利用二维平面视频编码器进行编码。全景立体视频编码技术中关键技术是投影模型。图10全景立体视频传输等距柱状投影(ERP)是一种将球面全景图像映射到二维平面的投影方法,它通过经纬度坐标系统来实现。在 ER
164、P 中,球面上的每一点根据其经度()和纬度()被映射到二维平面上的点。具体来说,经度表示从正北方向开始顺时针测量的角度,范围通常是 0至360;纬度表示从赤道开始的垂直角度,范围是-90至 90。ERP 保持了水平方向的比例,即在东西方向上,图像的宽度与视场角成正比,但在垂直方向上,由于球面的几何特性,图像的高度会被拉伸,导致靠近两极的图像区域出现畸变。这种投影方式在制作和展示全景图像时非常流行,因为它简单直观,易于实现,但缺点是图像的顶部和底部区域会因为拉伸而失真,且随着视角的移动,用户可能会看到不均匀的像素密度,影响视觉体验。54/75MPEG 标准组织制定了沉浸式媒体的相关技术标准,包括
165、全向媒体格式(OmnidirectionalMedia Format,OMAF)标准;ITU-T 与 ISO/IEC 联合成立的联合视频专家组(Joint VideoExperts Team,JVET)开发了 360Lib 软件平台,支持 ERP、EAP、CMP、ISP 等 14 种投影格式,并支持不同格式之间的相互转换功能。基于全景视频通常包含大范围的视角和大量的空间信息特性,在传统编解码技术的扩展基础上,也有进一步优化的研究,如视点自适应编码(Viewport-adaptive Coding)根据用户的观看视角来动态调整视频的编码方式,对于用户视线外的区域,采用较低的码率和分辨率编码;基于
166、区域的编码(Region-based Coding,ROI)技术根据不同区域的内容重要性来分配不同的比特率,以减少编码复杂度。4)体积视频编解码相较于全景立体视频,体积视频支持用户 360 度观看立体内容,并支持用户进行水平方向前后、左右、上下的平移,以及垂直方向的旋转。体积视频通常由一系列含有深度信息的帧组成,常用的表现形式为点云、光场、网格等。点云点云是当前体积视频使用广泛的数据格式之一,是一系列高维无序点的集合,集合中的点包含坐标、颜色、深度等信息,点云数据通常包含几十万至数千万空间域的点,在不经压缩的情况下,1080P 分辨率 30 帧/秒的点云视频 1 秒需要的带宽为 11Gbps,
167、给存储空间容量和网络传输带来了挑战,因此需要开发针对点云数据的编解码技术。MPEG 发布了针对沉浸式视频的系列标准,其中包括基于几何的点云压缩 G-PCC(Geometry-based PointCloud Compression)标准和基于视频的点云压缩 V-PCC(Video-basedPoint Cloud Compression)标准。G-PCC 利用对点云几何特征(如坐标和法向量)的编码,采用几何预测和空间划分等方法进行多级压缩,主要用于数字化城市建模、三维物体扫描及其他需要高精度几何数据的应用场景。这些技术的引入,不仅提高了编码效率,而且在点云数据的传输和重建中降低了延迟。V-PC
168、C 的主要思想是将三维点云投影到二维图像或视频,然后利用现有的视频编解码技术进行压缩,编码流程可以描述为:将原始 3D 点云数据通过补丁生成和打包模块转换为2D 视频帧中的补丁序列,接着生成几何图像和属性图像,这些图像随后通过 2D 视频编码器进行编码,得到占用比特流、几何比特流和属性比特流,最后通过多路复用器将这些比特流以及辅助信息和参数集打包成最终的 V-PCC 比特流,供传输或存储使用。V-PCC 广泛应用于需要传输大规模三维数据的虚拟现实应用中,例如,实时的虚拟环境渲染和交互场景的55/75传输。G-PCC 和 V-PCC 都是基于传统思想框架,主要通过预测编码,变换量化和熵编码模块来
169、完成压缩和数字表达的转换,这种编码方式并没有充分考虑到点云数据的结构,可能存在重复的局部结构、形状特征明显的物体类别等冗余,依旧有一定的压缩空间。随着深度学习技术在视频压缩方面的应用进展,基于深度学习的编码技术可以成为点云编解码的潜力工具。如 JPEG 标准组织发布的基于卷积神经网络(convolutional neural networks,CNN)已广泛用于特征提取、目标检测、图像编码等,文献17 提出 CNN 与自动编码器结合的压缩方法,能有效利用相邻点之间的冗余,并表示出对数据编码的适应性。为了提高隐含向量编码的压缩比,文献17 提出基于变分编码器(variational auto-e
170、ncoder,VAE)的点云压缩方法,通过学习隐含向量的超先验,使得熵模型的编码概率与隐含向量的边缘概率更加吻合,从而减少算术编码的内存消耗。文献18 提出了基于深度学习网络的点云属性方法,首先,将点云属性映射到一个折叠的二维流形空间;然后,利用传统的熵编码算法进行压缩;最后,利用神经网络解码器恢复三维点云。JPEG 组织自 2015 年开启 Pleno 项目19,旨在为 plenoptic(全光场)成像方式设计一个标准框架,用于表示和交换全光场成像方式的数据。全光场成像方式包括光场、点云(PC)和网格等,它们尝试近似于 plenoptic 函数,以提供 3D 视觉表示。JPEG Pleno
171、PCC 标准处理点云的几何和颜色属性,通过两个依赖的管道顺序编码:首先独立编码几何数据,然后根据已解码的几何数据编码颜色数据,其中几何数据处理直接在其原始的 3D 形式中进行,使用 3D 卷积神经网络和稀疏卷积。这种设计允许组件可扩展性,即只解码几何数据或同时解码几何和颜色数据。4.3.2 音频编解码音频编解码为了获得更好的沉浸感,不仅是视觉上允许用户全角度观看三维立体目标,在听觉上,也满足用户至少接收前、后、左、右、上五个方向的音频,感受到声场的水平纵深和垂直高度。沉浸式声音主要通过三维声技术实现,分为三大类:基于声道的音频(Channel-BasedAudio,CBA)、基于对象的音频(O
172、bject-Based Audio,OBA)和基于场景的音频(Scene-BasedAudio,SBA)。(1)基于声道的音频技术 CBA基于声道的音频技术(CBA)通过增加声道数量的方式来补充空间中的声音信息,提升沉浸效果,常见的是 5.1 和 7.1,如图 11 所示,5.1 音频由固定的声道位置,左前(Front-L,56/75FL)、右前(Front-R,FR)、左后(Surround-L,SL)、右后(Surround-R,SR),以及一个中置声道(C)构成,7.1 则是在 5.1 的基础上再增加两个背后的声道位置,即图中的 SBL和 SBR。CBA 是通过增加声道数量来增强声音的空
173、间感,需要在特定的位置才能听到最佳的声音效果,在灵活性和适应性方面存在局限性,但是在特定应用场景下仍然是一种有效的沉浸式音频解决方案。图11声道(7.1)音箱布置示意图(2)基于对象的音频技术 OBA基于对象的音频技术是一种先进的声音处理和呈现方式,通过将独立的音频元素(即音频对象)与其位置、运动轨迹、音量变化等动态元数据相结合,创建高度个性化和沉浸式的听觉体验。在技术实现上,基于对象的音频通常依赖于音频对象元数据(如位置坐标、动态变化和渲染优先级)的实时解码和渲染。此过程结合了空间音频处理技术,如头相关传递函数(HRTF)和房间声学建模,以模拟声音的自然传播。由于每个音频对象都是独立的,用户
174、可以根据实际硬件配置(例如耳机、多扬声器阵列)或个人偏好动态调整声音的属性,从而实现硬件无关性和个性化体验。其典型应用是杜比全景声(Dolby Atmos)。尽管具有显著优势,基于对象的音频技术也面临一些挑战。例如,多音频对象的实时处理和渲染需要强大的计算能力,同时还需优化元数据的传输效率,以降低延迟并节约带宽。此外,如何实现与头部追踪和动态场景的精准同步,也是该技术进一步发展的重要方向。总体而言,基于对象的音频技术为沉浸式音频体验设定了新标准,正在推动通信、娱乐和交互技术的创新发展。57/75(3)基于场景的音频技术 SBA基于场景的音频技术是一种通过完整捕获或合成声场信息来重现真实空间音效
175、的声音处理方法,其核心的底层技术是 Ambisonics。Ambisonics 是一种基于数学模型的声场表示方法,通过捕获或生成不同阶数的球谐分量,实现声音方向、距离及环境反射的精确描述,如通过麦克风阵列来完成内容捕获。与传统通道音频技术不同,Ambisonics 具有设备无关性,能够灵活适配于多种回放配置,从耳机到多扬声器阵列,图 12 为麦克风阵列产品,可以捕获空间音频。此外,该技术还可以结合其他先进算法,如基于波场合成(Wave Field Synthesis)的扩展技术或多通道信号处理方案,以优化高阶声场的渲染精度,提升复杂场景中的音频表现。基于场景的音频技术已广泛应用于虚拟现实、全景
176、视频、沉浸式游戏和广播制作领域,尤其在沉浸式环境中展现出高效的空间定位能力,但同时也对计算性能、数据传输和实时交互提出了严苛的技术挑战。图12麦克风阵列产品音频数据同样需要编码来降低数据量,以及规范的格式便于网络传输,当前沉浸式音频主流的编解码方案包括 MPEG-H 3D 音频、杜比 AC-4 和 IVAS 等。国内有 AVS3-P3 标准信息技术 智能媒体编码 第 3 部分:沉浸式音频,由中关村视听产业技术创新联盟颁布为团体标准,该标准涉及沉浸式音频技术,包括 VR 音频表达方式、VR 音频编解码器和 VR 音频渲染器。MPEG-H 3D21 音频是 ISO/IEC 23008 标准文件中的
177、一部分,规定了一种可以支持多扬声器的 3D 音频压缩标准,包括支持将音频编码为声道、音频对象或高阶高保真度立体声响复制,并为响度归一化和动态范围控制提供解决方案。每种内容类型可单独使用或彼此间组合使用。该标准支持交互式和沉浸式声音,尤其是电视广播系统和娱乐流媒体服务以及与58/75虚拟现实有关的内容和服务。杜比 AC-4 是由杜比实验室开发的一种音频编码技术,支持 CBA 和 OBA 技术生成的音频编解码,可支持的最大声道数为 24,支持的码率范围为 24-153kbps。在电影、电视和音乐制作中应用广泛,可以在电影院可以震撼的沉浸式体验,也可以在家庭影院系统中提供出色的声音效果。IVAS(I
178、mmersive Voice andAudio Services)编解码器22是一个支持低时延语音和音频编解码及渲染的系统,能在 5G 网络下实现立体声或实时沉浸式语音及音频通信。IVAS包括编码器、解码器、渲染器,以及支持立体声和沉浸式音频格式相关的几个辅助功能。IVAS支持 SBA、OBA、CBA 和 MASA(Metadata Assisted Spatial Audio,MASA)等沉浸式音频格式的编码和解码,IVAS 编解码器帧长是 20ms,渲染粒度可以选择 5/10/20ms,支持的码率为 13.2、16.4、24.4、32、48、64、80、128、160、192、256、38
179、4 和 512kbps。IAMF(Immersive Audio Model and Formats)是由 AOMedia 发布的旗下首个沉浸式音频规范,IAMF 是开源并免版税的,且不依赖于特定的编解码器,可以与免费的编解码器一起使用,具有垂直声道、基于人工智能的场景分析以及根据聆听偏好灵活定制内容音频等功能,格式可用于流媒体、游戏、虚拟现实和音乐电台。4.3.3 触觉编解码触觉编解码沉浸式通信包括远程多感官交互场景,通过对触觉信息进行捕获、压缩、传输和再现,可以使用户获得更加沉浸的体验。触觉信息包括震动、静态压力、摩擦、表面纹理、皮肤拉伸、热觉、痛觉等皮肤触觉信息,以及包括力、扭矩、位置、
180、速度、角速度等位于关节和韧带内的动觉感知信息,这两类触觉信息对记录的刺激数据不同,适用的设备存在差异,编解码方式也不相同。在动觉模态中,编解码方法通常依赖于力反馈和振动信号的实时压缩,采用运动矢量预测、稀疏表示等技术来减少数据冗余并保证高精度重建。而在触觉模态中,重点在于对温度和压力等静态信号的精准编码,常利用感知优化算法(如基于韦伯定律的感知加权编码)和深度学习方法进行特征提取与压缩。波形编码作为一种精确传输触觉信号的方法,能够通过直接编码触觉信号的波形变化,确保高保真度的信号重建。通过应用脉冲编码调制(PCM)和变形波形编码等技术,触觉信号的频率、幅度和形态变化得以精准传输。此外,基于韦伯
181、定律的优化策略在触觉编解码中提供了感知敏感度的加权压缩,使得在传输中对不同强度的信号采用不同的编码精度,从而提升传输效率并减少不必要的数据消耗。59/75触觉编解码技术还需要解决低时延、高可靠性的传输需求,尤其是在网络环境不稳定时,依赖时间同步技术和误差容忍机制来保证信号的准确性和实时性。4.4 业务保障和网络传输技术业务保障和网络传输技术沉浸式业务要求网络提供高沉浸感、强交互性和多维多模态的体验。这需要网络能够针对沉浸式业务具体用例的特点,提供高数据传输速率,低时延高可靠的数据传输性能,对多模态沉浸式业务支持多模态协同传输,以及支持灵活可变的 QoS 自适应传输,以实现人与人、人与物之间的三
182、维动态感知与交互。4.4.1 多模态协同传输多模态协同传输在沉浸式通信很多场景中,除了传统的视频和音频传输外,还需要对更多模态信息(如味觉、嗅觉、触觉等信息)进行传输。多模态业务是指包含不同模态数据流的业务,其中不同模态数据流的流向和 QoS 特征不同。当多模态信息不同步时,用户会感到信息混乱,无法形成连贯的感知体验,导致用户的沉浸感会显著下降。多个模态的数据流可聚合成一个业务,通过多模态数据流间的互补特性提供的冗余信息提升更有效的信息传递。通过来自多个源的多模态数据流输入和去往多目的的多模态数据流输出,对业务的理解更准确、更快速,使得通信业务更平滑和自然。多模态业务广泛应用于AR/VR、远程
183、机器人控制、自动驾驶、危险区域的远程触觉反馈、现场赛事的远程沉浸式显示等场景。典型的多模态业务包含的数据流可包含:视频/音频媒体;传感器收集的环境信息(亮度、温度、湿度等);触觉数据,包含表面触觉数据(压力、震动、温度),动觉感知(重力、拉力、位置感知)9。为满足不同应用场景的多模态业务的通信协同传输需求,多模态业务的协同传输需考虑QoS 协同、传输同步和系统容量提升等。1)多模态 OoS 协同传输:在多模态业务的实际部署场景中,多模态业务的不同数据流可能来同一 UE 或不同 UE,或来自链接于同一 UE 的同一/不同设备。由 AF(Application Function)提供 Multi-
184、modal Service ID、业务需求、QoS 监控需求信息到 PCF(Policy Control Function)。PCF 为每一 QoS flow 配置合适的 QoS 规则和 QoS 监控策略。60/75对于多模态业务分布在同一个 UE 的场景(单 UE 多流),PCF 将属于同一 Multi-modalService 的多个 QoS flow 映射到同一 PDU session 中。对于多模态业务分布在多个 UE 的场景(多 UE 多流),PCF 为每一 UE 的 QoS flow 独立配置 QoS 规则,同时考虑其归属的多模态业务的相关信息。核心网可将 Multi-modal
185、Service ID 和 QoS flow id 信息通知到 RAN。RAN 在多模态业务的初始接入控制时,可考虑进行多模态业务级别的接入控制,例如,对同一多模态业务的多个 QoS flow 的接入控制采用统一策略,即进行统一的准入或拒绝。核心网也可指示 RAN侧是否对该多模态业务实行统一的接入控制。相应的,在切换过程中,目标基站收到源基站的切换请求后,对其中的多模态业务的多个 QoS flow 采用统一的切换准入策略,目标基站将最终的所述多模态业务的接纳结果通知到源基站。如果核心网指示 RAN 侧不需要对多模态业务实行统一的接入控制,例如,需要指示那些 QoS flow 是关键性的,即如果接
186、纳该多模态业务,那么关键性的 QoS flow 必须接纳成功,否则该业务接纳失败。例如,对一个多模态业务,其中包含音频 QoS flow 和视频 QoS flow,核心网指示音频 QoS flow 为关键性的,那么在 RAN 的接纳控制中,如果接纳所述多模态业务,则必须接纳其中的音频 QoS flow。相应的,在切换过程中,目标基站收到源基站的切换请求后,切换准入策略中会考虑多模态业务中的不同 QoS flow 的关键性。目标基站将最终的多模态业务的不同 QoS flow 的接纳结果通知到源基站。此外,在 RAN 的 QoS flow 和 DRB 的映射关系的配置中,RAN 考虑多模态业务的特
187、性,例如,考虑同步传输需求,基站可将同一多模态业务的多个 QoS flow 映射到同一 DRB,从而更容易的实现同步传输。2)多模态业务的同步传输多模态通信业务可以针对一个 UE 或多个 UE,表现为单终端多流和多终端多流。单终端多流相对较简单,当前 3GPP REL-19 XR 项目正在进行基于 MMSID 的单终端多流标准化工作。多终端多流较为复杂,为了保证多个终端的聚合和同步,需要对多终端多模态传输进行联合设计。现有的多模态数据间同步问题的解决方案主要有以下几种:-时间戳标记:应用层实现,在数据采集阶段为每个数据点添加精确的时间戳,以便在后续处理中进行同步。例如应用层采用 RTP tim
188、estamps,jitter buffering 等同步技术,在客户端可实现帧级的同步传输。-缓冲区技术:使用缓冲区暂存数据,并在数据到达时进行实时同步处理。61/75-多路复用同步技术:将多个媒体流的数据多路复用到一条连接或一个报文中,从而于传输中保持媒体间的相互关系以达到媒体间的同步功能。-同步信道同步技术:将不同的媒体在分离的信道中传输,同步信息并不包含在媒体流中而是通过附加同步信道单独传输。-基于多模态业务 ID 的同步技术:终端/基站基于数据包的 MMSID 和同步阈值组织多模态数据包传输。核心网将多模态业务的 Multi-modal Service ID 和synchronizat
189、ion threshold 信息发送到 RAN 侧。对于下行业务,基站在调度时综合考虑不同数据包的同步需求,接收侧的终端的 PDCP 层实体向上投递数据时,也考虑同步传输需求。对于上行业务,UE 在数据包缓存状态的上报时,指示存在同步需求的数据包。UE 在 LCP 时也考虑到同步传输的需求,例如根据时延期限最小的包和同步传输的需求,重新确定出其余同步包的剩余传输时间,从而加快其余同步包的发送速度。以实现在空口的同步传输,即满足 synchronization threshold。3)系统容量提升在多模态业务的不同模态的 QoS flow 中存在关联特性,例如一个 QoS flow1 中的 PD
190、Uset1 和另一 QoS flow2 中的 PDU set2 关联,则若 PDU set1 满足丢弃条件时,则可以将相关的 PDU set2 也丢弃,以提升系统的空口容量。具体的,在发送端的 PDCP 实体中,为 PDCPPDU 设置 discard timer 时,可为关联的 PDU set 设置同一 discard timer,例如取两个 PDU set的 timer 的最小值。那么当所述 discard timer 超时后,将 PDU set1 和 PDU set2 都丢弃。从而提升系统容量。4.4.2 QoS 自适应自适应6G 将服务于一个更加多样和复杂的网络环境,包括沉浸式 XR,
191、全息影像等业务的广泛应用。如此丰富的应用场景和业务类型对 6G 网络的 QoS 管理也提出了更高的要求,网络需要支持更加灵活、精细和个性的 QoS 管理,以便满足多样化的 QoS 需求,适应业务特征的动态变化。3GPP 在 Rel-18 就引入了比 QoS flow 更细粒度的 PDU set,并引入了 PDU SetQoS 参数,包括 PSER、PSDB 和 PSIHI 等,后续也会基于 XR 业务的特征进行持续增强。面向 6G,潜在的 QoS 管理增强包括业务 QoS 监控,精细传输保障,QoS 属性增强等方向:业务 QoS 监控:可以将 AQP(Alternative QoS profi
192、le)机制引入到 XR 业务并适当增强。对于下行沉浸式业务,基于 AQP 的通知和反馈机制可以配置基站侧根据 QoS 监控情况,在因为接入网负荷、基站和终端的信道环境等因素导致 QoS 需求不能得到满足时,及时上报62/75进行调整。对于上行,可以配置终端进行 QoS 需求变化上报,使得基站及时掌握上行业务QoS 变化,以便完成业务配置和调度传输调整,快速满足终端的上行业务传输 QoS 需求。精细传输保障:针对 XR 业务流多路复用且 QoS 需求不同的业务特性,网络可以通过更加灵活的 QoS 流映射机制,实现更细粒度的传输保障。例如,识别 QoS 需求不同的 XR业务流并映射为多个 QoS
193、流或 QoS 子流;对于存在多路复用的 QoS 流,可以将一个 QoS流按需映射到多个 DRB 进行传输,或者支持一个 DRB 配置多套 QoS 参数,进一步,可以考虑映射到不同 RLC 实体。对于包含多用户多流的复杂业务场景,可以进一步考虑多个网络侧节点下的高效 QoS 协商机制。QoS 属性增强:随着对沉浸式业务研究的逐步深入,应用层对沉浸式业务的管理,特别是对网络传输层面的支持也相应加强。网络侧需要与应用层密切配合,利用后者提供的信息,如业务变化指示、FEC 信息、关联业务信息等,更好地识别沉浸式业务特征,完善网络侧QoS 需求和相应控制。综上所述,6G 网络通过更加高效、灵活的 QoS
194、 管理机制,可以自适应的满足由于各种因素导致的业务需求变化,实现更有效地网络资源分配,确保沉浸式通信等各类业务所需资源和体验的按需满足,并且提高整体网络效率。4.4.3 高速率低时延高可靠性传输高速率低时延高可靠性传输沉浸式通信的应用场景中,很多用例都对通信指标有更高的要求,例如全息通信,需要极高的数据传输速率的同时,要求传输满足低时延高可靠要求。传输速率需求达到 1Gbit/s至 1Tbit/s 量级,端到端时延小于 10ms,有的甚至小于 1ms,分组错误率需要达到 10-7量级。6G 网络需要增强满足这些需求。1)通信速率增强-毫米波和太赫兹技术:提升传输速率的技术手段主要是提供大带宽频
195、率资源,因此毫米波,太赫兹频段具有非常丰富的频率资源,可以提供极高的数据传输速率,满足 6G 沉浸式通信高速数据传输的需求。毫米波频段带宽高达 273.5GHz,超过从直流到微波的 10 倍。太赫兹可利用的工作带宽可能高达十几甚至几十 GHz,支持超高的通信速率,目前工作频段在 300 GHz 以下太赫兹通信支持的最高速率可达 100Gbps。毫米波和太赫兹频段的天线尺寸小,易于在较小的空间内集成大规模天线阵列,便于部署超大规模 MIMO。-分布式大规模 MIMO:分布式大规模 MIMO 是近年来无线通信网络研究的热点,63/75超大规模 MIMO 可以实现空间分集和空间复用,有效地对抗多径衰
196、落,提升频谱效率,也是提升传输速率的重要手段。分布式大规模 MIMO 不仅可以更大幅度地扩展等效天线阵列的规模,并且会增加信号的角度扩展,降低等效 MIMO 信道的相关性,从而获得更高的空间自由度和更高的信道容量。利用先进的信号协作处理方案,地理位置分散的多个节点可以形成具有更好空间聚拢效果的信号形态,准确地在用户所在之处形成高质量的网络覆盖,从而显著地提升频谱效率11。-新型载波聚合技术:通过载波组合可以直接提升传输速率,因此在 5G 多载波技术(包括载波聚合、多连接、灵活上下行资源配置、多载波干扰抑制、跨载波调度、多载波联合调度)的基础上,进一步对载波聚合技术进行增强,也是提升传输速率的重
197、要研究方向。可能的增强方向包括跨载波 HARQ 传输、非连续载波、虚拟大载波/BWP 等。2)超低时延高可靠-URLLC 增强:HRLLC 是 5G URLLC 场景的增强,对时延和可靠性指标提出更高要求。沉浸式通信应用场景非常丰富,其中一些应用场景(例如)对时延和可靠性的要求与 5G URLLC 场景持平,一些场景(例如远程手术)对时延和可靠性的要求更高。因此可以考虑对 5G URLLC 技术进行进一步增强,例如采用更大子载波间隔,更小的 slot,更快的反馈,配置间隔更短的多个 CG 资源等技术来满足低时延需求,采用编解码技术,多层的重复发送,多层/多站基于反馈或不基于反馈的数据重传等技术
198、来满足高可靠需求。-极简协议栈:简化协议栈处理复杂度是实现低时延和高数据速率的有效策略。潜在的研究方向包括:去除/合并协议层的冗余功能,PDCP 级联,L2 协议重构/协商,支持部分完整性保护等等。-毫米波和太赫兹技术:毫米波和太赫兹使用的频率更高,支持更大的带宽,可以采用更大的子载波间隔,符号的持续时间更小,所以信号传输速度更快,从而实现了超低时延传输。结合大规模 MIMO 技术能够有效提高传输链路的可靠性。-分布式核心网:针对核心网的时延问题,可以支持本地业务卸载,比如 Local UPF,引入有效的 MEC 框架等。4.4.4 FoV 传输技术传输技术沉浸式视频通过视频、音频及特效系统,
199、构建具备大视角、高画质、三维声特性,具备64/75画面包围感和沉浸式声音主观感受特征的视听环境,使观众能够在所处位置同时获得周围多方位的视听信息,让观众体验到单一平面视频无法实现的高度沉浸感,让观众真正有身临其境的感觉。视场角 FoV(Field of View)是沉浸式视频的核心要素。视场角分为水平视场角 HFoV(Horizontal Field of View),垂直视场角 VFoV(Vertical Field of View),和对角视场角 DFoV(Diagonal Field of View),根据人眼视觉特性,当影像能更多地覆盖人的视野,形成画面在人眼中的水平视场角大于 120
200、,垂直视场角大于 70,就可以使人感受到一种身临其境的沉浸式效果。因此从用户观看角度,并不需要将全景视频都传输给用户,只需要传输其 FoV范围的视频就可以提供沉浸式体验。基于以上原理,基于 FoV 的传输技术在 XR 视频传输中被广泛采用。根据用户的姿态生成与用户的终端显示范围匹配的 FoV 内容,然后将 FoV 内容传输给用户的终端进行显示。由于只是传输用户的终端显示范围匹配的 FoV 内容,大大节省了传输带宽,降低了传输时延,提升了用户体验。当前主流的 FoV(Field of View)传输方案主要包括以下几种:1.多层 FoV 传输:将 360全景视野划分为若干个视角,每个视角生成一个
201、视频文件,只包含视角内高分辨率和周围部分低分辨率视觉信息。终端根据用户当前视角姿态位置,向服务器请求对应的视角文件。当头部转动视角发生变化时,终端向服务器请求新视角对应的视角文件。2.基于分块编码传输方法:将沉浸式视频分块,每个视频块被编码为多个质量的视频层,根据视点对应的 FoV,动态决策传输的视频块和每个视频块传输的视频层。3.基于金字塔投影的 FoV 传输:针对每个视角准备一个全视角的质量不均匀的码流。将用户在虚拟环境中的视觉信息对应的全部球面数据放入金字塔投影。用户视点正前方的平面为 FoV 平面,使用高分辨率编码,其余四个平面为非 FoV 平面,分辨率从与 FoV 平面相交的边到视角
202、反方向的顶点逐渐降低。传输网络根据终端返回的用户视角信息,向终端提供 FoV 范围内的高质量画面和非FoV 范围内的低质量画面。由于存在时延,传输到用户的 FoV 视频与用户实际 FoV 可能不一致,造成用户观看的内容与其实际视角不完全匹配导致的不连续甚至卡顿,造成用户眩晕。解决该问题主要有以65/75下几种方法:1.降低网络传输时延,以保证回传的 FoV 与用户的实际 FoV 接近;2.扩大传输的 FoV 区域,最终根据用户的实际 FoV 进行显示;3.提高 FoV 预测的准确性。FoV 的传输技术能够有效节省传输带宽,提升用户体验,并适应不同网络环境和用户视点的变化,是当前 XR 视频传输
203、的普遍选择。目前的 FoV 传输主要是从应用层考虑的,无线通信网络的深度介入可以对 FoV 时延缩减和 FoV 预测起到积极作用,是后续值得考虑的方向。4.4.5 节能技术节能技术由于 XR 设备属于穿戴式,且视频显示需要耗费大量电能,所以,XR 设备需要考虑节电方案。1)DRX 增强:多模态中不同的 QoS flow 具备不同的业务特性,例如,不同 QoS flow 的数据包在时域上的分布特征不同,从而导致单一 DRX 机制难以取得比较好的节电效果,因此,基站可配置多套 DRX,来适配于不同的 QoS flow,从而获得更大的节能增益。2)XR-awareness:为实现更好的终端节能,RA
204、N 需要获知更多的业务层面的信息。UE 和核心网可通知RAN 侧业务特性信息,所述业务特性信息可提供更精准的数据包在时域或数据量上的分布或变化信息。从而基站可以配置合适的 DRX 参数,辅助 UE 的节能。3)UL 和 DL 协作:XR 业务数据量很大,尤其以下行视频数据为主,视频数据传输需求存在周期性,即数据包呈现 burst 方式。在 XR burst 传输期间,有大量下行数据需要传输,而在 burst 传输间隙,没有下行数据需要传输。另一方面,XR 业务对应的上行数据,主要是一些用户的动作指示,没有周期性,随时可能有上行数据包需要传输。考虑到 XR 业务下行数据的周期性属性,现有技术中使
205、用 DRX 方式节电,即通过基站配置,让 UE 周期性打开数据接收模块,接收下行数据,其它时间则关闭接收模块。由于UE 的发送模块和接收模块有一部分功能是联动的,所以将上行数据的传输也安排在下行数据接收空口内,达到节电的目的。即通过上行和下行业务在时域上的协作,例如在同时间段内进行传输或在数据传输时域上尽量交叠。66/75在图 13 所示的上行方式一中,UE 在存在上行数据需要发送时,在业务的时延允许的情况下,可选择在下行的 DRX 激活时间段内发送上行 SR 或发起 RACH 过程请求上行PUSCH 资源。在上行方式二中,UE 可在 DRX 激活时间之前的 offset 期间内发送上行 SR
206、或发起 RACH 过程,从而尽量使得基站分配的 PUSCH 可在下行的 DRX 激活时间段内。通过上行和下行业务在时域上的协作,可提升 UE 的节能效果。图13上行和下行协作进行数据传输沉浸式通信场景中,网络和终端的互操作更加密切,可以引入网络与终端的联合节能,包括但不限于以下几个方面:1)基于网络和终端双端发现机制降低公共信令开销,对网络侧,实现动态网络节点状态控制、公共信息发送优化;对终端侧,实现智能动态睡眠模式管理。解决基站和终端时域节能割裂,节能以降低传输性能为代价的问题,达到网络与终端联合时域节能的效果。网络和终端的双端发现机制可以通过沉浸式通信的多维感知节点和功能实现,也可以通过沉
207、浸式通信相关的低功率发现信号或通知信号实现。2)终端辅助机制实现联合节能,基于不同的终端辅助形式,着重实现基站频域、功率域和空域的节能方案和终端频域、功率域的节能方案。解决基站终端各自采用半静态、粗颗粒度的节能方案的问题,达到双端精细化频域/空域管理、动态功率管理的效果。3)通感智算一体化端到端节能,利用沉浸式通信场景下感知、智能融合发展的特性,充分应用感知、智能等新兴技术,实现网络和终端的按需功能开启、精细化的资源利用、最优节能触发方式选择和最优节能模式选择。67/755 总结和展望总结和展望白皮书深入分析了 6G 沉浸式通信的三大主要场景沉浸式 XR、全息通信和多维感知,从而总结出沉浸式通
208、信的特定需求。同时,白皮书梳理了当前国际国内沉浸式通信的标准化进展,深入剖析了沉浸式产业的发展现状与未来趋势。此外,白皮书还针对沉浸式通信所涉及的四大关键技术领域:终端技术、媒体处理技术、编解码技术以及业务保障和网络传输技术进行详细的研究与分析。5G 网络下,VR/AR 已经应用于多个领域,满足了一些应用场景的需求,随着 6G 网络相关研究的开展,沉浸式多媒体业务作为未来 6G 网络一项重要的基础应用,6G 沉浸式业务将结合多种感官体验给用户带来更加身临其境的感受。当前沉浸式通信仍然存在以下几方面挑战:-数据量大、网络传输要求高。沉浸式通信业务如 XR 具有高沉浸、强交互、多维多模态等特征,其
209、对网络传输的高要求是多方面的;-业务内容局限,当前 XR 内容生态聚焦于视频、游戏、社交场景,其他领域内容涉及较少。且 XR 内容制作难度大、成本高、周期长,缺乏高质量的 XR 内容难以激发消费者购买欲望;-裸眼 3D 裸眼设备成本偏高,且存在图像分辨率、刷新率等方面的问题;-对多模态的支持仍存在很大难度,6G 沉浸式多媒体业务还需融合更多信号流的同步,尤其是对多 UE 多流的支持,难度更大。近些年来,虽然沉浸式通信和 6G 都得到高度重视,形成了一定的理论基础和技术拓展,但都处于较为初级的阶段。沉浸式通信的技术和产业基础远远不能支撑虚实融合、全域智联、助力千行百业的目标,而 6G 标准化工作
210、刚刚启动,具有非常广大的发展空间。6G 与沉浸式通信的融合将为社会经济、技术带来更大的可持续发展空间,改变多领域发展模式,进一步激活社会的活力。至少体现在以下几个方面:1)经济效益增长a)创造新的业务和商业模式:6G 与沉浸式通信的结合将催生出许多新的业务领域和商业模式,如医疗行业的远程诊断,远程手术使偏远地区患者获得顶级医疗资源,降低医疗误诊率,提升治愈率。教育行业中将全息投影与 AI 技术结合,打造三维立体教学场景,使抽象知识具象化。新的工作模式催生出新业务将为相关产业带来新的收入增长点。68/75b)生产效率的大幅提升:沉浸式通信对工业发展的影响在当前已有体现。6G 的快速数据传输和低延
211、迟能够使多方团队实时协作,提高设计和生产效率,缩短产品开发周期。工程师可以在数字孪生工厂中直接操作设备参数,提升效率的同时降低了操作风险。沉浸式通信改变生产模式,进一步促进工业进步,为企业带来更大的经济效益2)社会数字化转型加速a)推动各行业的数字化升级:数字化转型是当今社会发展的大趋势,6G 与沉浸式通信的结合将为各行业的数字化转型提供强大动力。b)促进数字包容性:6G 网络的广泛覆盖和沉浸式通信的易用性将有助于缩小数字鸿沟,让更多人能够享受到数字化带来的便利和机遇。特别是对于偏远地区、老年人等特殊群体,沉浸式通信可以提供更加直观、易懂的信息获取和交互方式,促进社会的数字化包容性。3)科技创
212、新与产业竞争力提升a)带动相关技术的发展:6G 与沉浸式通信的结合将促进一系列相关技术的创新和发展,如人工智能、计算机图形学、传感器技术等。这些技术的相互融合和协同创新将推动整个信息通信技术领域的进步。b)增强产业竞争力:对于企业来说,积极探索 6G 与沉浸式通信的应用和创新,将有助于提升自身在市场中的竞争力。能够率先提供高质量、创新性的沉浸式通信服务的企业,将在未来的市场竞争中占据优势,吸引更多的用户和合作伙伴,推动产业的快速发展。69/75参考文献参考文献13GPPTS 22.261.Service requirements for the 5G system23GPPTS 22.263.
213、Service requirements for video,imaging and audio for professional applications(VIAPA)3ITU-R M.2516-0 Future technology trends of terrestrial IMT systems towards 2030 and beyondITU2022.114Recommendation ITU-R M.2160-0 Framework and overall objectives of the future development of IMT for2030 and beyon
214、d,ITU,2023.115ITU-R BT.1359-1 RELATIVE TIMING OF SOUNDAND VISION FOR BROADCASTING6曾焕强,孔庆玮,陈婧,朱建清,施一帆,侯军辉,沉浸式视频编码技术综述 电子与信息学报 202476G 沉浸式多媒体业务需求及关键技术研究报告,IMT-2030(6G)推进组,20228XR 行业:驱动因素 行业变革 产业链及相关企业深度梳理,慧博智能投研93GPPTR 22.847 Study on supporting tactile and multi-modality communication services103GPPT
215、S 38.835 Study on XR enhancements for NR11超维度天线技术白皮书,中信科移动通信技术股份有限公司123GPPTR 38.838.Study on XR(Extended Reality)Evaluations for NR133GPPTR 23.700-70.Study on architecture enhancement for Extended Reality and Media service(XRM)14华创证券研究报告.(2024)AR 行业深度研究报告:光学及显示方案逐步迭代,软硬件协同发展驱动消费级 AR 眼镜渗透15Sun,Yule,A
216、.Lu,and L.Yu.Weighted-to-Spherically-Uniform Quality Evaluation for OmnidirectionalVideo.IEEE Signal Processing Letters(2017):1408-141216TECH G,CHEN Ying,MLLER K,et al.Overview of the multiview and 3D extensions of high efficiencyvideo codingJ.IEEE Transactions on Circuits and Systems for Video Tech
217、nology,2016,26(1):3549.doi:10.1109/TCSVT.2015.2477935.17Guarda A F R,Rodrigues N M M,Pereira F.Point CloudCoding:AdoptingaDeepLearning-BasedApproachC/Picture Coding Symposium,Ningbo,China,201918Quach M,Valenzise G,Dufaux F.Folding-Based Compression of Point CloudAttributesC/IEEEInternational Confere
218、nce on Image Processing,Abu Dhabi,UnitedArab Emirates,2020.19Astola P,da Silva Cruz L A,Da Silva E A B,et al.JPEG Pleno:Standardizing a coding framework and70/75tools for plenoptic imaging modalitiesJ.ITU Journal:ICT Discoveries,2020.20S.R.Quackenbush and J.Herre,MPEG Standards for Compressed Repres
219、entation of Immersive Audio,inProceedingsoftheIEEE,vol.109,no.9,pp.1578-1589,Sept.2021,doi:10.1109/JPROC.2021.3075390.21Herre J,Quackenbush S R.MPEG-H 3D audio:Immersive audio codingJ.Acoustical Science andTechnology,2022,43(2):143-148.22Multrus M,Bruhn S,Torres J,et al.Immersive Voice and Audio Ser
220、vices(IVAS)codec-The new 3GPPstandard for immersive communicationC/157thAES Convention.2024.23易观分析(2023)中国消费级 AR 分析 2023:消费级 AR 市场正启航,国产品牌格局初定24艾瑞咨询(2023)中国增强现实(AR)行业研究报告25亿欧智库(2024)2024 年中国 AR 产业发展洞察研究26华创证券研究报告。(2024)AR 行业深度研究报告:光学及显示方案逐步迭代,软硬件协同发展驱动消费级 AR 眼镜渗透27ITU-T.ITU-T Rec.H.266 and ISO/IEC 2
221、3090-3 versatile video codingS.71/75缩略语缩略语英文缩写英文全称中文全称3DoFThree Degrees of Freedom3 自由度3GPP3rd Generation Partnership Project第三代合作伙伴计划6DoFSix Degrees of freedom6 自由度AEPAdjusted Equalarea Projection调整后的柱状等面积投AFApplication Function应用功能AQPAlternative QoS profile备选 QoS 配置文件ARAugmented Reality增强现实AUAcces
222、s Unit访问单元AV1AO Media Video 1开放媒体视频联盟视频BERBit Error Rate误码率BWPBandwidth Part带宽子集CADComputer Aided Design计算机辅助设计CAEComputer Aided Engineering计算机辅助工程CATComputer-Aided Testing计算机辅助测试CAVECave Automatic Virtual Environment洞穴式自动虚拟环境CBAChannel-Based Audio基于声道的音频CCDCharge-coupled Device电荷耦合器件CDNContent Deli
223、very Network内容分发网络CDRXConnected-Mode DRX连接模式不连续接收CGComputer-Generated content计算机生成内容CMPCube Map Projection立方体映射投影CNNConvolutional Neural Networks卷积神经网络DBBPDepth-Based Block Partitioning基于深度图块分割技术DFoVDiagonal Field of View对角视场角DMMDepth Modeling Modes深度建模模式DRBData Radio Bearer数据无线承载DRXDiscontinuous Re
224、ception非连续接收DVSDynamic vision sensor视觉传感器(也称eMBBEnhanced Mobile Broadband增强移动宽带EAPEqual-Area cylindrical Projection柱状等面积投影ERPEquiRectangular Projection基于地图的投影72/75EVSEnhance Voice Services增强语音业务FECForward Error Correction前向纠错FERFrame Error Rate误块率FLFront-Left左前FoVField of view视场角FRFront-Right右前FVVFr
225、ee-View Video自由视点视频G-PCCGeometry-based PointCloud Compression基于几何的点云压缩HARQHybrid Automatic Repeat reQuest混合自动重传请求HEVCHigh Efficiency Video Coding高效率视频编码HFoVHorizontal Field of View水平视场角HMDHead-mounted displays头戴式显示器HRLLCHyper Reliable and Low Latency Communications极高可靠极低时延通信HRTFHead Related Transfer
226、 Function头部相关传输函数IAMFImmersive Audio Model and Formats沉浸式音频模型和格式IBRImage-Based Rendering基于图像的渲染IECInternational Electrotechnical Commission国际电工委员会IEEEInstitute of Electrical and Electronics Engineers电气和电子工程师协会IMAXImage Maximum巨幕电影IMUInertial Measurement Unit惯性测量单元ISOInternational Standards Organizat
227、ion国际标准化组织ITUInternational Telecommunication Union国际电信联盟IVASImmersive Voice and Audio Services沉浸式语音和音频服务JCT-3VJoint Collaborative Team on 3D Video coding3 维视频编码扩展开发JVETJoint Video Experts Team联合视频专家组LCDLiquid Crystal Display液晶显示屏LCoSLiquid Crystal on Silicon硅基液晶LEDLight Emitting Diode发光二极管MASAMetada
228、ta Assisted Spatial Audio元数据辅助空间音频MBRModel-Based Rendering基于模型的渲染MECMobile edge computing移动边缘计算MEMSMicro-Electro-Mechanical System微机电系统MIMOMultiple-Input Multiple-Output多进多出MIVMPEG Immersive VideoMPEG 沉浸式视频MLPMultilayer Perceptron多层感知器73/75MMSIDMulti-modal Service ID多模态业务标识MPEGMoving Pictures Expert
229、s Group动态图像专家组MRMixed Reality混合现实NBDVNeighboring Block Disparity Vector相邻块视差矢量NBRNeural-Based Rendering基于神经网络的渲染NeRFNeural Radiance Fields神经辐射场NURBSNon-Uniform Rational B-Spline非均匀有理样条OBAObject-Based Audio基于对象的音频OLEDOrganic Light-Emitting Diode有机发光二极管OMAFOmnidirectional Media Format全向媒体格式OSOperating
230、 Systerm操作系统PCFPolicy Control Function策略控制功能PCMPulse Code Modulation脉冲编码调制PDBPacket Delay Budget包时延预算PDCPPacket Data Convergence Protocol分组数据汇聚协议PDUPacket Data Unit/Protocol Data Unit包数据单元/协议数据单PERPacket Error Rate包错误率PSDBPDU-Set Delay BudgetPDU-Set 时延预算PSERPDU-Set Error RatePDU-Set 错误率PSIPDU-Set Im
231、portancePDU-Set 重要性PSIHIPDU-Set Integrated Handling IndicationPDU-Set 聚合处理指示PUSCHPhysical Uplink Shared Channel物理上行共享信道QCIQoS Class Identifier业务质量等级指示QFIQoS Flow ID业务质量流 IDQoEQuality of Experience体验质量QoSQuality of Service业务质量RACHRandom Access Channel随机接入信道RLCRadio Link Control无线链路控制SAOSample Adaptiv
232、e Offset样点自适应补偿SBAScene-Based Audio基于场景的音频SBLSurround Back Left环绕声后左声道SBRSurround Back Right环绕声后右声道SDKSoftware Development Kit软件开发工具包SLSurround-Left左后SRSurround-Right右后74/75UHDUltra High Definition超高清UIUser interface用户界面UPFUser Plane Function用户面功能URLLCUltra-Reliable and Low Latency Communications超高可靠性和低时延通VAEVariational Auto-Encoder变分编码器VFoVVertical Field of View垂直视场角V-PCCVideo-based Point Cloud Compression基于视频的点云压缩VRVirtual Reality虚拟现实XRExtended reality扩展现实75/75白皮书贡献人员白皮书贡献人员中信科移动通信技术股份有限公司张惠英、谌丽、刘海涛、王锋中国联合网络通信集团有限公司张忠皓、周伟、马静艳北京首都科技项目经理人管理有限公司余飞、段迎娟、周明宇鹏城实验室薛雅利、邹龙昊紫光展锐(上海)科技股份有限公司韩立锋