近日,爱奇艺与北京大学、微软研究院共同完成了基于AI技术的全景视频流媒体系统EPASS360的论文——《EPASS360: QoE-aware 360-degree Video Streaming over Mobile Devices》,论文被国际移动计算领域顶级刊物IEEE Transactions on Mobile Computing(简称TMC)接收。
该论文提出了一个全新的基于人工智能技术的全景视频流媒体系统EPASS360,可以有效地应用于工业级全景视频业务场景中。在现有家用宽带、WiFi环境下,这个新系统解决方案将根据用户视野所及范围,预测分配码率,保障用户在观看全景视频时看到的画面都足够清晰且流畅。 受益于过去几年视频编解码技术的发展和内容制作的经验,如今全景视频、交互式VR游戏等项目因其沉浸式的视觉体验吸引了用户的广泛关注。
360度VR全景视频能让用户获得身临其境的感觉,为了达到最佳全景视频的视觉体验,全景视频需要被设定在8K、16K超高清分辨率模式,但目前家用宽带、WiFi环境下,高码率视频流的网络传输仍是了一项巨大的挑战。考虑到在全景视频播放的过程中,只有视野范围内的画面会呈现在显示屏上,而其他部分的内容尽管被下载及解码,但是用户并不会观看到。从这点出发,对全景视频的编码方案通常采用一种基于平铺区块式的方式,即将原始等距柱状投影图编码的画面切分为网格状,而后根据用户的视窗的位置为各个区块指定码率,使得码率集中在视窗中,从而既节约了带宽又保证了视频质量。
于是,全景视频流媒体系统中的用户体验优化问题,可以转化为对用户视窗位置预测、对用户带宽预测和根据预测为各个区块分配码率三个子问题。论文所提出的 EPASS360是一个基于模式识别和集束搜索(beam search)的全景视频流媒体系统。具体而言,该系统使用前沿的长短期记忆网络(LSTM,Long Short-Term Memory)结合平台日常积累的大数据进行精准的用户视窗位置预估及带宽模式识别。而后,根据预测模型给出的预测结果,EPASS360建立在未来若干个视频片段上的用户体验最优化模型,并根据求解结果进行码率分配。EPASS360采用现在主流的用户体验建模方式,即以播放进程中可实时统计的视窗内的画面码率(越高越好)、视窗内相邻区块的码率差异(越小越好)、视窗内固定位置区块的码率变化(越小越好)、卡顿时长(尽可能避免)四方面测量信息作为优化目标。针对不同的场景或用户偏好,四项指标的权重可以相应地进行调整。与许多传统策略式流媒体系统不同的是,EPASS360可以根据不同的用户体验目标进行有针对性地优化,结合对播放进程的精准识别及预测,使得码率分配更为合理。
EPASS360的设计既保证了码率分配的有效性,又满足了流媒体系统的实时性要求。并且,EPASS360最大程度复用了现有的全景视频编码方案及传输协议,降低了开发及部署成本。在平台日常采集的数据集和公开学术数据集上的实验表明,在各种用户体验目标下EPASS360可以使得画面质量相较于常用的普通无平铺切块的全景视频流媒体系统提升约50%(以PSNR指标计),并且在用户体验目标的最终评分上,相对于学术界最前沿的全景视频流媒体系统,EPASS360能够取得至少5%的提高。
总结而言,EPASS360探索了一种工业界全景视频流媒体系统的解决方案,能够有效地解决超高清全景视频传输中带宽利用率不高的问题,并以最小的代价实现为用户打造最佳的观影效果。