b站视频参数,b站画质上限

前言

B 网站在向用户提供高质量视频内容的同时,还要保证用户的观看体验,而视频质量是影响用户观看体验的重要因素。为保证用户观看的视频质量清晰,B站搭建了图像质量监控系统,并开发了多项自研的视频图像分析处理算法。然而,开发算法、量化用户观看体验等都无法避免同样的问题:“如何评估视频的质量?”

视频质量评估(VQA)是视频成像应用中的终极问题之一。

图1:VQA是视频成像应用中的终极问题之一

为了准确评估视频质量,我们开发了基于深度学习的无参考视频质量评估系统,如图2所示。这包括Bilibili 无参考视频质量评估模型(BILIVQA) 的设计、培训和开发。工程及其如何应用于商业。但是也

修复了VQA 准确性问题

更重要的是,提出了一套完整的用于创建VQA的应用模型。

支持基于VQA的应用长期稳定运行,应对不断变化、丰富的业务需求。

图2:基于深度学习的无参数视频质量评估系统

1、视频质量评价背景

视频质量评估(VQA)是一种测量视频内容质量的方法,旨在评估和量化数字视频的视觉和感知质量,例如图像清晰度。色彩再现性、动作流畅性等图像质量对于视频网站来说非常重要,是所有企业关注的关键指标之一。用户在视频网站观看视频经过三个步骤: 1)制作端:视频创作者完成视频拍摄和剪辑后,将原始视频上传至网站。 2)云端:视频原件通常经过编码压缩转换。这是因为用户上传的原始电影码率较高,如果不进行转码和压缩,用户可能无法流畅观看。 )消费者端:指向用户手机或网页,直接观看视频过程。

如图1所示,在视频处理和传输系统中,VQA发挥着以下作用:

1) 制作者:此链接允许VQA 自动检测您的视频稿件的质量。

2)云端:B站提供了很多视频来提升视频质量,比如SDR视频到HDR视频转换、视频去噪、去抖、去块、时域帧插值、画质增强、超分辨率算法等。我们自己开发了图像处理算法。 VQA等可以为优化这些视频图像处理提供指令,提高视频的主观效果。在对视频进行转码时,可以采用基于VQA的质量可控的编码方式,保证编码后的视频质量稳定。

3)消费者端:该环节直接关系到用户体验(Quality of Experience,QoE)。 VQA需要实时监控用户观看的视频质量,并推荐优质视频。

这意味着对于视频网站来说,视频图像分析、处理、编码、图像质量监控、用户体验分析、视频内容推荐等都与VQA密切相关。毫无疑问,VQA是视频网站关注的“终极问题”之一。

大多数视频公司都愿意投资VQA技术。

Netflix、Youtube、抖音、淘宝、快手、腾讯等

1.1 参考VQA

VQA 自数字视频技术诞生以来就已存在,最初使用许多需要参考视频进行比较的传统图像质量指标。图像质量,此类方法统称为参数VQA。其中,参考视频通常是原始视频的未失真版本,或者已知质量的视频。峰值信噪比(PSNR)是目前最常用的基于参数的客观质量指标。原理是计算两个信号之间的相似度。另一个信号是原始未失真的影片,另一个信号是失真的视频。由两个信号计算出的PSNR值可以代表失真视频相对于原始影片的失真程度。

PSNR虽然计算复杂度低,实现速度快,但受局部像素影响较大,没有考虑视频的结构信息,与人眼的主观感知相关性较低。它模拟从场景图像中提取结构信息的过程,并通过同时考虑结构信息、亮度和对比度来测量两个图像或视频之间的结构相似性。然而,这种评价方法在图像质量的主观评价上仍然存在一些差异,但实际的主观评价取决于人类视觉系统的一些重要的心理和生理方面,例如视频流畅度和信息内容等因素的影响。例如视频包含什么内容以及是否符合审美标准。

视频多方法评估融合(VMAF)是Netflix提出的一种客观参数化图像质量评估指标,它使用三个基本指标来评估空间域(同一帧内)和时间域(同时提取多个连续图像的图像特征)。 (帧间)相关特征。其中,视觉质量保真度(VIF)和细节损失度量(DLM)是空间域特征,时间信息(TI)是时域特征。 最后,使用机器学习算法(SVM)。这三个基本指标相结合来确定最终的图像质量得分。 VMAF与主观情感具有很高的相关性,是当今视频行业事实上的图像质量标准之一,在编码应用中发挥着不可替代的作用。

1.2 无参考的视频质量评估

(无参考VQA)

然而,在更广泛的业务场景中,被评估视频的原始视频可能无法获得,这意味着无法使用参数化VQA技术。因此,参数化VQA可以评估视频。更加面向业务场景的VQA方法,无需参考视频即可提升质量。原始的无参数VQA 方法(例如BRISQUE 和VIDEVAL)手动设计特征并使用SVM 等机器学习模型来预测视频的主观质量。此过程使用手动标记的MOS 分数。监测图像质量评价问题转化为回归问题。随着深度学习的快速发展,基于神经网络的无参数VQA算法逐渐成为主流。原因在于神经网络可以自动高效地提取特征并将特征学习融入到模型训练过程中,而深度学习则引入了深度。具有多个隐藏层的神经网络可以学习视频中更抽象的高级特征。

2. BILIVQA算法设计

虽然学术界和工业界有很多开源的VQA模型,但开源模型并不能直接用于Bilibili的业务场景。主要原因是不同的模型使用不同的数据集进行训练,而如果某些数据集中的视频是自然场景,那么训练出来的模型可能会对自然类型如模糊、抖动、雾、曝光过度等更加敏感到扭曲。一些数据集由编码视频组成,训练后的模型对编码失真更敏感。阻塞和振铃等效果。 B站的画面多种多样,有PGC(专业生成内容)、UGC(用户生成内容)、横屏、竖屏等,如下图3所示,已经上传了各种类型的视频。屏幕、鬼畜、衍生作品、特效贴纸等很多场景涵盖了不同的畸变类型,在现有公共数据集上训练的模型无法满足业务需求。

图3:B站上传的视频类型较多,且存在多种失真现象

更具体地,视频质量评估模型基本上评估图像质量的相对关系,并且理论上,如果预先获知数据集A的评分标准,则假设视频质量评估模型是完全准确且无偏的。对于新视频,他给出的分数是数据集A中视频质量排名的映射值。但是,如果要求您评分的视频的分布与数据集A 中的分布不同,则数据集A 中分数的相对位置将不再准确。这就是我们常说的“估值不准确”。所以开源模型是: B站视频的概括性非常弱。

为了实现这一目标,我们自主开发了BILIVQA算法,并构建了UGC视频数据集来训练模型。

2.1 BILIVQA模型设计

2.1.1 抽样策略

与图像质量评价不同,人眼的视频质量评价不仅关注不同空间位置的静止帧的图像质量特征,而且还受到视频帧之间的内容相关性的影响。当同一图像在视频帧内连续显示时,前者被定义为空间域中的信息,后者被定义为关于帧之间图像质量变化的时域信息。由于我们假设视频的时间和空间信息对于VQA模型同样重要,因此我们设计了一种采样策略,同时对空间关键帧和时间切片帧进行采样并提取这两类信息的特征。每个都用于训练BILIVQA 模型。具体采样策略如图4所示。将视频按照特定的分割规则划分为N个切片(片段),提取每个视频切片的第一帧作为空间关键帧(空间帧),并提取32个连续帧。作为时域切片帧(运动帧)。

VQA 估计每个切片的质量分数,并对所有切片分数进行平均以获得整个视频的质量分数。在业务场景中,我们发现更合理的视频分割规则应该基于场景分割(场景切换)。这意味着场景的每个视频切片都会获得分数,从而可以更准确地评估场景。视频。

图4:BILIVQA时域采样策略

2.1.2 模型框架

模型训练框架如图5所示。首先,我们将输入视频分为N个切片,从每个切片中提取一帧作为空间帧,形成帧序列(帧序列),并根据短帧的比例对其进行缩放。从side到510,提取的32帧作为时域帧,形成缩放至160160的剪辑序列。空间特征(时间特征)提取模型使用MobileNet V2,它是在大规模图像分类数据集ImageNet上预训练的,时间特征(空间特征)提取模型使用大规模运动识别数据预训练的。 – 使用经过训练的。配置Kinetics-400 时,时空域特征被组合并发送到预测网络,该网络在特征池层和回归器之后预测每个切片的分数(分数#1 到#N)。最后对所有切片的分数进行平均,输出最终分数(VQA分数)。

图5:BILIVQA模型框架

2.1.3 训练数据

视频质量评估领域有很多公共数据集,例如LIVE-VQC(LIVE视频质量挑战数据库)、KoNViD-1k(KoNViD-1k VQA数据库)、LWCVQ(LIVE Wild压缩视频质量数据库)等。该数据集涵盖自然失真视频和编码失真视频,数据量在1000级以内。 2023年,LIVE(Laboratory for Image Video Engineering)实验室发布了包含39076个视频和自然场景的MOS数据的LSVQ数据集。这是目前最大的主观自然失真视频数据集。在LSVQ数据集上训练的VQA模型已经具备了比较好的视频特征提取能力,但是LSVQ和B站视频的视频类型和失真类型有所不同,并且LSVQ数据集由于大部分都是PGC视频,因此LSVQ网站的UGC视频B占很大比例,但在我们的实验中,直接使用仅在LSVQ上训练的模型来评估B站的视频。案例表现出泛化性较弱。

因此,为了获得针对B站视频的强泛化性和客观性的BILIVQA模型,我们需要构建B站自己的视频数据集。数据样本选择应包括多种视频类型,并最符合用户的观看习惯。尽可能还原在线用户真实观看时遇到的各种情况。具体来说,对感兴趣的指标(视频分区、视频时长、播放量、视频清晰度、编码版本等)的维度,保证每个子维度都包含一部分样本)对B站视频进行分层采样。完成采样后,组织了一批热心用户基于ITU-R BT.500电视画质主观评价方法进行MOS标注,最后经过数据清洗,将一些异常标注样本进行了排序和剔除。终于贴上标签了。对于中等规模的数据集,图像质量VQA评分范围为0到5分,平均值为3.3到3.5,总体范围为[2, 4.5]。

2.1.4 训练方法

我们已经正式开始使用BILIVQA 模型框架和Bilibili 数据集进行BILIVQA 模型的训练阶段。前面提到,LSVQ是目前最大的主观自然失真视频数据集,这个数据集帮助模型学习强大的基础视频特征提取能力。然而,由于数据分布的差异,用LSVQ训练的模型不能直接迁移。如果要评估B站点的视频,一个直观的解决方案是在训练过程中添加B站点的视频。

因此,我们采用多个回归头的交替混合数据集训练方案,以LSVQ + BILIBILI混合数据集训练为例。例如,每批次按照比例LSVQ:BILIBILI=1:1进行采样。 LSVQ,8个视频来自BILIBILI。两个数据集中的视频共享模型的特征提取模块,但支持自己的分数回归头。最终的业务使用了BILIBILI数据集上的回归头。实验结果表明,与直接在LSVQ上训练相比,混合数据集训练方法进一步提高了模型的视频特征提取能力,从而导致BILIVQA模型在BILIBILI测试集I am上的性能提高。

2.1.5 模型精度

Pearson 线性相关系数(PLCC) 和Spearman 等级相关系数(SROCC) 是两个最常用的VQA 模型性能指标。

PLCC

用于评估模型预测得分与人眼主观得分之间的差异。

相关性

,PLCC取值范围为-1到1,值越接近0,说明视频的模型预测分数与人眼主观分数的相关性越弱,值越接近1或- 。 1、数值越接近0,主观得分之间的相关性越强。

SROCC

用于评估模型预测得分与人眼主观得分之间的差异。

排名相关性

,取值范围为0到1。 SROCC值越接近1,模型对一组视频的质量进行排名就越准确。例如,人眼主观地将五个视频的质量排名为1、2、3、4、5。如果模型预测的质量等级也是“1、2”,那么值越高,质量越高。 3, 4, 5”,SROCC值为1,模型的视频质量排名完全正确。如果模型预测的质量排名为“1, 3, 2, 5, 4”,SROCC值为1为0.799,这降低了模型对视频质量进行排名的准确性。

图6:BILIVQA 在公共数据集和Bilibili 自建数据集上的性能。

如图6所示,我们在两个公共数据集和Bilibili自建数据集上测试了BILIVQA模型的性能,发现BILIVQA不仅在Bilibili自建数据集上具有较高的准确率,而且优于其他公共数据集也同样如此。它还提供了有关数据集的强大概括。

2.2 BILIVQA项目的实施

BILIVQA模型推理过程可以简化为以下模块:视频解码、帧提取、帧缩放(预处理)、3D 2D特征提取和模型推理。其中,考虑了视频解码、帧提取和预处理步骤。由于整体耗时的原因,GPU推理模块等待时间较长,只占整体耗时的一小部分。因此,在线调用分配的GPU 资源较少。整个过程中很少使用,浪费资源。因此,为了提高GPU资源利用率和模型训练速度,我们实现了基于GPU的纯硬件工程解决方案。

具体流程如图7所示。输入视频文件在提取每个切片的空间关键帧和时间切片帧后通过GPU硬件进行解码,使用CUDA进行图像缩放,并使用BILIVQA中的TensorRT模型进行特征提取和分析。模型推理的最终输出是模型的预测分数。

图7:BILIVQA纯硬件方案工程流程

3.BILIVQA落地应用

经过实验室数据验证,BILIVQA模型已经具备业务实施所需的准确性和速度。一个重要的实现方向是大规模视频的视频质量监控。使用BILIVQA模型,自动批量计算视频的VQA分数,并在监控面板上可视化为当天的视频质量测量值,以监控用户体验。

在这个过程的开始,有两点需要明确。 1)监控面板的平均图像质量反映了日常视频质量,假设B站整体图像质量基本稳定。白天积分不会跳跃。然而,如果简单地使用VQA模型输出的绝对分数,监控面板上的数据将无法一致、准确地代表整体图像质量。原因是,随着VQA 模型迭代,其输出的绝对分数不可避免地会发生变化。 (稍后详细介绍)),需要一种映射机制,使得同一视频的不同版本VQA模型的评估分数映射值保持稳定。 2)得分与图像质量之间的对应关系。如何定义监控面板上对应某个评分质量的视频,如下定义这两点:

《BILIBILIVQA 图像质量指南》。

3.1 映射机制设计流程

3.1.1 映射机制设计流程

前面提到,VQA模型迭代后,模型输出的绝对分数必然会发生变化。根本原因是VQA模型直接输出的绝对分数没有明确的意义,仅代表相对质量。具体来说,有以下三个原因: 1)不同的数据集有不同的标记标准。人类主观分数的黄金标准涵盖了根据不同尺度的数据训练的模型输出的绝对分数的范围。一套可以是0到5分,也可以是0到100分。显然,在这种情况下,模型直接输出的分数无法在模型版本迭代中保持数值稳定。注释评分系统是相同的。例如,它们都是5 分制,但视频数据集中的失真类型很复杂。通常,VQA 模型的训练数据集是手动收集或创建的。与真实业务场景的数据分布不相符。

例如,图8显示了两个常用的5点视频数据集。对同一批进行评分后,基于两个VQA模型,我们可以看到两者之间的MOS分数分布差异很明显。数据和平均值不可避免地存在较大差异。 3)用于训练VQA模型的损失函数通常是plcc损失和排名损失,它们决定了模型训练的目标:预测值与排名精度之间的相关性。它是真实值,而不是模型的预测值和真实值之间的绝对部分匹配。

因此,PLCC和SROCC性能完全一致的两个模型直接输出的绝对分数可能不同。

图8. 两个常用的视频数据集。其分布特征差异很大。

这意味着,如果测试同一批用户上传的原始稿件,仅更新VQA 模型而不更改测试数据,将会改变市场上显示的平均VQA 分数和平均图像质量。用户上传的稿件没有受到任何处理或转码的影响,具有稳定的真实图像质量分布特征,因此平均图像质量是稳定的,并且在VQA方法之后会出现统计结果,这对我们来说显然是违反直觉的,因为有没有。数量发生了变化。

3.1.2 VQA分数的相对大小是有意义的

尽管我们之前得出结论,VQA 模型直接输出的分数的绝对值不适合作为商业目的的图像质量分数,但VQA 分数的相对大小具有明显的含义。

假设我们有两个视频A 和B。主观上,A的图像质量优于B。优化VQA 实质上是让模型对视频A 的评分高于B。随着VQA模型性能的提高,对A和B图像的相对质量的评估变得更加准确。当然,在实际训练过程中,会优化更多的视频,以便模型能够准确预测高低质量之间的关系。

因此,当使用VQA模型评估一批视频时,不同视频的VQA分数的绝对值往往没有明确的意义,但它们之间的相对大小却显示了质量之间的关系。例如,如果您有一个VQA 分数为3 的视频,那么如果您只看分数3,您将无法判断视频质量是好是坏。此时,我们来看看这个值在这批视频的VQA得分中的相对位置。 3分是25%。这意味着该相对位置在3 个点处比在视频的25% 处更好。含义明确。

3.1.3 根据VQA结果的排名定义图像质量评分

尽管视频在一批基准视频中的排名百分位是相对值,但必须将其转换为绝对值来表征视频的质量得分。 首先,VQA算法有一些基本条件。准确性,即大多数视频都可以正确评分,因此可以足够精确地测量基准视频集中所有视频的图像质量之间的相对关系,以保持不同比例齿轮的含义的稳定性。第二个是这个基准视频集中的数据量。其规模足够大,内容也足够丰富。数据分布与B站视频类似。这可以用作对站点B 视频分布的无偏估计。这确保了图像质量之间的相对关系是有意义的。

关于第一个前提,实验室数据表明,我们自主研发的BILIVQA算法对于极端质量(优秀或非常差)的视频具有较高的检测率,对于不同质量级别的视频(严重编码)具有较高的检测率。表明视频分数的编码存在单调性。第二个假设允许我们找到n个B站视频的无偏估计数据集。这里,n 定义为: 从n个数据中按照特定的采样规则从B站的大规模数据中收集规则,无论重复这个采样过程多少次,BILIVQA模型在这n个视频上评估出不同的分数分布指标(均值,方差,峰度、偏度等)始终保持不变。它趋于稳定。

图9. B站图像质量评分标准结构实现流程

因此,如图9所示,我们首先构建一个基准视频集作为对B站视频内容的无偏估计,然后使用BILIVQA模型对基准数据集中的所有视频进行评分,并创建一个评分查找表。获取不同分数和百分比之间的对应关系。在实际使用中,我们根据BILIVQA模型从表中参考被测视频的VQA分数,得到对应的分数排名,并将排名转换为百分比作为最终的输出值。

3.1.4 B站视频内容分布的无偏估计

基本假设是,B站用户上传的视频内容足够丰富,其质量分布取决于所有内容特征,包括不同分辨率、压缩率、处理和其他操作的影响,这意味着有足够的多样性来覆盖。画面质量。对视频质量的影响。因此,在构建VQA输出分数分布时,理论上应该对用户的原始稿件进行一些采样,统计B站点上的所有视频稿件,并根据该VQA输出分数分布计算出您需要获取和定义的百分比。分数。但实际上,B 站的视频数量巨大,无法统计B 站的所有用户帖子。因为我们认为B站视频的真实分布与用户的观看习惯密切相关,所以我们设置了一个累积播放阈值,以确保排除B站有代表性的视频。如图10所示,主要内容的百万视频作为原创分发。传播时期从2015年左右至今。基准视频集是通过对此原始分布的无偏估计构建的。

图10:基准数据集的传输时间分布

在构建视频集时,必须确保能够提供对实际B站视频内容分布的无偏估计,即视频集的均值、方差、偏度、峰度等分布属性。其他统计特性与真实分布相同。根据采样原理,如果原始分布的采样密度足够高,即采样的视频数量足够多,就可以对全集分布进行无偏估计。那么构建数据集需要多少视频?

采用以下方案。从原始分布中随机采样n 个视频并计算VQA 结果,然后采样n+step 视频并计算VQA 结果。我们可以计算不同n对应的VQA分数的分布,并观察每个分布的均值和方差等统计特性,并且在逐渐增加实验数据量的过程中,当n达到一个常数时,你会看到;数字越大,统计特性越稳定。如果统计属性足够稳定,则该集合的统计属性可以提供实际视频传输的无偏估计。对应的n是构建基准数据集所需的视频数量。

例如,在我们的第一个实验中,我们从筛选的数百万个视频中随机采样了n=500 个视频,并计算了这500 个视频的VQA 分数,以确定均值、方差和标准差(kurtosis)。计算偏度,从step=500的原始分布中随机选择n+step=1000个VQA分数,再次计算均值、方差、峰度、偏度,绘制四个指标的分布线。图11显示,当随机采样的视频数量n超过100,000时,模型得分分布的各种指标呈现出逐渐稳定的趋势。为了进一步提高基准数据集的代表性,我们进一步扩大了基准数据的数量。设定,最终确定n=150,000为B站无偏估计基准数据集的总量。

图11.随着视频样本数量的增加,采样集的统计特性变得更接近实际的统计特性。

3.2 映射机制在业务中的表现

稳定的映射机制应确保映射模型的分数准确反映整体图像质量。换句话说,如果整体视频质量提高,映射模型的分数就会增加,如果整体图像质量没有改变,映射模型的分数也不会改变。即使VQA 模型反复更新,均值分布也不应出现峰值。

3.2.1 体现B站整体视频质量的全面提升。

最终的基准数据集由B 网站的150,000 个热门视频组成。该过滤机制在整个网站的累积观看次数中排名靠前,因此甚至包括几年前的较旧视频。随着用户摄影设备的提高,用户上传的原创稿件质量也在逐年提高,并且从视频分辨率的角度,我们随机采样了当日最新的网络视频(以下统称) . “Temporal Sampling 1 Day”),这批视频的像素量统计(视频宽度x高度),数据显示该时间采样1天数据集的平均像素量增加了1.94。与基准数据集相比的%。这表明用户生成视频的质量随着时间的推移而不断提高。

对这批视频使用 BILIVQA 画质量纲进行打分,测试数据显示,均分达到了 55 分左右。由于输出的百分制分数是由模型直出的分数在基准数据集中的排名转化而来的,所以理论上当视频分布与基准数据集一致的时候,均分一定在 50 分附近,而近期视频的均分达到了 55 分,这就证明了 BILIVQA 画质量纲可以准确的衡量用户稿件质量的提高。
3.2.1 VQA 模型版本迭代后大盘均分保持稳定
紧接着我们验证了我们的映射机制在大盘画质基本稳定的情况下,可以在不同版本的 VQA 算法之间保持均分的稳定。还是前文提到的临时抽样单日数据集,我们同时使用 BILIVQA 和当时在学术界性能表现最好的开源模型 Fast-VQA 对这批视频分别打分,并用我们的映射机制映射为百分制,然后计算均分,结果表明,BILIVQA 和 Fast-VQA 的百分制均分分别为
55.51

54.8
8,说明当采用两种不同的 VQA 模型时,BILIVQA 画质量纲能够保持稳定。
这一属性,可以让应用不依赖于具体的 VQA 模型,同时 VQA 模型在迭代之后可以快速平滑地上线,支持基于 VQA 的应用长期稳定地运转。
3.3 画质分数与主观质量的对应关系
有了基准数据集和模型分数映射准则,我们可以对任意视频输出一个质量评估分数,但这个分数与真实视频质量之间的对应关系如何?只有确定了这个对应关系,才能打通业务落地的最后一个环节,比如,我们可以通过确定一些典型的标杆分数来指导业务行为,如对低画质视频预警、并使用前处理算法进行画质修复,对高画质视频推荐加权等。典型的几组关系如:“严格差”分数线 —— 指低于这个分数后,人眼主观认为画质差得不可接受;“严格好”分数线 —— 指高于这个分数,人眼主观会认为画质绝对好;“画质分界”分数线 —— 指小于该分数则定义为画质差。为了确定这套分数对应关系,我们设计了一系列主观实验。
3.3.1 实验设计
对视频的人眼主观评价,顾名思义是“主观”的,因人而异的,即使
对同一个视频,不同人也会给出不同评价,
因此归根结底我们评价一个视频的质量好坏,是基于”概率“的概念,即多数人认为该视频质量好,则该视频大概率是个高画质视频,反之亦成立。
因此对于上文中提到的三条画质分界线,我们按照人眼主观对画质的评价规律来组织实验。首先我们定义三个档位的画质评价:“画质极差”、“画质适中”、“画质极好”,我们做出如下假设:对一个画质“严格差”的视频,大多数人都会给出“画质极差”的评价;对一个画质“严格好”的视频,大多数人都会给出“画质极好”的评价;对一个画质处于“画质分界”的视频,大多数人会给出”画质适中“的评价。
图12:人眼主观感受 “画质极差”、“画质适中”、“画质极好” 的视频画面
由于人眼主观标准的差异,基准数据集的百分制分数分布中,同一分数段的视频在评价上存在差异,例如同样是 50 分的视频,也会存在”画质极差“、”画质适中“、”画质极好“三个质量档位。因此我们划分了几个分数档位,以 0-70 分为例,每隔 10 分设置一个观测档,每个档位选择 100 个视频,假设评测人员是 25 位,则每个分数档位会产生 2500 条数据,对每个档位的 2500 条数据统计如下三个指标:
好评占比 = ”画质极好“评价数 / 当前档位评价总数 × 100%
适中占比 = ”画质适中“评价数 / 当前档位评价总数 × 100%
差评占比 = ”画质极差“评价数 / 当前档位评价总数 × 100%
3.3.2 实验结果
按照上述方案,我们组织了若干评测人员,进行小规模主观实验来演示该方法效果,完成实验后进行数据回收,在每个分数档位中,每一位评测人员对于单个视频的的评价视为一条数据,每条数据之间具有同等权重。对每个分数档位计算上述”好评占比“、”适中占比“和”差评占比“,绘制堆积柱形图如图 13,注意,
该结果只做演示用,不代表最终用于业务的实际数据。
图13. 分数区间从0-70分,好评占比逐步上升,
差评占比逐步下降,适中占比先升后降
图 13 中,例如画质分数为 10 分的这批视频,只有约 15% 的好评占比,差评占比约 70%,即对该分数段的视频,人们大概率会给出“画质极差”的评价。从图中看出,随着分数区间从 0-70 分,评测人员主观评价的好评占比逐步上升,差评占比逐步下降,适中占比先升后降,基本符合预期。有了这张图表作为依据,业务方可以根据实际业务需求,选择一些相应的业务分界线阈值,制定相应的产品策略,比如低劣画质预警线、极清画质推荐线等。
四、总结与展望
我们研发了 BILIVQA 算法,对其进行工程化。此外,我们制定了一套模型输出分数映射规则,用于落地大盘质量监控,这套映射规则能保证监控大盘上的画质均分具备稳定反映大盘质量变化的能力。最后,我们定义了 VQA 分数与视频画质之间的对应关系。
在无参 VQA 算法的研发、应用过程中,我们发现数据集和采样策略对 VQA 模型的准确率影响显著。在今后的工作中,我们计划制作更大规模的 UGC 视频数据集,并研发更合理的视频采样策略,从而持续优化迭代 BILIVQA 模型。同时,我们将继续探索 VQA 在其他业务场景的落地方案,如视频内容推荐、编码质量监控、指导视频处理等。
哔哩哔哩多媒体实验室是一支技术驱动的年轻队伍,具备完善的多媒体技术能力,以清晰流畅的极致视频体验为目标,通过对自研视频编码器、高效转码策略、视频图像处理、画质评价等技术的持续打磨和算法创新,提出了画量可控的窄带高清转码算法、视觉无损视频前处理、超实时4K60FPS直播超分、高效视频图像处理引擎、BILIVVC编码器等诸多高质量、低成本的多媒体解决方案,从系统尺度提升了整个转码系统的性能和效率, 助力哔哩哔哩成为体验最好的互联网视频社区。
作者:
徐一方 – 哔哩哔哩算法工程师
郝大为 – 哔哩哔哩开发工程师
马鑫军 – 哔哩哔哩高级算法工程师
蔡春磊 – 哔哩哔哩资深算法工程师
来源:微信公众号:哔哩哔哩技术
出处:https://mp.weixin.qq.com/s/C9XTFrGnEUVbxIntnMkTTQ

本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/664127.html

(0)
上一篇 2024年6月3日
下一篇 2024年6月3日

相关推荐

  • 和平精英外放如何听脚步?

    和平精英外放如何听脚步? 在和平精英中,要听清敌人的脚步声非常重要。首先,要调整游戏音效的设置,确保脚步声的音量适中。 其次,要注意环境的影响,例如草地、沙地或水中的脚步声会有所不同。此外,要利用耳机来增强听觉效果,因为耳机可以更准确地定位敌人的位置。还可以通过观察队友的行动来判断敌人的位置,因为他们可能会听到敌人的脚步声。最重要的是要练习和培养自己的听觉感…

    游戏快讯 41分钟前
  • 和平精英钢枪技巧? 和平精英钢枪技巧教学?

    和平精英钢枪技巧? 和平精英钢枪方法: 1、跳伞落点位置以及降落速度,优先比其他玩家落地捡枪是取得优势的关键,位置尽量选取靠边的敌方,不要腹背受敌,这样可以保证专心击退一个方向的敌人; 2、开镜的速度,优先比对方开镜瞄准射击,先发制人; 3、压枪水平,压枪稳定的玩家可以提高自己的爆头率,在对枪过程中率先击败敌人 和平精英钢枪技巧教学? 答,和平精英钢枪技巧教…

    游戏快讯 2小时前
  • 和平精英皮肤去哪里买可靠?

    和平精英皮肤去哪里买可靠? 可靠。淘宝上卖的和平精英玛莎拉蒂皮肤是真的的,你下单购买后,会直接把皮肤发送到你的游戏账号上的,这个完全不用担心的。因为我自己买过,朋友也买过,所以我觉得还挺靠谱,但是我建议你找淘宝销量高的,购买的人多的下单,也可以看看评价,看看差评,差评太多的就别买。自己脸黑的话,还是在淘宝买吧,毕竟吃鸡这个抽奖不好说啊 和平精英皮肤怎么查? …

    游戏快讯 3小时前
  • 和平精英僵尸模式是哪个模式?

    和平精英僵尸模式是哪个模式? 和平精英(Peacekeeper Elite)的僵尸模式是一种生存射击游戏模式,通常简称为“僵尸模式”或“生还者模式”。在这个模式中,玩家需要与其他玩家一起合作,对抗一波又一波的僵尸攻击,同时寻找并准备好逃离的路线,以生存到最后。随着时间的推移,僵尸的数量和强度会不断增加,使游戏变得更加具有挑战性和紧张感。 和平精英僵尸模式怎么…

    游戏快讯 4小时前
  • qq怎么创小号玩和平精英?

    qq怎么创小号玩和平精英? 1. 打开和平精英登录界面,点击【qq登录】。 2. 来到授权页面,点击【切换帐号】。 3. 在弹出来的页面,点击【添加帐号】。 4. 输入qq和密码登录即可。 和平精英怎么创小号? 步骤/方式1 首先打开和平精英。 步骤/方式2 如下图所示,点击下方的设置图标。 步骤/方式3 在设置页面,点击退出按钮。 步骤/方式4 退出登录后…

    游戏快讯 7小时前