VoIP(网络电话)语音质量测量方法研究

摘要

　　首先介绍了mSwitch系统当前对VoIP语音质量的监控情况；然后就语音质量的衡量标准MOS进行了简要描述；同时对现有的语音质量测量方法PSQM/PSQM+，PESQ，PAMS，E-Model的发展作了相关阐述；其中对E-Model方法进行了较为详细的介绍；最后对mSwitch系统对VoIP语音质量的监控提出了几点展望。

　　1?? mSwitch对VoIP语音质量的监控现状

　　在当前mSwitch系统中，对整个软交换架构中的VoIP的语音质量的监控，没有采取任何的监控手段和措施，仅仅做的就是在释放每个同VoIP相关的呼叫后，要求媒体网关（MG）或者综合接入设备（IAD）上报本次呼叫中如下统计信息：终结点呼叫连接的时长统计（nt/dur）、终结点呼叫连接发送的字节数统计（nt/os）、终结点呼叫连接接受的字节数统计（nt/or）、终结点呼叫连接发送的数据包统计（rtp/ps）、终结点呼叫连接中接受的数据包统计（rtp/pr）、终结点呼叫连接中的所丢失的数据包的统计（rtp/pl）、终结点呼叫连接中的抖动统计（rtp/jit）以及终结点呼叫连接中时延的统计（rtp/delay）。但是这些统计信息上报到CS-P之后，没有作任何的分析和处理，也没有保存。

　　因此，当前的整个软交换的VoIP的语音质量对我们来说就是一个未知数；虽然在部署NGN网络时，可以通过一些第三方公司的专业VoIP工具对整个软交换的VoIP的语音质量进行评测，但是无法弥补mSwitch系统在对VoIP语音质量控制方面的缺陷，那就是当mSwitch系统监测到整个系统的VoIP语音质量在明显下降，并且下降到某个程度时，有必要采取适当地控制措施来尽力改善VoIP的通话语音质量。

　　下面就VoIP的语音质量的测量方法和实施进行介绍。

　　2?? 语音质量的度量标准——MOS

　　在介绍语音质量的测量方法之前，首先将对语音质量的度量标准MOS进行简要介绍；VoIP呼叫质量会受噪声、畸变、信号幅度过高或过低、回声、通话间隙和许多其他问题的影响。在测量呼叫质量时，需要研究三类基本的服务质量：

　　（1）收听质量——指用户对呼叫过程中所听到的声音质量的评价。

　　（2）会话质量——指用户在整个通话过程中基于收听质量和会话能力而对呼叫作出的评价，包括回音和延迟等可能影响通话的相关问题。

　　（3）传输质量——指用于承载话音信号的网络连接的质量。传输质量测量是与细节呼叫质量测量相对的一种网络服务质量测量。

　　呼叫质量测量的目的是通过主观或客观的测量方法，即通过人为的测量项目或基于计算机的测量工具，对一种或多种以上的呼叫质量类别给出一个可信的估计。

　　主观测量是一种久经考验的话音质量测量方法，但这种方法成本太高，费时也太长。有一种更广为人知的主观类测量方法，叫做绝对种类定级(Absolute Category Rating，ACR)测量。

　　在ACR测量中，收听者按照从1~5的5级损伤指标对一系列音频文件进行分级（见表1）。

　　在取得了每个收听者给出的得分之后，计算所有音频文件的一般或平均意见得分(Mean Opinion Score, MOS)。为了使ACR测量得到可信的测量结果，接受测量的人数至少应在16个以上，而且测量应该在一个安静的环境下，在可控的条件下完成。这种测量方法定义在ITU-T P.800当中，该MOS值就是语音质量的度量尺寸，显然是MOS越大，语音质量越好。

3?? 语音质量测量方法的发展

　　上述IUT-T P.800中所定义的方法得到的MOS值是一种主观的测量方法，并且该方法成本太高，费时太长；因此，在后来的研究和探索中，先后出现了如下几种客观测量方法：

　　●PSQM /PSQM+：Perceptual Speed Quality Measure，感知通话质量测量[2]，定义在ITU-T P.861当中；

　　●PESQ：Perceptual Evaluation of Speed Quality，感知评估通话质量测量[3]，定义在ITU-T P.862当中；

　　●PAMS：Perceptual Analysis Measurement System，感知分析测量，英国电信定义；

　　●E-Model：本文将重点介绍的测量方法，该方法定义在ITU-T G.107当中。

　　PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络，在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号，进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势，并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。最开始这些方法被用于测量编码算法和在实验室分析设备问题，如分析电话机的语音质量；并且都是基于PSTN网络，因此并不适合应用到VoIP网络系统的语音测量。这些方法主要缺点体现在：

　　● 不是基于IP网络的方法，不能反应IP网络的衰减问题，如网络传输中的Delay和Jitter和Packet Loss等问题；

　　● 不能说明End-to-End的网络延迟，而其他过多的延迟因素影响到了MOS值；

　　● 只能输出在任何时间内的某一方向的语音质量，不是真实通话中的双向结果；

　　● 无法模拟多个或成百上千个重复同步的通话。

　　而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题，因此非常适合VoIP语音质量的测量。E-Model模型是欧洲电信标准协会(ETSI)开发的，本来用作电信网络的传输规划工具，但该模型也在VoIP服务质量测量中广泛使用，在下面的章节中将对该模型进行详细的介绍。

　　此外，有必要指出，平均主观值MOS是广泛认同的语音质量标准。因此，无论采用何种方法，所有测量方法所得到的结果都必须对应到最终的平均主观值MOS。

?　　4?? VoIP语音质量测量方法——E-Model

　　E-Model是基于如下通话连接模型进行测量的（见图1），其最终的测量结果就是得到R值(R Factor)，被称为全面的网络传输等级要素，也就是说，确定包含话音通道的“由口至耳”特性的“R”因素。R因素的取值范围为0~120，窄带电话上R因素通常取50~94，而宽带电话上R取值在50~110。R因素的值可以转换为会话和收听质量MOS得分(MOSCQ and MOSLQ)的估计值。R值的计算从没有网络和设备的损伤影响开始，此时语音质量是最好的，R=R0。R0是无网络延时和设备损伤因素的基本信号与收发噪声以及电流、背景噪声之比，即基本信噪比。但是因为网络和设备损伤因素的存在，减少了通过网络的语音质量，R值的基本计算公式如下：R=R0-Is-Id-Ie-eff+A。

　　其中，Is：与语音信号传输同步的损伤；Id：语音信号传输延时后的损伤；Ie-eff：由设备引入的损伤，例如编码器损伤；A：优势因素，致力于考虑呼叫者的期望因素，在大部分情况下，一般设置为0，但是对于移动用户，因为移动的便利而能容忍低质量的语音质量，所以该值可以大于0。在G.107中，就基本公式中的各个值的计算（A除外）都提供了复杂的计算公式，并且涉及到20个参数值，具体的计算公式这里就不一一介绍了，具体可以参考ITU-T G.107。

　　通过对涉及参数和通话连接模型的对照，可以发现大部分参数都是对通话设备(话机)和通话环境的要求，如参数Ds、Dr是对发话端和收话端的话机噪音值的评估因子；SLR，RLR，STMR，LSTR是对发话端和收话端声音响度相关的评估；TELR，WEPL是对通话中的回声相关进行评估的因子；Nc是对通话中的电路噪音进行评估的因子；Nfor是对收话端的噪音背景的评估；Ps和Pr是对发话端和收话端的空间噪音的考虑因素；而这些因素对于评估测量VoIP的语音质量是没有太大的意义，因为这些因素同IP连接和传输没有直接的联系，并且这些参数在每次的VoIP通话当中也无法直接获取，而同VoIP相关的几个参数（T，Tr，Ta，qdu，Ie，Bpl，Ppl）是同如下几个因素有着直接的联系，下面就这几个因素进行介绍。

　　（1）Codec：通话中采用的编解码方式，这是以硬件或者软件的方式采样模拟语音，决定了语音数据包的传输速率。在ITU的标准中，G.711u/G.711a是一种高质量的无压缩的编解码方式，但是占用相当大的带宽；而其他的低速率的编解码方式，如G.726/G.729等系统，占用的带宽比较小，但是使用了容易损失的压缩算法，削弱了语音的传输质量；而在实际的应用中，低速率的Codec能够在相同的带宽下接入更多的呼叫连接，但是又导致了更大的网络延迟（对参数T，Ta，qdu存在着间接的影响），并且对网络丢包更加敏感。Codec的选择对E-Model中的R值有着明显的影响，直接反应是对在Ie参数上，在ITU-T的标准中，有G.113的Appendix I就Codec和Ie的关系作了推荐，可以作为计算R值的参考。

　　（2）网络延迟：网络延迟将引起语音会话过程的空白，带来语音的变形和会话的中断。E-Model关注的是End-to-End的网络延迟。在实际应用中，一般是如下几个方面而导致了网络延迟：传播延时：取决于传播的介质和距离；传输延时：传输过程中在网络设备上所用时间；打包解包延时：用采用的Codec进行数模转换的时间，不同的Codec所导致的延时是不一样的，但是对于同一种Codec，其延时基本是固定的；抖动缓冲延时：在作用在接受端，为保持住一个或多个接收的数据包，克服网络抖动的影响。网络延迟将直接反应在参数T，Tr，Ta上面。

　　（3）网络抖动：网络抖动就是网络延时的变化，当网络抖动值大于50ms时，MOS值将急剧下降；但是在ITU-T G.107中，是这样说的：“抖动对语音传输质量的影响还在作进一步的研究，目前没有包含在E-Model的算法中”。但是通过在接收端增加抖动缓冲的量，则可以有效地降低抖动的影响，但是却增加了网络延时。

　　（4）网络丢包：网络丢包是影响语音质量和MOS值的关键因素，存在两种类型的丢包：随机丢包（Random Loss）：这是随机产生的丢包，如果量小，对语音质量影响小；连续丢包（Burst Loss）：这是指连续一个以上的数据包的丢失，这对语音质量的影响是明显的。因此对丢包作有效的监测是非常有必要的，并且在ITU-T的标准中，其G.113的Appendix I中就Codec的选择所导致的Bpl作了映射，可以作为计算R值的参考。当某种Codec采用适当的丢包补偿技术也能够降低丢包对VoIP语音质量的影响，并优化了语音质量。

最终通过E-Model得到的R值，通过ITU-T G.107中的Appendix B的计算公式，可以得到如下的一种关系表（见图2）。其中：GoB（Good or Bad），PoW（Poor or Worse）。

?　　如果平均主观值MOS为4或更高，被认为是比较好的语音质量，而若平均主观值MOS低于3.6，则大部分接听者不能满意这个语音质量了。因此，当软交换系统系统监测到VoIP的通话语音质量的R值处于70以下的时候，则需要采取一些适当的措施来改善语音质量了。

　　5?? 运用E-Model在mSwitch系统中对VoIP语音质量测量的研究

　　在当前的软交换架构mSwitch系统中，可以称之为VoIP的呼叫可以划分为如下两类：

　　（1）第一类是需要向软交换系统的媒体网关（MG）申请IP资源的呼叫。这类呼叫有如下几种情况：终端都是IP，但是需要媒体网关作IP Relay，SIP到SIP，MGCP到MGCP，H323到H323，中间需要媒体网关作IP中继；一侧终端是IP，一侧是非IP终端，如SIP到V5电话、MGCP到PHS等；通话双方都是非IP终端，但是通话连接跨媒体网关了，如MG1上的PHS用户同MG2上的PHS用户通话等。

　　（2）第二类就是不需要向软交换系统的媒体网关申请IP资源的呼叫。这类情况如IP终端到IP终端的End-to-End连接模式。

　　对于第二类情况，语音质量需要的相关参数有各种协议处理方式不一样，如MGCP协议可以获取，SIP和H323则没有获取，这里就不作讨论。

　　针对第一类的连接通话情况，可以用建立如下的通话连接模型，如图3所示。该图是整个软交换系统的简化图，具体的细节没有描述。

　　基于该连接模型，对于每次的VoIP通话，CS-P可以从MG获取如下的相关信息：终结点呼叫连接采用的Codec（忽略了Codec动态改变的情况），呼叫连接的时长统计（nt/dur）、呼叫连接发送的字节数统计（nt/os）、呼叫连接接受的字节数统计（nt/or）、呼叫连接发送的数据包统计（rtp/ps）、呼叫连接中接受的数据包统计（rtp/pr）、呼叫连接中的所丢失的数据包的统计（rtp/pl）、呼叫连接中的抖动统计（rtp/jit）以及呼叫连接中时延的统计（rtp/delay）。从这些信息中，可以获取到计算R值所需要的参数（见表2）。

　　而对于其他的参数，由于CS-P系统来计算每次VoIP的通话质量时，要获取各种真正的通话现场环境参数和话机相关的参数是不现实的，因此，这些参数值可以采用参考ITU-T G.107中Table 2中的参考值。

　　因此，在mSwitch系统中，可以使用E-Model通过如下的步骤来获取每次VoIP通话的语音质量的R值和MOS值，具体计算公式参考ITU-T G.107。

　　第一步：确定相关参数，计算基本信噪比R0（使用的都是ITU-T G.107中Table 2中的参考值）；第二步：确定相关参数，计算语音同步损伤因子Is（使用的都是ITU-T G.107中Table 2中的参考值）；第三步：确定相关参数，计算语音延时损伤因子Id（qdu使用的都是ITU-T G.107中Table 2中的参考值）；第四步：确定相关参数，算计语音设备损伤因子Ie-eff（根据Codec对照ITU-T G.113 Appendix I，找到合适的Ie和Bpl值）；第五步：根据终端类型，确定A值；第六步：计算R值，根据R和MOS的对照关系表，得到MOS值。

　　使用E-Model测量VoIP的语音质量，可以准确地建立包丢失分布和最终用户感觉模型，将包丢失分布与编码器和时延等建立关系，以便给出一个单一的得分，该方法在数据网络中进行语音质量评估具有相当的准确度。

　　6? 结束语

　　但是，需要看到的是：正如ITU-T G.107规范开头所述“这样的评估仅用于传输设计的目的，并非为了实际用户评价预测（因为还没有ITU-T建议的统一的模型）。”E-Model相当大数量的可能输入参数的组合情况还未经过足够的界内验证和充分的实验室测量。许多对于传输设计具有高重要度的参数组合情况，E-Model已经可以被确信应用，但是对于其它的一些研究未涉及或不成熟的参数组合情况，E-Model的估测仍处在置疑和研究的阶段。

　　对于软交换设备mSwitch系在VoIP方面的理想情况，应该做到如下几种情况：

　　●CS-P能收集每个同IP相关的呼叫的相关统计值，如抖动时间、延迟时间、丢报率等，并进行统计和计算，得出相关的R值和MOS值，作为整个CS-P的VoIP的语音质量参考依据；

　　●CS-P能提供丢报率的告警提示以及语音质量下降的告警提示；

?????? ● CS-P能根据计算出来的MOS值，对相应的VoIP呼叫进行相关的调整和控制，如控制媒体网关选择合适的语音压缩算法，或者提供语音包缓存区的大小以减少抖动对语音质量带来的影响。