"Latency"画像延迟现象介绍
要讨论本章主题-”LATENCY”(画面延迟),我们必须同时了解另一个名词-”画面流畅度”。 对于监控系统来说,画面流畅度,是指影像在「实时」播放时(相对于「回播」而言)画面流畅的程度;越接近以人眼观看越好。 而画面延迟,则是「事件发生被摄影机捕捉」和「透过监控屏幕实时播放出来」的时间差;时间差越小越好。 理论上来说,画面越流畅,延迟越大,反之亦然。 因此,在有限的硬件及系统效能下,一般商用家用产品,大多必须在这两个特点中做取舍及平衡。
大家还记得或曾看过20年前的CCTV监控系统画面吗? 可能是类似这样场景:一个小偷撬开大门,还没看清他是如何打开,他已现身到屋中央;不一会偷儿又使出「上乘轻功」一晃眼又到了房门口;再看一眼,他已偷完房内钱财准备打道回府...。 这么不流畅且与真实不符的监控录像,其实是因为早期系统效能不足,所录下的每秒画面数远低于我们的眼睛所捕捉的画面数,才造成严重的画面不流畅。
那么,监控系统如何让我们觉得画面流畅得好像在眼前发生? 这要从人类肉眼的「视觉暂留」和「脑补」现象说起,前者是指人类视网膜在讯号消失后,残像还会保留一定时间的现象;后者是大脑自行补足画面中间隔的「脑补」功能。 这两个作用加在一起,对一般人而言,只要每秒画面数在24以上,我们的大脑就会认为是「连续」的,或者「流畅」。
由于上述因素,模拟电视的规格PAL / NTSC / SECAM中,每秒画面数都是24以上,至于各规格的差异,其实只是因为不同地区的供电频率不同(50Hz和 60Hz)。 举例来说,供电频率为60Hz的美国和日本,很自然地采用了每秒30格(NTSC制式为29.97格);而供电为50Hz 的欧洲,则采用了每秒25格。 近年来,标榜能做到real time的监控摄影机,也是使用每秒25张(PAL)或每秒30张(NTSC) 的规格。
谈完了「画面流畅度」,我们再回过头来讨论「画面延迟」。 前面提过:
画面延迟(LATENCY)是「事件发生被摄影机捕捉」和「透过监控屏幕「实时」播放出来」的时间差。
以前我们少听到”LATENCY”这个名词,是因为早期摄影机都是模拟的。 而随着近年数字摄影机的发展,人们开始感受到LATENCY也就是画面延迟的现象。
以下举出几个LATENCY相关的例子:
(1) 电视台现场直播节目。
现场主持人与远程观众须在同一时间点作出反应。
(2) 赌场。
当赌场保安于管理中心电视墙”发现”老千作弊偷牌后迅速通知现场保全警卫,若时间存在一定落差,则老千灵活身手早已将证据扔弃或毁去。
(3) 交通轨道摄影或速度感要求高的场域。
台湾高铁理论最高时速可为315公里;日本新干线可达320公里,而预计2027年投入东京名古屋的悬浮列车更高达603公里。 这些高速列车约一秒钟前进88公尺到168公尺。 大家可以轻易想象对于失足卧轨等意外或人为破坏等事故,情节轻重往往就取决于反应时间的毫秒之差。
上述场域,时间差的数值非常重要,必须尽可能追求最小值。 但在多数场域应用或案件的搜查应用下,监控影像画质的高清分辨率、长日数储存能力或是远程传输易地备份等需求,较之LATENCY毫秒之差的反应时间,更加重要。
通常模拟摄影机的LATENCY时间小于数字监控摄影机,对模拟产品而言,早期的CCTV模拟摄影机或是近几年的模拟高清摄影机(AHD/TVI/CVI), 在撷取影像后就直接传送到后端DVR,未经过数字化也不需要压缩、解压缩,所以画面延迟通常小于100ms到200ms (0.1-0.2秒) ,有人以为模拟没有画像延迟,其实不全然正确。 任何技术都有延迟,只是0.1-0.2秒的时间,一般人无法察觉而已。 而数字监控产品中,目前主要有HD-SDI、IP网络监控、DTV数字高清监控等产品。 HD-SDI选择不压缩影像以维持高影像质量及低画面延迟,但也由于不压缩影像,它对缆线质量要求较高,它的传输距离也比较被限制,市场难以普及,只存在于少数特殊应用。 IP网络监控系统,因面市多年发展已久,是目前数字监控的主流产品。 IP网络摄影机传送的是压缩过的影像,近年来主流压缩技术是H.264及H.265。 IP因利用网络传输受到带宽大小影响,因此画面延迟现象最为明显,也造成「LATENCY」这个名词开始被人谈论。 之后的DTV数字监控系统则是为了兼具模拟时代利用同轴线缆传输的好处以及数字时代的数字优势,由联阳半导体运用数字电视DVB-T技术研发而成。 DTV监控与IP一样经过压缩及调变阶段也少不了产生LATENCY但不同在于DTV可利用同轴线缆传输,没有 IP的带宽限制,而且延迟时间是固定且可计算的。
虽然模拟有低LATENCY的优点,但模拟的物理性质,使得模拟产品相较数字产品在传输距离及影像质量上皆受到限制,加上现代人对影像画质的要求越来越高,原本觉得高清720P, 1080P已经非常清楚,但现在4K或4K以上逐渐被人们所接受甚至习惯,也因此,所要传输的影像数据量也越来越大。 在带宽考虑下,必须先对影像进行压缩再行传输,因此除了SDI外, 数字监控产品相对模拟产品在LATENCY(画面延迟)时间较长。
下面针对数字摄影机画面延迟的主要原因做探讨。
一个事件从发生,到影像被摄影机撷取,到从远程透过监控屏幕观看,会经过以下几个程序:
(一)影像撷取:
事件的影像由摄影机内建CCD/CMOS(图像传感器)撷取后,透过ISP(Image Signal Processor, 图像处理器)进行后续如分辨率、曝亮度、白平衡、宽动态、低照度等等处理,才可以因应不同的环境,在不同的光学条件下都能还原出现场细节。 摄影机设计的好坏不仅影响影像质量也会影响Latency。 不同厂家设计的摄影机若本身存在技术缺陷,经过较长时间开机运作后可能出现明显画面停顿,通常需重新启动清除buffer后,才能恢复正常。
(二)数据压缩:
为了便于传输及储存,通常会将视频信号数字他,再根据对影像质量的要求来进行压缩。 数字化及压缩后的视频信号不会因为储存和传输距离而降低质量。
(三)调变:
「调变」是指将模拟信息或数字数据转换成可传送的讯号的过程。 调变有很多种方式,其目的是有利于讯号的传送,并且使频谱资源得到充分利用。 举例来说,若将相同频率范围的讯号分别调变到不同频率的载波上,接收机就可以透过分离载波,收到各别讯号,不致互相干扰,这也是在同一传输介质中实现多路复用的基础。 在监控系统中,模拟摄影机使用模拟调变技术,数字摄影机如IP或DTV则使用其各自的数字调变技术。
(四)传输:
讯号透过不同介质传送的过程。 传输的介质也就是线缆的质量有无劣化或是材质是纯铜或贱金属等等也会影响传输效率。 其中,会影响画面延迟的是传输过程中的通讯协议。 举例来说:IP摄影机的影像讯号是以IP封包方式透过路由器递送。 网络的架构,决定了路由器如何分布,也影响了IP封包传输的快慢。 此外,路由器处理封包表头、检查位数据错误与寻找配送路径等所花费的时间,还有因为某些因素无法立刻将封包传送到网络上,造成封包暂存在队列中等待的时间,皆会反应到画面延迟上。 由于网络的特性,IP监控系统的Latency(画面延迟)是不易预测计算且不固定的。
相对于封包传输系统(packet-based transmission),DTV摄影机采用的是串流传输系统(streaming)。 可以想象成在一条宽广的高速高路上,每辆车子都有自己的车道,可以肆意奔驰一路畅通,因此DTV的影像传输时间是可计算且一致的。
假设采用16QAM, 2/3, 1/32的调变方式,以及8MHz带宽,可支持大约16Mb/s (实际数字为16.09 Mb/s)的数据率。 以同轴线为例,若以1GHz以下,100MHz ~ 900MHz这个频率范围,以及12MHz/ch (8MHz频道两边各留一些空间) 来计算, 800MHz/12MHz = 66,16Mb/s x 66 = 1.056 Gb/s也就是说一条同轴线可以同时支持66路摄影机,总数据可以达到1Gb/s 。
依上述所说,IP与DTV数字监控一大差异点便是DTV的传输时间是一致且可预估的,IP则不然。
(五)解调变:
「解调变」则是将模拟信息或数字数据,从调变过的讯号或载波中还原出来的过程。
(Demodulation is extracting the original information-bearing signal from a modulated carrier wave.)
(六)还原压缩数据:
将为了便于传输而压缩的档案回复成原始影像数据以用来显示的过程。 对于使用NVR/DVR来显示或储存的客户来说,选择的NVR/DVR译码能力会影响到画面流畅性,如果需要处理的画面超过NVR/DVR 的最大译码能力(分辨率太高或每秒张数太多),或者NVR/DVR中所选用的主芯片本身图像处理能力不强,都会导致画面停顿现象。
(七)影像显示:
已译码还原完成的影像讯号将透过BNC、VGA或是HDMI等接口显示在显示器或电视屏幕上。 此时显示器或电视的显示速度也因厂家设计有些微落差,但因差距不大,我们可将之省略。
现在我们已经知道导致Latency的可能原因后,我们可以估算DTV相关产品的Latency。
程序 |
说明 |
对延迟的贡献 |
影像撷取 |
若以 30 fps (30 frames/s, 每秒30格) 为例,影像撷取会有 1000ms/30 ~ 33ms 的 latency (可以理解为每33ms取样一次, 但样本要在取样区间的 33ms 结束时才拿得到) |
33 ms |
影像编码 |
同样的,若以 30 fps 为例,不管是否压缩,或采用何种压缩的方式, processor 平均起来至少每 33ms 要处理一格画面。 这里用30ms左右来计算,实际情况应该会比这个时间短。 |
30 ms |
调变及解调变 |
在 DVB 的规格中有一个 interleaver ,是设计用来打散脉冲式的噪声,总共有 11 个 packets ,每个 packet 有 188 bytes 。 以BW=6MHz, 2K, 16QAM, CR=3/4, GI=1/32为例,查表 (ETSI EN300744) 或计算得知其 useful data rate 为 13.572 Mbps 所以会造成 188 bytes/packet x 11 packets x 8 bits / 13572 Kbps ~ 1.22 ms 。 |
1.22 ms |
另外一个延迟的来源为调变和解调变过程中的信号处理,各厂家的芯片可能不相同。 若以Tx x 1+Rx x 3 共四个OFDM symbols 来计算,使用上述调变参数,查表可得知symbol duration = 308 us,经计算可得delay为 308 us x 4 = 1.232 ms。 |
1.23 ms |
|
传输时间 |
传输时间和数据传输率 (useful data rate) 以及 I frame 的大小有关。 以BW=6MHz, 16QAM, CR=3/4, GI=1/32为例,查表 (ETSI EN300744) 或计算得知其 useful data rate为13.572 Mbps,假设压缩后I frame 的大小大概在 100 KB 左右,则传输此 I frame 所需时间约为 100 KB x 8 bits / 13572 Kbps ~= 0.059 sec = 59 ms 。 特别说明的是,这个传输时间是传完一个 I frame 的数据所需的时间,并非是由于传输距离所造成。 数字数据在调变之后是以电波的形式存在,其波速为光速,所以由传输距离所产生的latency几乎是可以忽略不计的。 |
59 ms |
影像译码
|
影像编码之后的数据率通常是不太均匀的,因为压缩率和影像内容非常相关。 在接收端,要能够播放流畅,解压缩后的输出数据率必须加以均匀化,所以通常会用一个缓冲暂存区 (buffer) 来达成这个目的。 假设缓冲区内多存放1个视频帧 (frame),在一个视频帧率为30的系统中,就是增加了大约 33 ms。 如果不考虑拨放的流畅度,这个部分的延迟就是0。 |
33 ms |
此外,影像译码本身也需要一些数字信号处理的时间,这里以 20 ms 来计算。 |
20 ms |
|
影像显示 |
如前所述,显示器或电视的显示速度也因厂家设计会有落差。 在这里我们同样以一个frame 33ms来计算。 |
33 ms |
总计 |
|
210 ms |
上述表格是一个很粗略的估计,其结果为latency ~ 210 ms。 在这个例子的估算过程中,我们对传送和接收系统做了许多假设,所以如果去测量目前市场上的产品,有很大的机率会得到不同结果,而且差异可能会很大。 如同先前提过:各厂家的设计,可能会针对产品的定位,优化不同的特性,所以系统的画面延迟会有极大差异。
此外,从上表的说明当中,由于采用DTV的COFDM调变方式,其signal processing所造成的latency是 1.22 + 1.23 = 2.45 ms,这个延迟可以被理解为使用COFDM而造成的额外(overhead) latency,它相对于整体的latency 是很小的。 此外,因DTV有不同的数据传输率可供选则,所以要减少传输所造成的延迟,除了设法优化编码器使I frame变小之外,也可以选择较高的数据传输率。
总结,只要是讯号数字化,并且经过编码译码,延迟是不可避免。 相较模拟监控,数字监控虽延迟较大但也有模拟监控无法提供的优势。 在设计得当的情况下,其延迟是可以控制在可接受的范围。 同样是数字监控,IP的画面延迟时间会因网络环境而快慢起伏;相对来说,DTV的画面延迟时间是固定的,由上述估算可知这个时间可被控制在210 ms上下,所以, DTV是结合同轴应用及数字高清的可靠选择。