400-8080-952

浅谈网络视频直播技术

2020-09-08

  最近一段时间,视频直播可谓大火。在视频直播领域,有不同的商家提供各种的商业解决方案,包括软硬件设备,摄像机,编码器,流媒体服务器等。接下来,我就主要聊下技术方面的吧。

  一、直播的技术架构:

  直播视频采集SDK(PC/IOS/Anddroid)——直播CDN

  (直播流分发加速)——直播视频播放器SDK(PC/IOS/Android)

  二、音视频处理的一般流程:

  数据采集→数据编码→数据传输(流媒体服务器) →解码数据→播放显示

  1、数据采集:

  摄像机及拾音器收集视频及音频数据,此时得到的为原始数据

  涉及技术或协议:

  摄像机:CCD、CMOS

  拾音器:声电转换装置(咪头)、音频放大电路

  2、数据编码:

  使用相关硬件或软件对音视频原始数据进行编码处理(数字化)及加工(如音视频混合、打包封装等),得到可用的音视频数据

  涉及技术或协议:

  编码方式:CBR、VBR

  编码格式

  视频:H.265、H.264、MPEG-4等,封装容器有TS、MKV、AVI、MP4等

  音频:G.711μ、AAC、Opus等,封装有MP3、OGG、AAC等

  3、数据传输:

  将编码完成后的音视频数据进行传输,早期的音视频通过同轴电缆之类的线缆进行传输,IP网络发展后,使用IP网络优传输

  涉及技术或协议:

  传输协议:RTP与RTCP、RTSP、RTMP、HTTP、HLS(HTTP Live

  Streaming)等

  控制信令:SIP和SDP、SNMP等

  4、解码数据:

  使用相关硬件或软件对接收到的编码后的音视频数据进行解码,得到可以直接显示的图像/声音

  涉及技术或协议:

  一般对应的编码器都会带有相应的解码器,也有一些第三方解码插件等

  5、播放显示:

  在显示器(电视、监视屏等)或扬声器(耳机、喇叭等)里,显示相应的图像画面或声音

  涉及技术或协议:

  显示器、扬声器、3D眼镜等

  三、常见的视频直播相关协议:

  1、RTMP(Real

  Time Messaging Protocol,实时消息传送协议)

  RTMP是Adobe Systems公司为Flash播放器和服务器之间音频、视频和数据传输开发的开放协议。它有三种变种:

  1)、工作在TCP之上的明文协议,使用端口1935;

  2)、RTMPT封装在HTTP请求之中,可穿越防火墙;

  3)、RTMPS类似RTMPT,但使用的是HTTPS连接;

  RTMP协议是被Flash用于对象、视频、音频的传输。这个协议建立在TCP协议或者轮询HTTP协议之上。RTMP协议就像一个用来装数据包的容器,这些数据既可以是AMF格式的数据,也可以是FLV中的视音频数据。一个单一的连接可以通过不同的通道传输多路网络流,这些通道中的包都是按照固定大小的包传输的。

  2、RTSP(Real

  Time Streaming Protocol,实时流传输协议)

  RTSP定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP提供了一个可扩展框架,数据源可以包括实时数据与已有的存储的数据。该协议目的在于控制多个数据发送连接,为选择发送通道如UDP、组播UDP与TCP提供途径,并为选择基于RTP上发送机制提供方法。

  RTSP语法和运作跟HTTP/1.1类似,但并不特别强调时间同步,所以比较能容忍网络延迟。代理服务器的缓存功能也同样适用于RTSP,并且因为RTSP具有重新导向功能,可根据实际负载情况来切换提供服务的服务器,以避免过大的负载集中于同一服务器而造成延迟。

  3、RTP(Real-time

  Transport Protocol,实时传输协议)

  RTP是针对多媒体数据流的一种传输层协议,详细说明了在互联网上传递音频和视频的标准数据包格式。RTP协议常用于流媒体系统(配合RTCP协议),视频会议和一键通系统(配合H.323或SIP),使它成为IP电话产业的技术基础。

  RTP是建立在UDP协议上的,常与RTCP一起使用,其本身并没有提供按时发送机制或其它服务质量(QoS)保证,它依赖于低层服务去实现这一过程。

  RTP 并不保证传送或防止无序传送,也不确定底层网络的可靠性,只管发送,不管传输是否丢包,也不管接收方是否有收到包。RTP 实行有序传送,RTP中的序列号允许接收方重组发送方的包序列,同时序列号也能用于决定适当的包位置,如在视频解码中,就不需要顺序解码。

  4、RTCP(Real-time

  Transport Control Protocol,实时传输控制协议)

  RTCP是RTP的配套协议,为RTP媒体流提供信道外的控制。RTCP和RTP一起协作将多媒体数据打包和发送,定期在多媒体流会话参与者之间传输控制数据。

  RTCP的主要功能是为RTP所提供的服务质量(QoS)提供反馈,收集相关媒体连接的统计信息,例如传输字节数,传输分组数,丢失分组数,单向和双向网络延迟等等。网络应用程序可以利用RTCP所提供的信息来提高服务质量,比如限制流量或改用压缩比小的编解码器。

  四、视频直播的基本要素

  1、码率(bit

  rate)

  码率即比特率,指单位时间内产生的数据位,单位bps(bit per second),1Mbps=1024kbps=1048576bps。一般的,分辨率一定的情况下,码率越高,视频质量越好。

  (*注意bps与B/s的区别,1B/s=8bps。)

  通常,720P的码流码率在2~4Mbps左右,1080P的码流码率在4~8Mbps左右,对于用户来说则是宽带要求,要看720P的视频需要至少2M的带宽,要看1080P的视频需要至少4M的带宽,当前国内的网络环境下,上下行速率不对等,如果主播要使用高清视频,还得确保主播上行带宽足够。

  编码方式有两种,一种叫定码率 CBR,指按照固定的码率来进行编码,一种叫变码率 VBR,指依照实际数据量大小变化的码率来进行编码。

  2、分辨率(resolution)

  分辨率指的是画面的尺寸大小,分辨率越高,图像越大。一般的,在码率一定的情况下,分辨率越高,视频质量越差。

  分辨率有图像分辨率与显示分辨率两种,图像分辨率指图像的尺寸大小,显示分辨率指屏幕分辨率。

  对于视频而言,有一些固定尺寸的分辨率标准,如D1(720×576)、4CIF(704×576)、VGA(640×480)、SVGA(800×600)、VXGA(1600×1200)等,后来对于固定比例(16:9)的画面,分辨率的的表示方法为纵向高度加扫描方式,如720P(1280×720,逐行扫描)、1080P(1920×1080,逐行扫描)、1080I(1920×1080,隔行扫描),再到后面,使用横向像素描述,如2K(2048×1536或2560×1440或2560×1600)、4K(4096×2160或3840×2160)、8K(7680×4320)。

  720P以下的分辨率称为标清(400线左右,如480P),720P称为高清,1080P/1080I称为全高清,之上称为超高清。

  3、帧率(frame

  rate)

  帧指的是码流中的单张画面,帧率指单位时间内码流的帧数,单位fps(frame per second)。帧率的骤变最容易给人造成画面卡顿掉帧的感觉,稳定的高帧率能保证视频的流畅感。

  因为人眼存在视觉暂停效应,对于时间相差较短的变化较小的画面,人会认为画面是连续的,通常情况下,视频帧率稳定在30fps以上时,人会觉得基本流畅,60fps会让人感觉很流畅,但是高于75fps后,人眼就不太能察觉出流畅度的提升。电影院放映的电影帧率通常为24帧每秒,但人依然觉得很流畅,原因是电影的帧是动态模糊的,人眼会忽略掉这些模糊差异,而计算机上显示的每一帧都是清晰的,所以显示器上对于帧率的要求会比电影院高。

  4、丢包率(packet

  loss rate)

  丢包率指传输中所丢失的数据包数量占全部发送数据包数量的比率。丢包率越大,画面卡顿越厉害,甚至无画面。一般来说,丢包率超过2%时,画面会出现明显的掉帧。

  检查丢包率的方法一般通过长ping或者tracert(或traceroute)来检测,也有一些工具软件可以用来检测或模拟丢包情况,如iperf、netperf等。

  5、时延(delay)

  通俗来讲指的是数据从产生到接收的过程中耗费的时间,一般指的是网络传输延时。

  影响网络延时的因素有很多,传输过程有丢包、网关转换慢、节点处理慢等等都有可能对网络延时产生影响,网络环境中存在不稳定的延时时,极易造成跳帧、卡帧等情况。通常,局域网内延时要求在400ms以下,广域网或互联网延时要求在3~5s以内。

返回