近两年即时通讯/直播产品炙手可热，市场上针对ToB的产品日益增多，企业该如何去选型呢？本文分享了笔者对于直播产品的思考，将从直播SDK实例功能特性、常见业务场景、注意事项及最佳实践等方面介绍如何进行实例选型，旨在帮助您了解应如何结合实际业务场景选购音视频产品。

前言

近期，ChatGPT火遍全球，作为冲浪第一线的开发者可不能错过。刚好在做“音视频技术选型”的调研，不如找ChatGPT来聊聊，看看它怎么回答？

我用ChatGPT做直播技术选型，卷死了同事

在同质化竞争如此激烈的今天，虽然各厂商都有自己的差异化优势，但开发者在选型时并没有识别或对比出差异，要想实现直播产品稳定使用的目的，在直播选型的时候有个好的开始是非常必要的。相信很多企业或团队在选型时面临过以下问题

各家厂商直播SDK差异都有哪些？
什么样的直播SDK才适合自己的企业或团队？
直播SDK接入之后的落地情况怎么样？

下面结合企业立场来推导直播SDK产品选型的核心要素，以市面上几家厂商为例便于大家更全面的对比权衡，希望对面临选型的开发者有所帮助。

实例选型分析过程如下图所示：

我用ChatGPT做直播技术选型，卷死了同事

一、自研还是第三方服务？

对于开发者来说，开发一款产品首先面临的第一个选择就是：自研还是使用第三方音视频服务？目前大部分专注于业务的公司都会使用第三方音视频服务，少部分大厂后期会选择自主研发。特别一些技术门槛高、行业专业度高的模块还是会采购第三方音视频服务，例：强互动性的多人实时连麦。

自主研发与使用第三方音视频服务优缺点如下：

	第三方音视频服务	自主研发
团队建设成本/难度	低	高
业务上线周期	接入sdk可快速上线	搭建音视频技术体系长则3～5年，最短周期也需半年
音视频体验	业务实现效果较优，经过大量市场用户验证	短期内效果一般，很难跟第三方SDK对比，头部客户例抖音前期也是使用第三方厂商
团队使用业务变化能力	高，多年技术积累、多种场景解决方案	差，需不断学习新技术、学习周期长
业务差异化新需求	中，可通过选型成熟的厂商提供场景解决方案或专业定制化方案解决。例：即构、腾讯云团队	高，可按需定制、个性化调整
投入费用	低，根据实际业务规模按需付费	高，研发人力、运营维护成本

综上，若处于业务早期初创开发团队，要求快速上线、专注业务、同时业务方向不稳定，同时业务方向为社交娱乐、远程办公、在线教育等常规类应用，建议选择第三方音视频SDK快速集成。

第三方直播SDK服务的价值在于：为开发者提供实现音视频能力的一站式技术方案，目的在于可以降低 App 开发的技术门槛、人力和研发成本、提升开发效率。

下面我将针对“如何选型一款好的直播SDK”展开聊聊，分享选型的方法和避坑经验。

二、如何选型？

音视频技术可以赋能上百种应用场景，开发者该如何选择最友好的音视频厂商成为一大课题，开发者需要了解实时音视频技术选型中的坑，以便提高开发集成效率。可从以下6个方向进行综合考虑。

选大厂还是垂直领域的音视频厂商？

云计算大厂一般都提供laas到paas、saas的整体服务，在销售laas服务时搭配音视频服务。产品生态较丰富，不仅音视频能力，还有CDN、推送、测试等服务，提供一整套从laas到paas的服务，开发者可一站式采购较为省事。

垂直厂商因经验积累、技术专注、研发实力全部all in在音视频赛道。故优势在于：更聚焦通讯和视频云，更注重PaaS平台本身的服务，提供更专业的一体化产品与服务。比如：垂直厂商即构去年发布了Express SDK3.0&星图，由实时通讯RTC全面升级成实时互动RTI，实现了能力与服务的新跨越。画质、音质增益更显著，终端客户体验全面升级、场景适用更多元丰富...

RTI代表一切实时互动场景下所需的产品和技术能力综合，包含RTC+IM+直播+Avatar+AI+状态同步等，更强调互动。适用于元宇宙、社交娱乐、办公会议、电商直播、游戏竞技等场景，满足开发者快速搭建对应场景的音视频应用，实现业务快速增长。

云计算大厂跟垂直音视频厂商各有优势，开发者可结合实际业务需求从技术、产品、服务等多个维度综合考虑。

三、好的SDK的衡量标准？

基于多年的音视频开发经验以及结合身边开发者的反馈，音视频SDK的产品核心功能是选型的关键，以下有一份功能自检清单。

一个好的 SDK 的衡量标准有以下几点：产品功能生态完整性，技术指标相对强弱，解决方案成熟度，成功案例/合作客户数等。

四、产品功能生态的完整性

第一步开发者需明确：需应用在什么业务场景？核心实现什么能力？

音视频在各行各业的应用越来越广泛，成为互联网产品的标配。有大家熟知的消费互联网领域，近几年疫情带来的远程交流协作的需求，使实时音视频在产业互联网场景加速渗透。比如：远程交流、协作，企业数字化与工业数字化场景...

随着音视频技术迅速发展，除基础音视频能力外各大厂商推出多种新颖玩法。下面列举主流场景中所需的音视频能力要求，按基础、进阶、特色三个维度进行分类，便于开发者查阅。

社交娱乐场景

消费互联网领域是音视频技术渗透最广泛的场景，音视频功能成为社交娱乐产品的标配。

社交娱乐领域的场景含：语聊房、在线KTV、秀场直播、社交小游戏等，将社交娱乐所需功能分为：基础功能、进阶功能、特色功能。市面上的SDK基本都覆盖了基础功能，随着社交娱乐场景的发展，对互动/玩法上衍生了更多要求。如在线K歌场景需正版曲库，秀场直播场景更看重主播与用户之间的互动，实时消息，送礼物，VIP用户权益等。

	产品功能	功能描述	业务场景
基础功能	音视频通话	用户加入同一个房间，并进行音视频通话。	1v1 视频通话、多人视频会议
	音视频直播	同一个房间，包含主播及观众，主播可以进行音视频直播，该房间内的观众可以观看直播。	秀场直播、游戏直播、电商直播
进阶功能	直播连麦	一个房间内，可以出现多个主播，进行同屏连麦直播。	多主播跨区连麦、多人 KTV合唱、多人连麦直播
	房间实时消息	实时消息主要提供纯文本消息的收发功能，可向同一房间内的其他用户发送广播消息和弹幕消息，或者对某些指定用户发送自定义消息，并可以根据需要自行实现点赞、送礼物、答题等互动功能。	秀场直播、语聊房
特色功能	变声	通过改变用户的音调，使输出的声音在感官上与原始声音不同。如男声变女声、机器人音效、外国人音效等。	匿名社交、游戏娱乐、角色扮演
	音乐版权/音效	支持通过获取正版曲库资源，播放背景音乐，并展示变声混响多种趣味效果。	在线KTV
	美颜美型	基于 AI 视觉服务，提供美白、磨皮、锐化、红润等基础的美颜功能，支持大眼、瘦脸、小嘴、亮眼、白牙、瘦鼻等美型效果，打造独特自然的直播效果。	秀场直播、音视频通话、社交小游戏
	送礼物	支持用户向房间内主播或其他指定用户赠送礼物。	秀场直播、社交小游戏
	小游戏	提供直播间内的实时PVP、语音互动、桌游、秀场互动等多种小游戏类型，助力客户提高产品活跃、留存、使用时长及营收能力	社交+小游戏

在线教育场景

在线教育领域的场景含：职业教育、K12教育、素质教育、学历考试等，在线教育场景因比较成熟，各细分场景的功能要求也比较相似，围绕着老师与学生在教学过程中的互动，丰富课堂内容提升教学质量。如屏幕共享、超级白板等功能。

	SDK 或服务	功能描述	业务场景
基础功能	实时音频	为课堂里的教师和学生提供实时的音视频互动功能。	职业教育、K12教育、素质教育、学历考试
	实时音视频	提供高清流畅、多平台互通、低延迟、高并发的音视频服务。	职业教育、K12教育、素质教育、学历考试
	屏幕共享	教师能与学生之间共享课件，丰富课堂教学内容。	职业教育、K12教育、素质教育、学历考试
	文件共享	能将主流的文件格式类型转码为平台无关的格式，并无损还原原文档内容、格式、布局、动画。	职业教育、K12教育、素质教育、学历考试
进阶功能	超级白板	能提供实时的白板互动，做到音画同步，提高课堂教学质量。	职业教育、K12教育、素质教育、学历考试
	云端录制回放	快速实现音视频通话及会议直播的录制功能，支持录制回放	职业教育、K12教育、素质教育、学历考试
	即时通讯IM	丰富的 API 接口，快速实现单聊、群聊、房间、系统通知能力	职业教育、K12教育、素质教育、学历考试
特色功能	AI美声美颜	基于领先的 AI 算法，提供包括美颜、美型、美妆、滤镜、贴纸、智能分割、人脸检测等功能，实现美颜实时渲染，打造自然美颜效果	职业教育、K12教育、素质教育、学历考试
	百万大房间	房间内支持百万用户同时观看直播，秒级平滑扩容	职业教育、K12教育、素质教育、学历考试

元宇宙场景

随着互动技术矩阵逐渐完善，沉浸式体验升级，音视频向元宇宙进阶。

虚拟形象、虚拟直播、虚拟语聊等元宇宙新场景，对实时音视频互动也提出了更高要求，要求更低的延迟和音视频交互质量，为用户提供更沉浸式的使用体验。

	主要功能	功能描述	业务场景
基础功能	音视频通话	预留灵活、友好的扩展接口，快速接入即构实时音视频服务。让音视频无处不在，满足用户在元宇宙里实时交流	虚拟直播、虚拟语聊、虚拟K歌、虚拟会议
	实时音视频	超低延时下，观众实时接收主播的音视频流，直播流畅不卡顿。	虚拟直播、虚拟语聊、虚拟K歌、虚拟会议
进阶功能	实时消息互动	通过房间实时消息功能，实时展示房间内的消息，例如发消息、进退房提示、互动通知等。	虚拟语聊
	实时录制	快速实现音视频通话及会议直播的录制功能，支持录制回放	虚拟会议
	超低延迟合唱	超低延迟合唱体验，端到端延迟低于 70 ms，达到人体无感官延迟水平，全球用户均可享受真正实时的体验	虚拟K歌
	音乐音效	200万+首词库版权，覆盖热门歌曲，快速实现 k 歌业务。通过获取正版曲库资源，播放背景音乐，并展示变声混响多种趣味效果。	虚拟K歌
	送礼物	支持用户向房间内主播或其他指定用户赠送礼物。	虚拟直播、虚拟语聊、虚拟K歌
	范围语音	让声音具有距离感，超出限定范围则无法听到声音	虚拟K歌、虚拟语聊房、虚拟会议、虚拟演唱会、虚拟发布会
特色功能	焦点语音	最高50人同时开麦，支持焦点语音，提供优质稳定的基础体验	虚拟语聊
	Avatar 虚拟形象	自定义捏脸换装，塑造个性化形象。快速生成专属形象，提供200+素材，支持表情随动和肢体随动手势识别等AI能力。	虚拟人、虚拟K歌、虚拟语聊房、虚拟会议、虚拟演唱会、虚拟发布会
	3D场景	无需Unity开发经验，半天快速实现3D虚拟场景的渲染。丰富的场景拓展能力，支持快速搭建虚拟场景。	虚拟K歌、虚拟语聊房、虚拟会议、虚拟演唱会、虚拟发布会
	3D空间音效	支持20+模拟真实 K 歌体验，进行 3D 空间音效渲染，声音将会随距离的增加而衰减，直至超出所设置的范围，则不再有声音。	虚拟K歌、虚拟语聊房、虚拟会议、虚拟演唱会、虚拟发布会
	万人实时状态同步	提供多人同屏下，人物位移、动作、场景交互等状态的实时同步，支持万人量级高并发的场景，保障稳定的帧数据同步服务。	虚拟发布会、虚拟会议
	人物控制与场景交互	提供摇杆控制人物在场景中*移动。提供丰富多样的预置人物动作库，提供第一视角、第三视角等多种视角切换能力。提供人与人，人与场景的互动能力。	虚拟K歌、虚拟语聊房、虚拟会议、虚拟演唱会、虚拟发布会

五、技术指标强弱

技术指标的强弱直接影响后续的开发成本和用户体验，所以在做音视频选型时需关注三类特性指标，体验指标、底层技术指标、其他指标。

不同应用场景对核心特性指标的要求不同，主要体现在用户对实时性、互动性两大消费习惯。培训直播要求双向互动，延时秒级即可。互动直播PK连麦则超过两个用户间的互动，时延要求更严格毫秒级别。

图例：音视频应用场景对实时性和互动性的要求

我用ChatGPT做直播技术选型，卷死了同事

核心特性指标：

体验指标：端到端延迟、流畅度、音画质量、首帧耗时
底层技术指标：抗丢包率、3A处理、网络传输、CPU内存占有率
其他指标：包体积大小、单房间容量

以音视频厂商声网、即构为例，指标数值来自各厂家官网链接

	特性	即构	声网
体验指标	端到端延迟	平均300ms	端到端小于400ms
	流畅度	优秀	优秀
	音画质量	音频采样率：16 kHz ～ 48 kHz，支持单、双声道。 SDK 采集支持 4K 分辨率、1 fps ～ 60 fps 帧率。	音频采样率：16 kHz ～ 48 kHz 支持单、双声道 SDK 采集支持 1080p 分辨率，60 fps 帧率，自采集支持 4K
	首帧耗时	基本无感知	基本无感知
底层技术指标	抗丢包率	视频上下行抗丢包率70%，音频上下行丢包80%	音频上下行抗丢包率 80%
	3A处理	支持	支持
	网络传输	全球部署500 多个核心节点，音视频传输依托于自研的MSDN基础网络、即构MSDN融合了多个云商，相比自建网络和单一云商架构，可用性更高；支持千万级并发，单房间百万级并发，并且能够实时探测线路质量，针对线路故障可以秒级响应和自动恢复，相比人工干预更稳定，保证服务的可靠性。	FPA 全链路“端”+“云”协同加速，提供更优秀的整体加速性能与稳定性。
其他指标	SDK 包体积	2.98-11.52 MB	4.61 ～ 13.94 MB
	单房间容量	单房间可以支持50路音视频互动，根据需要可以配置更多，纯语音万人互动	音视频最高支持17人连麦互动

通过调研发现，用户最不能接受实时音视频的三个质量问题是延迟大、卡顿明显、画质差。我们测评了即构、声网的端到端延迟、流畅度和清晰度，对比分析如下：

流畅度、清晰度： 在同一网络和同一设备下测试，在视频画质方面，个人主观感知清晰度是差不多的，延时层面均感受不到明显延迟，而在和wifi隔一段距离的弱网情况下，受限网络各服务商的清晰度和流畅度都略有下降，在整体感观上即构表现好一些。

六、解决方案成熟度

技术选型的关键点还在于：解决方案的成熟度，方案越成熟后续开发越省力，对开发者越友好。成熟度主要从以下三个方向：方案拓展性、场景覆盖、头部客户。

方案易用性和拓展性：接入流程是否简单？拓展性是否够强？生态化是否好？是否提供全面友好的第三方开发者支持？
场景覆盖：是否可以全场景覆盖，是否按场景提供核心功能，音视频质量是否根据不同场景进行优化
头部客户：是否有行业头部大客户？是否有企业级APP接入实战经验？是否提供全流程服务？

6.1 方案易用性和拓展性

方案接入流程的快慢决定着业务是否可快速上线抢占市场，这就要求SDK的模块设计简洁清晰、有完备的注释、和不同规格的说明。市面上的音视频SDK接入流程通常有以下3步，1.获取APP ID，2.集成SDK，3.实现音视频功能。如下图：

厂商通用接入流程：

我用ChatGPT做直播技术选型，卷死了同事

即构和声网的详细接入流程

序号	具体步骤	即构	声网
1	准备阶段	注册开发者账号获取appid+appSign	注册开发者账号获取appid+app证书+token
2	集成SDK	集成依赖包	集成依赖包
3	初始化本地引擎对象	通过appid+appSign创建本地RTC引擎对	通过appid创建本地RTC引擎对象
4	推本地流	1.loginRoom登陆房间 2.startPreview开始本地预览 3.startPublishStream开始推本端流	1.setupLocalVideo设置本地视图 2.joinChannel加入频道
5	拉远端流	1.loginRoom登陆房间 2.startPreview开始本地预览 3.starPlayStream开始拉远端流	1.joinChannel加入频道 2.setupRemoteVideo设置远端试图
6	停推本端音视频	1. mutePublishStreamVidio/mutePublishStreamAudio 2. stopPublishStream 3. enableCamera/muteMicrophone	1.muteLocalVideoStream/muteLocalAudioStream 2.enableVideo/enableAudio
7	退出频道/房间	logoutRoom	leaveChannel
8	销毁引擎	destroyEngine	RtcEngine.destroy()

声网&即构音视频通话时序图如下

PS:图片来自各厂商官网

我用ChatGPT做直播技术选型，卷死了同事

通过实战接入了即构跟声网sdk,两家厂商接入流程差异不大各有优势，总结如下：

证书鉴权方面： agroa在加入频道时，必须要携带token进行验证；而zego如果需要token校验的话，在ZegoRoomConfig进行配置即可，这样的处理更加人性化，方便开发者快速集成和测试
音视频 流 概念上： zego和agroa本身其实都具有流的概念，只是zego会把流的概念也抛给客户，而agroa是将流的概念以一种隐式的概念存在于API中，不直接向用户抛出流的概念，概念上agroa的SDK会比较人性化，比较好理解。而清楚了即构流概念后，对音视频场景的搭建在技术架构的理解上更加透彻。
推拉流 概念上： agroa加入频道时默认自动推拉流，因为没有抛出流的概念，在同一个频道的其他用户都会被以uid作为唯一标识拉流，而zego登陆房间后进行手动拉流，抛出流的概念直接对单条流进行控制；在逻辑上扩展性更高，在完成复杂业务逻辑时也更加方便。

厂商的产品架构决定了其方案的拓展性，拓展性强的方案可以提升开发效率，节约开发成本。开发者在选型需关注厂商的产品架构，上下游生态链。目前领先的实时互动云服务厂商声网和即构有都有较完整的产品架构和健全的上下游生态链，通过提供丰富的实时互动API、功能组件及插件等，帮助开发者及企业客户轻松搭建各类实时互动场景应用。

如以下产品架构图看，声网和即构以RTC Paas为核心业务，并逐步拓展构建音视频产品矩阵。第三方生态建设上看，即构提供：AI 视觉、内容审核、第三方云厂商、语音转文字、正版版权音乐等服务，声网通过云市场提供：视频特效、语音转文字、内容审核等插件。

即构和声网的产品架构图

我用ChatGPT做直播技术选型，卷死了同事

6.2 场景覆盖和头部用户

解决方案成熟度还需考虑应用场景拓展和头部客户覆盖，随着音视频的迅猛发展，实时音视频已在各行各业有所应用。同时也对音视频厂商提出了更高的要求，如何降低搭建场景化应用的门槛，助力开发者快速搭建实时互动场景的应用。

以即构为例，即构提供灵活、即接即用的模块化产品组合，以及快速、可视化、低代码的接入方案，开发者/企业可根据实际业务场景需求进行灵活组合。正因如此，即构赋能泛娱乐、在线教育、视频会议、游戏竞技、远程医疗、物联网IOT、线上金融、政企服务等二十余行业赛道的100多种场景。

声网行业场景覆盖

我用ChatGPT做直播技术选型，卷死了同事

即构行业场景覆盖

我用ChatGPT做直播技术选型，卷死了同事

社交娱乐场景

	腾讯云	即构	声网
场景解决方案	语聊房、秀场直播、Web互动直播、语音电台、在线K歌、相亲房、小程序直播	语聊房、秀场直播、在线KTV、社交+小游戏、视频相亲、在线健身、互动播客、FM电台	在线K歌房、直播、社交、游戏、电商、声动语聊
场景优势	支持跨房间PK、超低延迟、智能美颜	支持连麦、玩乐、直播等娱乐玩法。超低延迟、数量最多的正版曲库、行业首家支持实时合唱、美颜美声	实时连麦、百万人大频道、高品质音视频、无感切屏
客户案例	他趣、全民K歌、唱吧、微光	映客直播、咪咕、Soul、TT语音、喜马拉雅、乐逗游戏	MOMO、Meet me

在线教育场景

	腾讯云	即构	声网
场景解决方案	互动大班课、互动小班课、AI课程	1V1在线教学、AI课堂、双师课堂、超级小班、小班课、在线自习室、互动大班课等。	职业&成人教育、素质教育、K12教育、教育信息化
场景优势	支持屏幕共享、互动白板、录制回放等功能	丰富的课堂形式，齐全的应用插件。百万大房间、屏幕共享、文件共享、互动白板、录制回放	支持互动白板、屏幕共享、实时消息、实时录制、口语测评等功能
客户案例	智学网、腾讯教育、新东方	好未来、作业帮、掌门1对1、英语流利说	新东方

随着实时音视频的发展，人们对于实时互动的要求越来越高，不再满足于基本的交流通讯。音视频技术的发展演变使得实时互动在实时性、沉浸式上的表现不断提升，为元宇宙带来了更多想象空间。

元宇宙 虚拟世界场景

通过官网对比各厂商的元宇宙解决方案，即构的元宇宙布局更深入，投入大量技术资源自研Avatar虚拟形象、Meta World虚拟世界两大虚拟产品，结合即构强大的音视频技术，可帮助开发者快速落地多人元宇宙场景。

	腾讯云	即构	声网
场景解决方案	虚拟会议、虚拟展览、虚拟演唱会、虚拟人电商直播、虚拟赛事、虚拟互动游戏	虚拟直播、虚拟K歌房、虚拟语聊房、虚拟会议、虚拟演唱会	元语聊、元直播、互动游戏
场景优势	虚拟多人场景、弹幕互动、动捕驱动、虚拟展览场景选择	自研Avatar虚拟形象、Meta World虚拟世界等虚拟产品。提供Q版、二次元、动漫、拟人等多元化风格虚拟形象，以及丰富的服装、妆容素材库。零门槛渲染3D场景，半天可快速实现虚拟场景，灵活自然的人物控制与场景交互。还提供3D空间音效、范围语音、万人实时状态同步等特色的音视频功能，以及丰富易用的标准化组件。	3D 场景+虚拟形象、3D空间音频、媒体播放器组件、捏脸与换妆编辑组件、实时面部捕抓。
客户案例	官网暂未查询到	小西米语音（语聊房使用了即构最新发布的Q版风格Avatar虚拟形象，让用户可以自定义自己的风格形象）	官网暂未查询到

即构元宇宙解决方案（来自即构官网https://www.zego.im/）

我用ChatGPT做直播技术选型，卷死了同事

七、使用成本

因各大厂商直播SDK计费模式较多且差异不大，下边列举部分直播SDK厂商的报价供参考，大家可根据业务需求进行选择。同时提供厂商官方地址，有任何价格相关疑问可直接咨询官方。

阿里云

官网地址：https://helpcdn.aliyun.com

CDN直播

1、按量后付费模式

1.1 按使用流量计费

按不同区域使用的流量阶梯价格计费，当月分别超额累进（以自然月为一个累计周期，下个月自动清零重新累积）。定价受区域和带宽阶梯影响。

流量阶梯（计费单位：元/GB）	中国内地-CN	北美-NA	欧洲-EU	亚太1区-AP1	亚太2区-AP2	亚太3区-AP3	中东非洲-MEAA	南美-SA
0~10 TB（含）	0.528	0.92	0.92	1.58	1.7	1.7	2.62	2.62
10 TB~50 TB（含）	0.506	0.92	0.92	1.58	1.7	1.7	2.62	2.62
50 TB~100 TB（含）	0.462	0.78	0.78	1.32	1.44	1.44	2.36	2.36
100 TB~1 PB（含）	0.396	0.4	0.4	1.04	1.32	1.24	1.96	1.84
大于1 PB	0.33	0.32	0.32	0.92	1.18	1.18	1.84	1.7

1.2 按峰值带宽计费

以当日您直播观看区域所在节点，直播加速服务分别产生的带宽最高值（单位Mbps）为结算标准。定价受区域和带宽阶梯影响。

带宽阶梯（计费单位：元/Mbps/天）	中国内地-CN	北美-NA	欧洲-EU	亚太1区-AP1	亚太2区-AP2	亚太3区-AP3	中东非洲-MEAA	南美-SA
0~500 Mbps（含）	1.32	3.28	3.28	6.56	7.88	7.88	11.82	10.64
500 Mbps~5 Gbps（含）	1.276	3.02	3.02	6.3	7.62	7.62	11.54	10.36
5 Gbps~20 Gbps（含）	1.232	2.76	2.76	6.04	7.34	7.34	11.28	10.1
大于20Gbps	1.188	2.62	2.62	5.9	7.22	7.22	11.16	9.98

即构科技

官网网址：<https://www.zego.im/>

免费额度：每月免费使用10000分钟，不超过完全免费，超过部分单独计算：

优惠活动：常规优惠为官网报价的5%-15%，赶上大促部分产品折扣力度非常大低至1折起，亲测购买音视频产品组合套餐包更划算。????****即构七周年大促

值得一提的是，即构的官网自助服务流程体验最好，也是目前唯一开通自助服务全流程的音视频厂商，实现了开发者SDK集成闭环流程，从服务配置到账户充值以及账号查询，皆可在即构官网在线自助完成，大大提升开发者开发效率。比如服务配置环节，自助开通秒级生效。账户充值支持使用微信、支付宝、网银等在线充值。合同签署可线上完成。

1.实时音视频 RTC

用量统计方式：按照用户实际拉取音视频流的时长来统计实时音视频服务的用量。

计费档位	计费类型	档位说明	价格（元/千分钟）
高音质纯音频	时长	纯音频	7
标清视频（SD）	时长	分辨率 ≤ 360P（ 480 x 360 ）	12
高清视频（HD）	时长	360P ＜分辨率 ≤ 720P（ 1280 × 720 ）	25
超清视频（HD+）	时长	720P ＜分辨率 ≤ 1080P（ 1920 × 1080 ）	98
超清视频（2K）	时长	1080P ＜分辨率 ≤ 1440P（ 2560 × 1440 ）	112

为便于开发者更好的理解计费模式，即构官网贴上对应产品的计费示例：

计费示例： 即构实时音视频RTC

以多路视频互动房间为例 https://doc-zh.zego.im/article/8666

2.CDN直播

用量统计方式：CDN 目前默认为后付费按量计费，并提供两种计费类型：带宽计费和流量计费，您可根据自身业务形态，选择适合的计费模式。

服务定价
计费档位	计费类型	档位说明	价格
(0Mbps,500Mbps]	带宽	月峰值带宽	26元/Mbps/月
(500Mbps,2Gbps]	带宽	月峰值带宽	24元/Mbps/月
(2Gbps,∞]	带宽	月峰值带宽	22元/Mbps/月
不区分阶梯用量	流量	拉流累计	0.5元/GB

计费示例

即构CDN直播：https://doc-zh.zego.im/article/14091

音视频产品根据延迟性分为实时音视频RTC、低延迟直播和CDN直播，直播场景中直播连麦/PK玩法对互动同步性要求高，一般使用实时音视频RTC能力。音视频厂商实时音视频RTC长距离端对端传输时延平均 300ms～400ms左右，即构实时音视频RTC做到了端到端时延最低79ms，媲美现实的音视频体验。

直播场景中观众大规模并发一般使用CDN直播，格子各厂商CDN直播延迟较大在3S左右、抗弱网能力差容易卡顿。

基于此，即构推出超低延迟直播产品，延续了实时音视频的质量优势，复用了即构的海量数据分发网络和自研传输协议，最高可抗80%丢包，并实现了600ms的延迟，适用于电商直播、网络较差的出海音视频等场景。

3.超低延迟直播

用量统计方式：目前默认为后付费按量计费，按照用户实际拉取音视频流的时长来统计超低延迟直播服务的用量。

服务定价

计费档位	计费类型	档位说明	价格（元/千分钟）
高音质纯音频	时长	纯音频	4
标清视频（SD）	时长	分辨率 ≤ 360P（ 480 x 360 ）	7
高清视频（HD）	时长	360P ＜分辨率 ≤ 720P（ 1280 × 720 ）	14.5
超清视频（HD+）	时长	720P ＜分辨率 ≤ 1080P（ 1920 × 1080 ）	57

计费示例：

即构超低延迟直播 https://doc-zh.zego.im/article/14712

声网

官网网址：https://www.agora.io/

1.融合CDN直播

流量阶梯单价：下表列出各个流量阶梯下每个地区的流量单价，价格单位：元/GB。

服务定价
月度总流量 (GB)	中国内地	北美	欧洲	亚太 1 区	亚太 2 区	大洋洲	中东非洲	南美
0 - 10,000	0.25	0.48	0.48	0.48	0.73	0.96	0.73	0.73
10,000 (含）- 50,000	0.23	0.46	0.46	0.46	0.69	0.92	0.69	0.69
50,000 (含）- 100,000	0.21	0.42	0.42	0.42	0.63	0.84	0.63	0.63
100,000 (含）- 1,000,000	0.19	0.38	0.38	0.38	0.57	0.76	0.57	0.57
大于 1,000,000	0.16	0.32	0.32	0.32	0.48	0.64	0.48	0.48

2.实时音视频

声网音视频时长用量的单价如下：

用量类型	计费类型	档位说明	单价（元/千分钟）
音频	时长	纯音频	7
高清视频（HD）	时长	集合分辨率 ≤ 921,600（1280 × 720）	28
全高清视频（Full HD）	时长	921,600（1280 × 720）＜集合分辨率 ≤ 2,073,600（1920 × 1080）	63
2K 视频	时长	2,073,600 (1920 × 1080) ＜集合分辨率 ≤ 3,686,400 （2560 × 1440）	112
2K+ 视频	时长	3,686,400 （2560 × 1440）＜集合分辨率 ≤ 8,847,360 （4096 × 2160）	252

网易云信

官网地址：https://netease.im

直播服务计费项由两部分组成：日峰值带宽费+增值服务费（可选）

1.普通直播

服务定价
普通直播	日峰值带宽	0.6 元 / Mbps / 日
计费规则：当日使用普通直播服务产生的上下行带宽之和峰值计费（单位：Mbps），如有海外需求可咨询客户经理计费周期：按日计费举例：当日峰值带宽为 900 Mbps ，则对应日带宽计费为 900 * 0.6 = 540 元

2.实时音视频

计费单价根据单个用户订阅的集合分辨率来计算，集合分辨率指用户订阅的所有视频流的分辨率之和。更多计费单价相关介绍请参考资费说明。

媒体	计费模式	规格	单价
音频	时长	标准语音规格	5.9元/千分钟
视频SD单价	时长	集合分辨率 ≤ 307,200(640 × 480)	15元/千分钟
视频HD单价	时长	307,200(640 × 480) ＜集合分辨率 ≤ 921,600(1280 × 720)	25元/千分钟
视频HD+单价	时长	集合分辨率 > 921,600(1280 × 720)	90元/千分钟

结语

用ChatGPT的回答来结束这篇文章吧。ChatGPT建议为了选型适合的实时音视频/直播SDK，开发者首先：需明确业务应用的需求，确定功能和性能指标的需求。其次调研市场上可用的直播SDK并进行功能、性能等特性的评估对比，最好能亲自使用测试用例进行验证确保所选音视频SDK满足其需求。

文中提到的厂商都有免费试用额度供开发者测试，感兴趣的可自行到官网咨询。

即构：https://www.zego.im/

声网：https://docs.agora.io/

腾讯云：https://cloud.tencent.com/