机器学习、深度学习等模型在实时互动领域已有较为广泛的应用落地了。比如通过人脸识别在视频直播中增加人脸特效或滤镜;还可以基于深度学习算法来优化音频降噪效果;或是基于深度学习的分支之一强化学习来优化拥塞控制算法模型;同时,VVC/H.266、AVS3 等新一代编解码标准也在利用机器学习来优化编码效率等指标。要了解 RTC 技术的前沿应用与研究,就一定不可错过今年的「AI 技术专场」和「RTE 2020 实时互联网大会线下站」中与 AI 相关的演讲。
夺得今年 DNS降噪算法大赛冠军的算法模型解析、新一代8K/4K视频压缩编码标准(VVC)与高效算法,这些话题你都可在今年的「AI 技术专场」听到。而且在今晚,声网Agora QoS 工程师洪海峰,会在会前直播中分享《基于感知技术及 AI 引擎的高清视频互动体验优化》,感兴趣的同学可阅读今天的第三条推送报名观看。在 23 号的大会直播中,还将有《实时H.264视频编码器算法的深度优化》,更进一步地分享视频互动体验优化的经验。
与此同时,在 10 月 24 日的线下分会场中,还有「爱奇艺AI在内容制作领域的实践」话题,同样值得关注(点击这里,报名线下分会场)。
●10 月 23 日AI技术专场议程●
浅谈视频推荐系统面临的一些技术挑战
谢晓辉,Hulu 首席研究主管
议题简介:个性化推荐技术最近几年得到了快速的发展,新的模型和算法层出不穷,一些技术挑战得到了一定程度的解决,但是在实际应用场景,也出现了不少新的技术问题。本文以Hulu的长视频推荐场景为例,分享几个有意思的视频推荐系统中面临的挑战。例如推荐系统中由数据衍生的一系列问题,个性化推荐与人工内容运营的协作,精细化用户建模的优点和不足,等等。
实时H.264视频编码器算法的深度优化
戴伟,声网Agora 资深视频算法负责人
议题简介:H.264作为目前使用量最大的视频编码器标准,于17/18年左右也成为了Webrtc支持的标准之一。本次的议题,首先会给大家描述一下我们选择编码器时做过的一些思考,其次,我们会在分享一下将H.264集成到实时视频SDK中遇到过的各色各样问题,以及我们针对我们遇到的场景做过的各种深度算法优化。
AV1在实时屏幕内容编码及其他RTC场景中的应用实践
Zoe Liu,微帧科技联合创始人兼首席科学家
议题简介:在这一讲座中,我们会首先就AV1标准中的几种与之前编码标准不尽相同的编码工具做一简介,包括warped motion,屏幕内容编码工具,以及对Film Grain的处理等。之后,我们会以开源代码libaom为例,对这些工具在编码器中的优化作出详尽的讨论,主要关注编码速度与RD增益间的平衡,比如时域滤波对于屏幕内容编码的影响,以及Film Grain工具自适应的使用及相应模型的可能局限性。最后我们将特别针对实时场景,讨论AV1屏幕内容编码在RTC中的运用与实践。
新一代8K/4K视频压缩编码标准(VVC)与高效算法
沈礼权,教育部新型显示与应用集成重点实验室副主任
议题简介:针对8K/4K超高分辨率视频压缩需求,VCEG与MPEG于2017年3月建立联合视频专家组(Joint Video Expert Team,JVET),并发布针对未来高维密集视频信号的提案征集。2018年4月,确定建立新一代标准,并命名为通用视频编码VVC(Versatile Video Coding)。2018年10月,JVET发布VVC测试版第一版,定于2020年10月发布第一版VVC标准。VVC标准的核心目标是在H.265/HEVC的基础上,提高一倍的编码效率。新提出的VVC预测结构和预测工具主要集中在如何提高编码效率,但是这些编码工具使得VVC的编码复杂度较HEVC 提升5 ~ 40倍,加之又主要针对超高分辨率视频,使其复杂度高到很难在实际中运用。在VVC编码架构下,探索8K超高分辨率、亮度高动态范围、宽视场视频的内容特性,提出高效编码模型和方法,联合优化VVC预测结构和预测工具, 使之能在提高编码效率的同时,大幅度降低编码复杂度,已成为当务之急。本报告首先介绍VVC中的关键编码技术,分析基于率失真优化的编码单元尺寸选择和预测模式选择的编码过程,指出引起编码复杂度高的根本原因以及高效视频编码的性能评价指标;接着,介绍上海大学新一代视频编码研究组在VVC高效编码和低复杂度编码方面取得的研究成果,包括:高效VVC帧内编码算法、高效VVC帧间编码算法、基于特征非对称融合的视频帧盲增强算法以及基于多任务的分数像素插值和增强算法;最后,对后续工作方向做出展望。
基于深度学习的低延迟语音降噪方法
罗大为,搜狗AI交互技术部研究员
议题简介:语音在采集和传输过程中,由于受到环境噪声,干扰,混响和信道损失等因素的影响,语音的可懂度和听感效果可能会受到严重影响。近年来,基于深度学习的语音降噪技术发展迅速,在各个领域中逐渐取代传统的降噪技术。本报告结合搜狗在DNS竞赛和自研硬件中的语音降噪方案,以及在复杂噪声环境和多样化录音场景中的优化思路和实际落地经验,分享搜狗在深度学习语音降噪方向的进展。
讲师一对一
在今年大会上,除了可以在大会期间在微信交流群与讲师交流,还可以预约「讲师一对一」,通过一对一视频与讲师围绕演讲议题及相关技术话题深入交流。现在「讲师一对一」预约窗口已经正式开启:https://calendly.com/rte2020
Talk With Agora
与此同时,如果你希望与声网Agora技术团队、生态市场、产品团队交流,深入了解RTE场景构建的技术方案选型与架构设计,或是与 RTE 行业专家探讨行业创新场景的商业机会,了解最新的商业机会,甚至是加入声网Agora 为创业团队打造的创业支持计划,都可以报名参加「Talk With Agora」线上活动。所有观众都可以在线预约:https://calendly.com/agoraio
RTE2020大会已在大会官网(rteconf.com)与“声网Agora开发者”微信服务号开启报名,大会还为广大开发者送上福利,报名参会的观众可获得1元购价值1000元的声网Agora代金券。
相关阅读