快手基于Alveo优化大规模网络直播和短视频自动语音识别服务

时间:2025-05-01  作者:Diven  阅读:0

快手成立于 2011年3月,总部位于北京,是全球用户利用短视频或者直播形式记录和分享日常生活的领先内容社区和社交平台,每天产生上千万条原创新鲜视频。

快手基于Alveo优化大规模网络直播和短视频自动语音识别服务

图:快手 ASR 应用场景

项目概述

自动语音识别(ASR)是电子商务、短视频、直播等众多应用的核心技术。ASR 在快手有许多的应用场景,是快手 APP、直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。 ASR流式自动语音识别,已经成为快手各种创新服务的核心技术。比如广受主播们喜爱的直播间小快机器人 (语音助手),快手 APP 语音搜索、直播间语音输入法、语音魔法表情、一甜相机实时字幕,以及最新上线的快影自动字幕服务等等,为全球数亿用户带来了前所未有的各种创新体验。

作为全球最受欢迎的直播和短视频应用平台,快手全球平均每天有 3 亿活跃用户通过各种终端在快手平台记录和分享生活或体验。面对如此庞大的规模用户和应用场景,快手希望能够优化其 ASR 服务,满足不断增长的客户需求,并为提供更好的用户体验。

用户体验最重要的性能指标,就是时延和并发路数。致力于“围绕快手核心业务打造技术护城河”的快手异构计算中心,借助赛灵思Alveo™及相关工具套件,大幅提升了ASR 整体服务性能和用户满意度,成为国内大规模网络直播和短视频应用场景的ASR 典范。

项目挑战

在快手之前基于CPU框架的处理流程中,特征提取等前处理模块运行时间占比约为 5%~10%, TDNN+LSTM 声学模型运行时间占比约为 60%~80%,而包含语言模型的解码器部分运行时间占比约为 15%~30%。快手异构计算中心,希望找到一个更合适的异构底层器件,将最耗时的TDNN+LSTM 声学模型转移到这个器件上并进行优化。

快手异构计算中心团队认为,以 TDNN+LSTM 为主结构的流式声学模型优化的关键痛点有三个,那就是时延(Latency)、实时率(RTF,Real Time Factor)和并发数(Concurrency),具体而言需要解决如下问题:

  •   缩短时延,为用户提供实时的流式语音识别ASR体验;
  •   提高并发数,保障海量流式数据并发处理的带宽需求;
  •   提供灵活性及易用性,满足现有多业务模型的特点。如可以同时运行多个模型,可以多模型实时任意切换,且能满足未来模型的升级换代;
  •   降低单位算力成本,实现更低总拥有成本;
  •   满足AI 算法的高精度需求。

快手对GPU 进行了评估,发现其硬件使用率 (Utilization) 比较低,不能满足RTF需求,SRAM 容量也无法满足TDNN+LSTM模型高并发性的需求。至于主流的 ASIC,除了以上介绍的硬件使用率问题外,还存在不支持 Kaldi 框架,定点实际只有 12bit 等问题,很难满足ASR优化在精度上的需求。

快手技术团队认为,满足上述需求的理想的异构器件平台,应当是一个可以全定制的专用平台,可以通过软硬件协同设计确保精度符合各种不同业务的标准。

解决方案

快手异构计算中心经过评估后,决定选用赛灵思的Alveo U50LV加速器卡来优化 ASR 服务。

Alveo U50 数据中心加速器卡基于赛灵思高性能 UltraScale+ 架构,采用了高效的 75 瓦小型封装,而且配备了 100 Gbps 网络 I/O和高带宽内存。这些特性为快手的 ASR 解决方案提供了关键的低功耗、高带宽、大 SRAM 内存和小尺寸优势。而Alveo U50LV (Low Voltage)则是 U50 系列的低电压版本,和标准电压版本相比,功耗更低,散热要求更少。

“我们认为理想的 ASR 加速解决方案,是可以支持高带宽、大 SRAM 和定点推断的硬件平台,”快手异构计算中心总监刘凌志博士表示:“赛灵思的 Alveo FPGA U50LV 完全符合我们的要求。”

图:快手各种器件选型比较

结合公司自研的定点通用推理框架和定点 C 模型,快手基于Alveo U50LV 及赛灵思相关 Vitis HLS 高层次综合及 Vitis Design Flow,从算法、系统、软件和硬件等多个关键层面对ASR 系统进行了多方位的创新, 应用了多项最先进的优化技术:

图: ASR系统整体架构

算法层面:采用图融合、图优化、图同构、图分割,以及不重训的高精度量化技术,在保证精度的有效的压缩了模型,使之更有利于FPGA 计算效率的有着;

系统层面:自研通用推理框架及适合FPGA的通用Host调度框架,支持多模型,模型可扩展,自动化部署,具有很强的易用性;

软件层面:设计Batch机制,基于OpenCL的任务调度及负载均衡策略,实现了任务级的数据传输、kernel 计算等高效并行处理;

硬件层面:自定义基于超长指令字的指令集架构,设计编译器,并基于 Vitis™ HLS高层次综合优化技术,快速完成了高效的FPGA底层设计。和直接采用硬件描述语言(如 Verilog HDL)相比,HLS 技术在更高的抽象层次上使用 C/C++ 的语法描述硬件行为,不仅达到了和 Verilog 接近的效果,而且加速了各种优化技术的实现,将开发时间从 3 个月缩短到 6 周。

优化后的系统整体架构如图三所示:调度加速引擎的代码框架 ( Host )接收输入的语音数据,经过前处理、神经网络推断和后处理过程,生成识别后的文本。其中黄色部分的神经网络推断过程是卸载到Alveo 加速卡上来完成的。

成效

借助赛灵思 Alveo 加速卡及相关设计工具,快手最终实现了针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案,全面优化了ASR 服务,实现了:

大幅减轻了CPU 的工作负载,将单台服务器业务处理能力提升7.5倍;

大幅降低了端到端时延,平均缩短达37.67%;

大幅缩减了系统总成本,降至0.29 (相当于总成本锐减71% )。

大幅缩短了开发周期。通过采用OpenCL实现了与现有业务无缝集成,并借助 Vitis Design Flow将设计周期从3个月减少到6周。

这是 FPGA 在国内大规模直播及短视频自动语音识别场景落地的首个成功案例,展示了快手各种创新应用背后技术团队强大的实力。2021年中以来,优化的ASR 服务已经在快手直播及短视频应用平台部署,目前有数亿用户正在享受其所带来的前所未有的语音识别体验。

猜您喜欢

杂志架作为常见的展示和存储工具,其参数设计直接影响使用效果和空间布局。杂志架的尺寸是关键参数,通常需要根据放置位置的空间大小来选择,常见的高度在1.2米到1.8...
2009-05-02 00:00:00

机械键盘轴是决定键盘手感和性能的关键因素。轴体的类型是一个重要参数,常见的有红轴、青轴、茶轴等。红轴手感顺滑,适合游戏玩家;青轴则有明显的段落感和声音反馈,适合...
2009-02-26 00:00:00

接线盒是应用于电气工程和建筑施工中的重要组件,主要用于保护和连接电缆线路。通常由绝缘材料制成,具有良好的防水、防尘和耐腐蚀性能,能够有效延长电缆的使用寿命。接线...
2009-07-03 00:00:00

内六角花形低圆柱头螺钉是常见的紧固件,应用于机械、电子和建筑行业。其规格尺寸通常包括螺纹直径、螺纹长度、头部直径和头部高度等。常见的螺纹直径有M3、M4、M5、...
2016-11-29 00:00:00

PE管件是应用于水利、农业、建筑等领域的塑料管道配件,主要由聚乙烯材料制成。由于其优良的耐腐蚀性、柔韧性和抗冲击性,PE管件在各种环境下都能保持良好的性能。常见...
2016-04-25 00:00:00

变容二极管是能够根据施加电压变化而改变其结电容的半导体器件,应用于调频电路设计中。调频电路的性能直接影响到无线电通信的质量和稳定性,合理的设计变容二极管调频电路...
2025-04-08 15:31:09

压敏电阻作为重要的保护元件,应用于电路中以防止过电压损坏。作为新加坡知名的压敏电阻品牌,ASJ因其优异的性能和稳定的质量受到关注。那么,在众多品牌中,如何正确选...
2012-03-06 01:06:05

现代工业和建筑工程中,连接技术的选择对于整体结构的稳定性和可靠性非常重要。弯插_P=2mm作为新兴的连接方式,因其独特的设计和优越的性能而受到关注。本文将对弯插...
2025-04-26 10:30:12

电子元件中,二极管作为重要的半导体器件,应用于整流、开关和信号处理等领域。二极管的种类繁多,其中肖特基二极管和普通二极管是最常见的两种类型。虽然基本功能相似,但...
2025-03-31 14:30:02

防硫化电阻作为关键的电子元器件,应用于各种电子设备中,尤其是在恶劣环境下保障电路的稳定运行。丽景电子作为业内知名品牌,其防硫化电阻产品以优良的品质和多样的规格,...
2019-06-09 21:16:30