首页 新闻 娱乐 电视 电影 明星 时尚 综艺 音乐 财经 科技 生活 体育 汽车 游戏 旅游
第一经济报

中国科技少年对话“Kaldi之父”Daniel Povey

2024-01-17 来源:互联网 作者:苏悦
0

月初,Daniel 团队的新一代 Kaldi 语音项目获得了小米2023百万美金技术大奖评选的二等奖。近日,两位《超脑少年团》成员“小孩哥”高培淇和宫一森来到小米祝贺偶像Daniel 获奖。

01

继往开来:

站在 Kaldi 的肩膀上

Kaldi 是一款开源的语音识别工具包,主要用于语音识别、说话人识别、自然语言处理等领域。

在智能语音方面,大到微软、苹果、腾讯这样的巨头,小到各种初创企业,几乎都曾或在使用 Kaldi 的技术进行研发及开发产品。而小米首席语音科学家Daniel Povey正是 Kaldi 的创始人。

Kaldi之父、小米集团首席语音科学家 Daniel Povey

说到为什么还要研发新一代 Kaldi,也是随着深度学习技术的发展以及硬件算力的提升,智能语音领域也进入到一个新的发展阶段,Kaldi 也需要不断更新以适应新的应用场景和技术趋势。

Daniel 博士在2019年注意到了 Transformer 架构的潜力,并判断构建通用基础模型的时机已经到来,加入小米后,他就开始实施这一蓝图,研发新一代 Kaldi 语音基础引擎。

02

深耕底层:

新一代 Kaldi 的技术突破

新一代 Kaldi是一个开源的智能语音技术工具集,包含核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合 Icefall 以及服务端引擎 Sherpa 四个子项目,开发者可以基于这些工具集轻松定制自己的智能语音应用。

如果把一个AI应用比喻为一座冰山,那用户所能感知到的应用界面就是暴露在“海平面”之上的冰峰,强有力地托起这些应用的核心和庞大的技术基底,则是被深埋在“海平面”之下。

深藏在“海平面”之下的新一代 Kaldi 通用技术基底有哪些?它们又能够带来怎样的作用?下面就为大家介绍。

▍全新声学编码器:zipformer

Zipformer是一个应用 Attention 机制的通用声学编码器,不仅可以用在语音领域,初步实验验证其在文本和图像任务上同样适用。

Zipformer 具有效果更好、计算更快、更省内存等优点,这使得 Zipformer 模型非常适合于低资源设备端部署。

▍首创神经网络优化器: ScaledAdam

全新升级的神经网络优化器——ScaledAdam是新一代 Kaldi 团队在业界最知名的优化器 Adam 的基础上,引入了可学习的缩放因子,实现了网络训练时间大幅缩短。而且ScaledAdam与Adam一样,是一个通用的网络训练优化器。

▍业界最快Transducer 损失函数:Pruned RNN-T

新一代 Kaldi 团队还研发了业界最快的 Transducer 损失函数—— Pruned RNN-T。

实验数据显示,相比 PyTorch 中实现的 RNN-T 损失函数,Pruned RNN-T 损失函数在仅使用 1/5 显存的基础上,取得了约 10 倍的速度提升。

▍有限状态转换器:可微分 FST

可微分FST(Finite State Transducer)是一个有限状态转换器,可以构建复杂的语言处理模型。

新一代 Kaldi 团队创造性的实现了运行于 GPU 的可微分有限状态机,使开发者只需要在外部构建好图的拓扑结构,将其他的一切计算和训练的部分交给 k2 引擎, 从而降低建模的工作量,提高灵活性。此外,新一代 Kaldi 团队还实现了基于 GPU 的状态机解码方法,实现了语音识别解码的全链路 GPU 加速。

新一代 Kaldi 还有众多杰出的成果,如:近乎零成本的知识蒸馏技术,让小模型也能学习到大模型的本领;基于时延惩罚的低时延端到端模型的训练方法;PromptASR 语音识别系统;高效数据集构建方案 textsearch ; 全平台语音任务服务引擎 sherpa 等等。集众多优质技术于一身的新一代 Kaldi ,也将会在未来给大家带来更多实用的惊喜,敬请期待吧!

03

开源共享:

我为人人,人人为我

新一代 Kaldi 作为一个基础引擎,不仅推动了公司的技术发展,更对业界产生了深刻的影响。

首先,它可以在语音交互层面有力赋能小米「人车家全生态」新战略。以座舱为例,使用新一代 Kaldi 引擎后,座舱的语音识别的性能进一步提升, jira 解决率提升45%,服务器成本也降低一半。

其次,新一代 Kaldi 作为一个基础引擎,不仅可以服务于语音任务,还可以广泛地适用于各种 AI 任务。目前,团队首创的 ScaledAdam 优化器已经用在了小米自研大模型中。

最后,在智能家居领域中,通过使用新一代 Kaldi 技术,人们可以通过语音指令控制家电设备、查询天气、播放音乐等;在教育行业中,可以对学生进行口语测试和纠正,提高学生的口语表达和听力理解能力;在医疗行业中,可以实现自动化的病历记录和诊断,提高医疗行业的效率。可以说,新一代 Kaldi 的出现正在对各行各业产生积极的影响。

坚持开源是新一代 Kaldi 与前一代一脉相承的底色。“我为人人,人人为我”,这是 Daniel 坚持 Kaldi 开源的期望,也是小米积极拥抱开源的初心。

“人因梦想而伟大,又因坚持梦想而成长。”Daniel借用雷军的话,寄语和高培淇、宫一森一样怀揣着编程梦想的科技少年。今日的科技少年也一定会成长为未来科研事业中的栋梁。

最后,让我们把目光再次聚焦到获奖的新一代 Kaldi 团队,这是一个创新和经验的结合体,正是因为他们,新⼀代 Kaldi 取得了众多世界领先的成果。期待新一代 Kaldi 在未来,给大家带来更多极致、好用的技术,让开源普惠大众。



热门图片

爱新觉罗·媚惊艳亮相《亚洲新声》新加坡站 深情献唱《今晚你想念的人是不是我》

华晨宇火星演唱会郑州开唱 中西乐交融编曲再升级

林依轮西华30年婚姻长跑: 从《爱情鸟》到《想把我唱给你听》的深情告白

林依轮西华30年婚姻长跑:从《爱情鸟》到《想把我唱给你听》的深情告白

感恩有你 “庄”点美好 2025年八里庄街道社区邻里节活动展演

歌曲《我的家我的国》 构建对传统主旋律单向度超越

傲火集团传媒基地武汉启幕 构建数字娱乐产业生态闭环

张彬彬《龙骨焚箱》开机 奇幻冒险题材引期待

新闻排行

爱新觉罗·媚《亚洲新声》舞台深情献唱《爱错》创作新单即将来袭
谍战剧《潜渊》今日开播 三面特工黄晓明开启高能烧脑模式
王劲松《人民日报》撰文 重读抗战家书不忘来时路
演员娜一北电毕业 少女初长成 开启新篇章
黄晓明新剧《潜渊》定档 失忆三面间谍开启谍战新维度
以武为介·共叙文化之脉 ——“武侠百年两岸特展”在福州成功举办
华晨宇火星演唱会四面台首登成都 两晚狂欢燃爆蓉城夏夜
LARWINER拉威兒艺术珠宝杭州索菲特精品店盛大开幕 中法美学共谱「宝光凝粹,锦绣华裳」
演员茜玲娜依北电毕业 少女初长成 开启新篇章
郭沁携全新单曲《香恋歌》再出发,以四季为弦拨动千年相思的绝美回响
推荐图片

爱新觉罗·媚闪耀《亚洲新声》第二期 一首《Flowers》传递女性力量

跨越千年的文明接力—张德祥先生捐献国家博物馆121件套古家具

星能公益基金会儿童节公益行:爱心探访点亮“强棒天使”棒球基地的希望

林小宅、戴景耀主演古装网剧《逃婚世子小神医》杀青

陈瑶《九门》今日开机 奇女子霍仙姑成就九门新传奇

当民族声乐遇见戏腔,太好听!在邓超予的袅袅歌声中迎端午