中文语音关键词检测系统简介
语音关键词检测(Spoken Keyword Detection,SKD):是指从语音流中找出包含预先定义的关键词,这些关键词代表用户所关注的信息,可以大大降低人工监听的劳动强度。
应用领域:电话敏感信息监听、网络舆情语音监控、监狱亲情电话监听、客服用语规范评价、医院病人服务需求自动监测、智能设备的语音口令(如智能音箱的唤醒词)、音频信息检索等。
建设成本:比语音识别系统所需要的资源少,成本低。对低资源语种或方言,是语音识别不能取代的。
1. 技术路线:RNN-CTC E2E方案。
2. 技术特色:在网络结构、解码方法和基本语音单元三个方面做了深入探索。相对基础方法,大大
提升了检测性能。
3. 工程特色:采用服务请求方式,接受用户提供的待检测数据,进行语音关键词检测后,返回检测
结果。该模式大大简化了用户接口,可以适应用户的不同需要,可以作为独立服务,也可以作为
应用程序的一个功能。
4. 功能特色:
1)用户通过请求指令选择在线语音关键词检测或离线关键词检测。
2)关键词非限定,可以随时以列表方式自定义。
3)具备再学习能力。
4)适应不同时长的音频流或不同大小的音频文件。
5)提供多用户并发处理。
6)灵活的资源配置:根据计算机硬件资源设置不同的运行参数,包括所占用的计算资源,
端口,系统认证账号等,同时可快速更换不同的关键词列表和模型。
7)日志记录:记录系统运行的请求和出错等信息,便于管理人员及时查看,发现问题并
优化系统。
5. 性能优越:行业领先水平
1)AISHELL-2普通话公开语料库(170小时)
在平均每个关键词每小时0.5次虚警时,12和20个关键词检测任务的错误拒绝率分别为4.82%和5.38%(即检出率分别为95.18%94.62%),相比于基础RNN-CTC的方法分别相对下降了38.83%和58.81%,并且所需训练时间更短。
2)江西赣州客家话(470小时)(误警率是以无关键词样本数为单位)
这是一个专业应用案例,客家话的口音复杂,根据地域分布分为十大片区,其间存在相互听不懂的现象(相当于多语言)。我们分别对12词和50词模型随机十次计算验收指标,平均性能结果如下:
12词:检出率=89.19%,误警率=1.62%;
50词:检出率=86.32%,误警率=3.84%;
这些结果表明我们的方法具有很好的多语言处理能力,适合于方言处理。
6. 关联知识产权
1)基于音频特征空间分层描述的音频分类方法,ZL201710398853.9,授权公告日:2020年9月22
日,授权公告号:CN107301858 B。
2)中文语音关键词识别系统[简称:关键词识别系统] V1.0,软著登字第4740184号,登记号:
2019SR1319427,登记证书颁发日期:2019年12月9日。中华人民共和国国家版权局。
3)基于循环神经网络语音模型和深度神经网络声学模型的中文语音识别方法,申请号:
201810228555.X,2018年3月20日。申请公布号:CN108492820A,2018年9月4日。
4)一种基于互补模型评分融合的语音关键词检测方法,201911366488.9,申请日期:2019年12月
26日。申请公布号:CN111128128A,公布日:2020年5月8日。
5)一种基于改进动态时间规整算法的语音样本筛选方法。201911227134.6,申请日期:2019年
12月4日。申请公布号:CN111179914A,公布日:2020年05月19日。
6)一种解决关键词识别样本不均衡的方法,20191004005.2, 2019年1月8日。申请公布号:
CN109712609A,公布日:2019年05月03日。
7)一种语音关键词识别中的扩增语料的选择方法,申请号:202010347536.6,申请日期:2020年
4月28日。申请公布号:CN111554273A,公布日2020年8月18日。
*有兴趣的同志,请联系我们,可提供体验APP。
联系人:贺前华 教授
手 机:13622874683
邮 箱:eeqhhe@scut.edu.cn