声纹识别已被用于部分银行：声音会被模仿，声纹还可靠吗

发稿时间：2019-12-02 09:11:00 来源：科技日报作者：李禾中国青年网

　　配音演员模仿其他人的声音，虽然听觉上相似，但也无法模仿说话者最本质的特性。从声纹特征分析上还是会有差异。

　　继“刷脸”之后声纹识别也已进入我们的生活。近日，平安科技和金融壹账通联合项目组与广发银行签署了声纹核身项目，将在银行预防欺诈、提供优质服务方面发挥作用。此前，市场监管总局、人民银行两部委发文，决定将支付技术产品认证扩展为金融科技产品认证，并确定了《金融科技产品认证目录（第一批）》，该认证目录中也包括声纹识别系统。

　　那么，什么是声纹？它会被模仿导致识别设备误判吗？

　　频谱、韵律、语言特征均有差异声纹具有唯一性和独特性

　　声纹是生物识别特征的一种，是在说话人发声时提取出来的，可以作为说话人的表征和标识，能与其他人相互区别的语音特征，以及基于这些特征或参数所建立的语音模型的总称。声纹识别又称为说话人识别，是从说话人发出的声音频谱图中提取身份特征信息和声纹特征，再把声信号转换成电信号，用计算机通过相关算法进行比对识别的技术。

　　清华大学信息技术研究院教授郑方说，语音信号之所以被形容为“形简意丰”，是因为声音包含有内容、身份、情感、年龄及健康状况等丰富的信息。再加上人类语言的产生要经过人体语言中枢与发音器官间复杂的生理物理过程，理论上说，每个人说话时的短时频谱、声源、时序动态、韵律、语言学特征等都有差异。因此，声纹就像指纹一样具有唯一性和独特性。

　　与人脸、指纹和虹膜识别相比，声纹识别有着诸多优势，比如声纹语料收集方式自然，无须进行眨眼、摆动脸部等特定动作，不受光线或隐私等特定场景的约束，人们接受度更高；声纹识别可以随机改变朗读内容，即便曾在网上或其他地方留下语音信息，也不易被复制或盗用。“被识别人不需要近距离接触识别设备，声纹可以通过电话、APP等渠道传达语音到后台进行识别，并且可以在用户语音对话过程中自动完成识别，使用成本低而且方便快捷。”平安科技声纹领域专家告诉科技日报记者。

　　听起来相似不等于声纹相似声纹识别准确率已超过99%

　　登录手机银行APP，开启声纹验证，用户只要准确说出随机动态码，系统录制语音信息、验证声纹及随机动态码后，就能进行转账、支付等交易……目前，声纹识别已经在部分银行开始使用了。

　　不过，生活中声音相似的人有很多，有些配音演员还可以模仿他人的声音，用声纹作为金融产品认证会不会很不安全？对此，平安科技声纹专家解释说，总体来说，声纹是稳定的生物特征。除了人一生中的某些年龄段如少年变声期，声纹可能会有所变化，大多数情况下声纹特征是稳定的。

　　由于每个人在说话时使用的发声器官，如舌头、牙齿、口腔、声带、肺、鼻腔等在尺寸和形态方面有所差异，以及年龄、性格、语言习惯等多种原因，在发音时千姿百态，导致这些器官每个人发出的声音必然有着各自的特点。特别是，每个人在说话过程中所蕴含的个性特征，如发音习惯等几乎是独一无二的，就算被模仿，也改变不了说话者最本质的特性。

　　“因此，配音演员模仿其他人的声音，虽然听觉上相似，但也无法模仿说话者最本质的特性。从声纹特征分析上还是会有差异，是可以区别开来的。”

　　根据测算结果，公安部发布《GA/T 1179-2014安防声纹确认应用算法技术要求和测试方法》标准，声纹科技产品依据该标准进行数据采集。目前，用户如果按照事先指定的文本读出内容，声纹识别准确率已达99.8%；如不照读事先指定的文本内容而随意发声，声纹识别准确率也能达到99.1%。“虽然准确率不低，但还是存在误判的可能，在设计使用场景和流程时，需要考虑到声纹识别并非100%准确率的现实。”平安科技声纹专家说，声纹作为金融产品的认证，需要看具体场景。对于辅助核实身份、名单识别、防欺诈、声纹锁登录等场景使用是合适的；但在大额支付类的场景中，如果将声纹作为唯一的认证手段，就需要充分评估风险。

　　目前，除了金融领域外，声纹正在进入公共安全、智能家居、智慧教育、智能社区等行业，并根据不同应用场景的特点进行针对性开发。如冒领养老金的事件时有发生，如果要求高龄老人必须亲临现场验明正身才能领取养老金，又会非常不便。声纹确认技术具有远程操控属性，社保局通过预装声纹身份认证系统，就可对领养老金者开展远程身份认证，实现“信息多跑路，群众少跑腿”。目前，贵州省黔东南州等地正在开展相关试点。

　　相关链接

　　声纹识别技术发展“三步走”

　　以语音作为身份认证的手段，最早可追溯到17世纪60年代英国查尔斯一世之死的案件审判中。1966年，美国法院第一次采用声纹进行取证。随着研究手段和计算机技术的不断进步，声纹识别逐步由单纯的人耳听辨，转向基于计算机的自动识别。

　　声纹识别技术发展大致可以分为3个阶段：第一阶段，基于模板匹配的方法。像人脸一样，声纹要先做注册，再做验证，注册时说的内容要和验证时是一样的。比如注册时说了“密码”二字，验证时也必须说“密码”，这相当于验证时被限制了，只是比较这两个声音像不像；第二阶段，2000年开始的基于概率模型研究。如有的人说话快，有的人说话慢，声音是有时间长度的，要把可变长度的向量变成物理程度，这是基于高斯模型概率统计的，这时的声纹识别准确性会受到噪声、干扰等影响；第三阶段，2012年左右开始，深度学习给人工智能发展带来了巨大的影响，同样也快速推动了声纹识别的发展。

　　（原题为《声音会被模仿，声纹还可靠吗》）

责任编辑：海竹