AI 在语音识别方面优于人类

2021-03-25

经过一次对话和转录,正是人工智能(AI)研究中最大的挑战之一。卡尔斯鲁厄理工学院(KIT)的研究人员首次成功地开发了一种计算机系统,该系统在识别这种自发性口语时,其延迟程度优于人类。这是在arXiv.org。

4d086e061d950a7b3e1be798c8cbe5def2d3c966.jpeg

KIT信息学教授亚历克斯·威贝尔(Alex Waibel)说:"当人们互相交谈时,会有停止、口吃、犹豫,比如'呃'或'嗯',笑和咳嗽。通常,单词发音不清楚。这使得人们甚至难以准确记录谈话。"到目前为止,这对人工智能来说更加困难。KIT的科学家和员工,一家来自KIT的初创公司,现在已经编程了一个计算机系统,它比人类更好地执行这项任务,并且比其他系统更快。

威贝尔已经开发出一种自动现场翻译,可将大学讲座从德语或英语直接翻译成外国学生使用的语言。自 2012 年以来,该"讲座翻译"一直在 KIT 的讲堂中使用。Waibel 解释道:"自发语音识别是这一系统最重要的组成部分,因为识别中的错误和延迟使翻译难以理解。在对话性演讲中,人为错误率约为5.5%。我们的系统现在达到 5.0%。然而,除了精度之外,系统产生输出的速度同样重要,这样学生就可以现场听课了。研究人员现在已经成功地将这种延迟缩短到一秒。威贝尔说,这是迄今为止语音识别系统所达到的这种质量最小的延迟。

使用标准化的、国际公认的科学"总机基准"测试来测量误差率和延迟。这个基准(由美国NIST定义)被国际人工智能研究人员广泛用于竞争,以制造一个机器,接近人类识别自发语音在可比条件下,甚至优于他们。

威贝尔认为,快速、高精度语音识别是进一步下游处理的重要步骤。它使对话、翻译和其他 AI 模块能够提供更好的基于语音的计算机交互。

原文转载自:https://baijiahao.baidu.com/s?id=1682249130263134596

在线咨询
联系电话

15605156696