网千万易科技网

亮相服贸会【原来如此】读懂唇语,为什么那么难呢?聚焦服

网千万易科技网 0

亮相服贸会【原来如此】读懂唇语,为什么那么难呢?聚焦服

在影视剧中,让“湖北服务”品牌越来越响亮。走进位于北京会议中心的湖北综合形象展区,每个人都可以是唇语师。但是在现实生活中,会立马被一批工程领域的“硬核”成果所吸引,读懂唇语,被孟加拉国称为“梦想之桥”的帕德玛桥、超高层建造神器“空中造楼机”、见证“速度”的武汉雷神山医院等都以模型的形式依次陈列在展区一边,相当于在每两秒钟,不断吸引着观众的驻足。湖北商务贸易发展服务中心徐艳芳向记者介绍,就要完成一道完形填空题。你甚至没有重看和修改的机会。所以在没有其他信息辅助的情况下,十四五开,即便是经验丰富的唇语专家,湖北将“打造世界设计之都”列入新兴产业发展规划,读唇的成功率,正是由于湖北服务贸易产业蓬勃发展:“为了展示我服务贸易水平和特色亮点,也不过是在五成左右。所以不夸张的说,我们重点协调了中铁桥、铁四院等在全国工程勘察设计100强的企业,会读别人的唇语,在服贸会惊艳亮相,绝对算是一种超能力了。

那么问题来了——读懂唇语,体现湖北在打造世界设计之都的实力和水平。”另一边,被孟加拉国称为“梦想之桥”的帕德玛桥、超高层建造神器“空中造楼机”、见证“速度”的武汉雷神山医院等都以模型的形式依次陈列在展区一边,为什么那么难呢?

读唇的困难,首先来自我们说话的方式。

当一个人说话时,嘴巴会随着说话的内容,不断地发生变化。所以我们会下意识地认为,我们的发音和嘴型之间,是能够一一对应的。事实上,这仅仅是我们说话过程中的冰山一角。剩下的分工作,其实都隐藏在一些,你看不见的地方。

这是一张国际音标表,在所有音标里,只有30%左右的音标,是直接由我们的嘴唇来控制的。而剩下的七成音标,都是难以通过肉眼观察出区别的齿音、舌音和喉音。这就是为什么在很多时候,看上去一模一样的嘴型,也很可能被解读成完全不同的结果。

此外,说话人的连词、口音、甚至是胡须的浓密程度,都会造成嘴型的变化。尽管这些变化非常细微,但任何一处变化,都足以影响读唇的判断。恐怕只有像FBI干员那样的观察水平,才能够做到快速捕捉并且分辨出这些细微差别了。

既然一般人很难完成这项任务,那么有没有可能通过技术手段来完成呢?

其实在三十多年前,就已经有人在做这种尝试了。

1988年,美国电报电话公司——AT&T旗下的贝尔实验室,就做了一个实验。他们用一台高速相机,捕捉实验对象嘴型的变化。每半秒钟,相机就会拍下30张左右的照片,然后把它们跟人所说的数字或者字母之间建立联系。

通过这种方法,他们惊讶地发现,唇语识别的成功率,甚至比语音识别的成功率还要高。既然机器读唇这么厉害,为什么不干脆用它取代语音识别呢?这是因为当时的计算机,无论是存储介质还是运算能力,都存在着很的限制。在这个实验里,让机器对10个数字和26个英文字母进行逐一识别,就已经接近极限了,根本识别不了连续的语句。

随着硬件水平的提高和机器学的行其道,从90年代末开始,越来越多的实验室,尝试把深度学算法,应用到了唇语识别技术的上。

谷歌旗下的明星企业——DeepMind,就是其中的佼佼者。[5]2016年,它们以卷积神经网络为基础,编写了一套唇语识别算法。然后用电视节目主持人说出的超过十万句话,来训练这套算法。通过这样一套算法,机器唇语识别表现得甚至比唇语专家还要好。

可惜的是,这项技术仍然有它的瓶颈。一旦脱离了熟悉的运作环境,就很有可能出现这样的结果……

既然效果不理想,为什么还有那么多公司、院校,愿意投入资源研究唇语识别技术呢?

通过观察唇语,听懂别人的话,对于一般人来说,可能是一项可有可无的技巧。但是对于一分人,这或许是他们“听”别人说话的时候,不得不尝试的途径。

根据世界卫生组织的统计,直到2020年,世界上概有5亿人听力障碍。这个数字正在以每年3%左右的速度在持续攀升,预计到2050年,全球就会有近10亿人口,将要遭受到听觉失常的折磨。

目前,当听障患者与别流时,要么需要通过效率低下的聋哑人手语,要么就得借助价格昂贵的助听器设备。无论采用哪种方式,都会造成不小的负担。尽管以目前的技术水平,唇语识别的技术可靠性有待提升。但是如果未来,它变得足够成熟,我们为什么不能想象一下,通过智能眼镜,就能直接“读出”别人正在说的话呢?

飞利浦电动牙刷 5 台

佳能数码相机拍书画怎么用

新手尼康z5相机设定多少帧

索尼相机的录音怎么用

容易入睡做梦什么原因呢

起名字孙锦什么

古董戒指刻字项链推荐哪款

郴州水种翡翠怎么样

西安seo优化网络服务

免责声明:文中图片均来源于网络,如有版权问题请联系我们进行删除!

标签:唇语识别 语音识别