手语翻译|教AI认手语的年轻人:借助科技让更多聋人被“听见”( 四 )


一开始,他们做这一切,只是想给这门语言“正名”,想告诉大家:手语有它的特性,但绝不“特殊”,手语和它的使用者一样,都是普通的、正常的 。他们并没有预料到,那些为了教人学手语做的“额外功课”,会和他们各自的专业知识相结合,成为教“AI”学手语的利器 。
“我们的听障生知道手语的语法结构,还有它的一些基本要素,比如说脸上的表情到什么程度算是表达到位了,什么时候该用上肢体语言了,他们都明白 。所以他们做数据收集、处理方面的工作,有天然优势 。”袁甜甜很看重聋人在项目团队中发挥的作用,“咱要是叫没用过手语的健听人来收集数据、建语料库的话,那可真是费劲了!”
因为缺少聋人的参与,在手语识别和翻译技术领域,各国学界都走过弯路:比如尝试通过数据手套建立手语语料库 。作为一种常见的传感器,数据手套在手势识别技术上的应用已经相对成熟——尽管成本高昂,但用手套来收集“手势”,看起来理所当然,准确率也该有保证 。只可惜手语不是简单的手势:抛开表情和大动作不谈,即便是同样的手势,指向稍有不同,也可能意思迥异,这样微妙的差异,手套是识别不出来的 。
意识到这一点,近年来各国推进的手语识别、翻译项目,大多采用计算机视觉的方法,利用摄像头收集数据、建立语料库,袁甜甜和她的团队也是如此 。现阶段更常见的问题,一是收集的样本太少,数据集不够大 。二是数据集建起来了,但没能对语料进行高质量筛选和标注 。说白了,就是语料“不好使” 。
袁甜甜说,人工智能深度学习的过程,有点像教小孩学说话,一个单词先得全家上阵,翻来覆去地重复,次数够了,孩子才能建立印象,“哦,这个单词叫妈妈,不管是从爸爸嘴里说出来,姥姥嘴里说出来,还是舅舅、阿姨说出来,都叫妈妈 。”同样的,要让机器识别一个手语句子,也要有足够多的人面对摄像头,以不同的风格重复打同一套动作,计算机才能“记住” 。
很多国外团队建立的手语数据集无法支持复杂场景下的手语翻译,一个直接的原因,就是无法找到足够多的人在自然状态下采集手语 。“而我们的团队背靠聋人工学院,很多成员本身就是手语使用者,在自然手语的采集上有优势 。”袁甜甜说 。
“但是跟您实话实说,我们也建过‘不好使’的数据集 。”袁甜甜直接给团队2018年建立的手势汉语数据集下了定义,“花了钱、费了功夫,最后挺失败的”——失败之处在于,那一次他们收集的语料是手势汉语而不是自然手语 。手势汉语是按照健听人习惯的汉语语序,而不是手语语序连词成句的 。
“比如说,‘爱是我们共同的语言’ 。这个句子用手势汉语来打的话,就是按顺序一个字一个字地比画,‘的’也有对应的手势,也要打出来 。但聋人日常使用手语的时候,惯用的语序是:爱、我们、共同、语言、是,‘的’不用打 。我这个‘半颤子’手语,讲课的时候也不会把‘的’‘了’都打出来,那不符合自然手语的表达习惯 。”袁甜甜解释 。
“你把手势汉语翻译得再精准也没用,聋人平时打的不是这个啊!”汲取了教训,这一次再建手语数据集,袁甜甜说,他们不求速成,只求每条语料都是原汁原味的自然手语 。先按手语语序识别、再按口语习惯翻译,虽然多了一个技术环节,团队研发的难度也就长了一截,袁甜甜们却坚持要选择那条“难走但正确”的路径 。
“咱做这个研究,不想跟人吹我们的数据集有多大,也不想说我们发了多么高大上的论文,我们就一个目的:能用 。”袁甜甜斩钉截铁,“这个系统出来了,聋人必须真的能用 。”

猜你喜欢