Meta已经开放出可以识别4000多种语言的人工智能模型,还可以利用圣经中的数据,识别其中1100种语言。
这意味着比起以往任何已知技术高出40倍。旗下有着Facebook和Instagram的这家公司称,“这是朝着保护有可能消失语言所迈出的重要一步”。
他们的大规模多语言语音(Massively Multilingual Speech,简称MMS)模型旨在“让人们更容易以自身偏好语言获取信息和使用设备”。
Meta打算将其置于开放软件上,好让“研究界的其他人可以在我们的工作基础上发展”。
模型通过圣经读物学习到的语言地图 图源:Meta
源自圣经的数据
全世界约有7000种语言,现有的语音识别模型只能全面覆盖其中的100种。
为了克服这个问题和训练模型,Meta创建了两组宗教文本数据集,其中文本译本和人声阅读音频文件以不同语言公开提供。
一组含有新约圣经及对应人声阅读录音,录音取自网络上的1107种语言,平均每种语言提供32小时的数据。另一组包含其他各种基督教宗教读物的无分类录音。
但是,Meta强调,“虽然录音内容是宗教的,但我们的分析表明,这并不导致模型产生更多的宗教语言来”。
未来,Meta希望“增加MMS的覆盖面,以求支持更多语言,还有解决处理方言的挑战,因为这对于现有语音技术而言往往是最困难的”。
源自Evangelical Focus
基督时报特约/自由撰稿人文章,文中观点仅代表作者立场,供读者参考,基督时报保持中立。欢迎个人浏览转载,其他公众平台未经授权,不得转载!
凡本网来源标注是“基督时报”的文章权归基督时报所有。未经基督时报授权,任何印刷性书籍刊物、公共网站、电子刊物不得转载或引用本网图文。欢迎个体读者转载或分享于您个人的博客、微博、微信及其他社交媒体,但请务必清楚标明出处、作者与链接地址(URL)。其他公共微博、微信公众号等公共平台如需转载引用,请通过电子邮件(jidushibao@gmail.com)、电话 (021-6224 3972) 或微博(http://weibo.com/cnchristiantimes),微信(ChTimes)联络我们,得到授权方可转载或做其他使用。