AI唇语识别软件Readtheirlips,开发团队Symphonic Labs是一家初创公司。在视频中准确识别说话者的话语,即使是在小声说话的情况下也能识别。
具体效果如下:
红毯上布莱克·莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但AI可以。
乍一看只能看见一排白牙(bushi)的侃爷,唇语也能被轻松破解。
看完亲测视频,咱们也来唠一下Readtheirlips的工作原理。
看看它是怎么读取人类唇语的:
首先,研究团队用大量的标注数据(已知的嘴唇运动动作及其对应的文本内容)来对模型进行训练。
在此基础上,用户要上传一段视频,这段视频要包含说话者的面部特写,尤其是嘴部动作。
然后模型会对视频进行嘴部运动的分析:先是通过面部检测识别嘴唇的位置,然后再提取嘴唇的几何特征,(形状、开合程度、运动轨迹等),最后分析嘴唇在说话过程中的动态变化。(速度、方向和形状变化)
之后,模型会将提取的嘴唇特征与训练数据中的特征进行匹配,来识别出视频中人物所说的内容。
将识别出的单词或短语组合成完整的句子,进行一下上下文理解,确保语法和语义的正确性。
最终将识别出的内容输出为文本形式。
相关导航
暂无评论...