微软人工智能驱动，视频中的可能不是你的那个他（她）

更新时间：2024-04-23 08:11:45作者：gdhst

准备好让人工智能根据您的照片制作视频。微软人工智能驱动，视频中的可能不是你的那个他（她）

微软研究院最近推出了 VASA，这是一种新的人工智能框架演示，能够从单个肖像和语音音频中生成“超现实”的说话面孔，可能减少对网络摄像头的依赖。

这项新技术引入了视频会议的转变，通过合成逼真的面部表情和语音，有可能使网络摄像头变得过时。当专家们深入研究这项技术的实际应用时，他们也担心该技术可能被滥用来制造深度伪造品。

“根据研究，超过一半 (66%) 的组织渴望在 2024 年视频项目中使用人工智能，尽管人工智能为视频创作者带来了很多希望，但超现实的人工智能生成的化身挑战了道德人工智能的界限，视频营销平台Wistia的首席执行官 Chris Savage告诉 PYMNTS。

“如今，大多数人工智能生成的视频都用于内部教育目的，这最终可以改善企业的沟通，”他补充道。 “然而，消除视频中的人为因素对视频内容的信任和完整性提出了挑战。”

图片转视频

VASA系统允许用户调整受试者的眼球运动、感知距离和表达的情绪。 VASA-1 是一系列人工智能工具中的第一个，可以创建特定的面部表情，准确同步嘴唇运动并模仿人类的头部运动。此外，它提供了广泛的情感选择，并且可以生成微妙的面部细节。微软表示该系统仅用于演示，并没有发布计划。

微软在其网站上写道：“我们的研究重点是为虚拟人工智能化身生成视觉情感技能，旨在积极应用。” “它无意创建用于误导或欺骗的内容。

“然而，与其他相关内容生成技术一样，它仍然可能被滥用于模仿人类。我们反对任何针对真人创建误导性或有害内容的行为，并有兴趣应用我们的技术来推进伪造检测。”微软补充道。 “目前，这种方法生成的视频仍然包含可识别的伪影，数值分析表明，距离真实视频的真实性仍有差距。”

微软在其研究网站上描述了该技术的工作原理。关键的进步包括使用视频数据开发的模型，该模型可以在专门的面部区域生成面部和头部运动。该方法可以生成具有逼真面部动作的高质量视频，并且可以以 512×512 分辨率实时创建视频，运行速度高达每秒 40 帧，延迟非常小。该技术允许与表现得像人类的化身进行实时对话。

人们越来越担心真实性

人工智能驱动的视频工具加剧了人们对深度造假的担忧。 PYMNTS 今年 2 月报道称，联邦贸易委员会(FTC) 正在考虑制定一套新的法规，旨在禁止冒充个人。这一举措是为了应对假冒欺诈投诉的增加。联邦贸易委员会已表示决心利用所有可用资源来识别和防止此类欺诈。

该机构还强调，人工智能生成的深度伪造等新技术可能会加剧欺诈问题。在此公告发布之前，PYMNTS 的另一份报告显示，根据 FTC 数据，消费者在 2023 年面临创纪录的 100 亿美元欺诈损失，比上一年增加 14%。

Savage 表示，像 VASA 这样的系统意味着组织在招聘过程中必须更加小心。

“人工智能取代网络摄像头的可能性非常大，而且虚拟面试已成为组织的常见做法，我们如何才能确定潜在员工就是他们所说的人呢？”萨维奇指出。 “或者，另一方面，招聘公司是合法的？我预计，随着人们对日常内容的信任程度，这将在未来几年内成为一场更大的对话。