迪士尼利用AI通过剧本自动生成动画

2019年04月15日 由 bie管我叫啥 发表 92044 0
AI通过文本片段创建原始视频并不算新奇,去年,有研究人员开发了一个系统,通过“在草地上打高尔夫球”等描述,利用一对神经网络生成32帧、64×64像素的视频。

现在,迪士尼研究和Rutgers的科学家们发表了一篇新论文,将这一想法更进一步,采用端到端的模型,可以通过电影剧本创建一个粗略的剧情梗概图和视频描述文本。具体而言,给定输入文本描述某些活动,文本到动画模型生成动画不需要注释数据或预训练步骤。

“从自然语言文本自动生成动画可以应用到许多领域中,如电影脚本编写,教学视频和公共安全等,通过实现更快的迭代,原型设计和概念验证,对剧本编写特别有价值。我们开发了一个能够处理复杂句子的文本到动画系统,目的不是要取代作家和艺术家,而是要使他们的工作更有效率,并减少乏味的工作。”

正如团队解释的那样,将文本转换为动画并不是一项简单的任务。输入句子和输出动画都没有固定的结构,这是大多数文本到视频工具无法处理复杂句子的原因。

为了解决先前作品的局限性,团队构建了一个包含多个组件的模块化神经网络:一个新颖的脚本解析模块,可以自动将相关文本与剧本中的场景描述隔离开来;自然语言处理模块,使用一组语言规则简化复杂句子,并将简化句子中的信息提取到预定义的动作表示中;以及将所述表示转换为动画序列的动画生成模型。

研究人员说,简化方法使得提取关键脚本信息变得更加容易,并且为此,他们的系统自主地确定给定的代码片段是否包含特定的句法结构,然后将其拆分并组合成更简单的句子,递归处理它,直到无法进一步简化。



接下来,将协调步骤应用于与首部具有相同句法关系并提供相同功能角色的句子,最后,词汇简化器将在预定义库中使用52个动画(通过同义词词典扩展到92个)匹配简化句中的操作。

然后名为Cardinal的管道作为动作的输入,并在流行的视频游戏引擎Unreal中创建预可视化。它利用预定义的动画库、预上载的对象和模型来创建角色,生成3D动画视频,大致描述处理过的脚本。

为了训练系统,研究人员从1000多个脚本中抽取了996个剧本,包括IMSDb、SimplyScripts和ScriptORama5在内的免费资源,并对其中的场景进行了描述。最后,它包括525708个描述,其中含有1402864个句子,且超过40%至少有一个动作动词。

在一项定性测试中,22名参与者以5分制评估系统生成的20个动画(例如,如果所显示的视频是文本的合理动画,则视频中描绘了多少文本信息,以及视频中有多少信息存在于文本中),系统从输入剧本生成合理的动画概率为68%。研究人员补充说:“除了我们系统的局限性之外,任何分歧都可归因于任务的模糊性和主观性。”

团队承认该系统并不完美。它的动作和对象列表并不详尽,偶尔,词汇简化无法将动词(如“watches”)映射到类似的动画(“look”)或仅为原句中包含许多主语的动词创建几个简化句。

研究人员打算在未来的工作中解决这些不足之处,“内在和外在的评价表明了系统的合理性,最终我们希望通过考虑文本中描述的行动顺序来利用话语信息。这也有助于解决文本中关于行动的含糊不清的描述,此外,我们的系统可用于生成可用于训练端到端神经系统的数据。”
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消