博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
独家 | AutoFlip:智能化视频剪裁的开源框架(附链接)
阅读量:4228 次
发布时间:2019-05-26

本文共 4277 字,大约阅读时间需要 14 分钟。

作者:Nathan Frey

翻译:张达敏

校对:和中华

本文约2500字,建议阅读5分钟

本文向大家介绍智能化视频剪裁的开源框架:AutoFlip。

标签:算法框架

前言

为电视和显示器拍摄制作的视频常常使用横向16:9或者4:3比例。然而越来越多的用户开始在移动设备上制作和观看视频,传统的画面比例并不能完美兼容。为此需要对视频画面进行剪裁,传统的做法涉及到静态剪裁,例如,选定好可视区域,然后把区域外的内容全部剪掉。不幸的是,由于构图种类和相机运动模式繁多,这种静态剪裁经常产出无法让人满意的结果。而其他特殊的做法,常常要求拍摄者手动确定每个画面的目标,并追踪他们在每帧间的转变,然后相应的剪裁掉多余的画面。这个过程是非常耗时、乏味且容易出错的。

用户:

 https://insights.digitalmediasolutions.com/articles/digital-mobile-dominate

为了解决这个问题,我们很开心向大家介绍智能化视频剪裁的开源框架:AutoFlip。基于MediaPipe框架,该框架支持开发用于处理时间序列多模态数据的管道。把一个视频文件(业余级拍摄或专业级剪辑)和一个目标比例(横向、正方形、人像等等)作为输入,AutoFlip会分析视频内容,逐步得出最佳的追踪和剪裁策略,然后输出一个同样时长但剪裁至目标画面比例的视频文件。

AutoFlip:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md

MediaPipe:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/face_detection_desktop.md

左图:原视频(16:9)。中间:使用常规居中剪裁(9:16)。右边:使用AutoFlip剪裁(9:16)。AutoFlip通过追踪目标内容,避免了把重要内容剪掉的问题。

AutoFlip简介

得益于应用行业领先的机器学习目标检测和追踪技术,AutoFlip能够轻易理解视频内容,进而为智能视频剪裁提供了一个全自动的解决方案。通过探测能够表明场景变化的差异,AutoFlip能够在处理过程中把每个场景分离开来。在每段场景被选定的相机模式和轨迹优化剪裁之前,通过视频分析确定主要目标。

画面(场景)探测

一个场景或画面是一个无删减(或跳跃)的连续视频。为了探测出场景变化,AutoFlip计算每帧的颜色直方图并和之前的帧做对比。如果该帧的色彩分布和之前一连串画面不同的话,就说明该帧的场景发生了改变。为了优化整个场景的剪裁,AutoFlip在剪裁前会缓存整段视频直到该场景结束。

视频内容分析

我们利用基于深度学习的目标检测模型来寻找每帧画面里有趣的、重要的内容。这类内容常常包含人物和动物,但出于应用角度考虑,其他物体也可能会被考虑在内,包括文字覆盖和商业logo,或者体育运动中运动和球的探测。

面部和目标检测模型通过MediaPipe整合到了AutoFlip当中,这一功能可以通过在CPU上运行TensorFlow Lite实现。这种结构让AutoFlip具有扩展性,开发者能很方便地为不同场景和视频内容增添新的探测算法。当然,每类物体都有相应的比重,也就是该类物体的相对重要程度 – 比重越高,该类物体在计算摄像轨迹中就更有影响力。

面部:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/face_detection_desktop.md

目标检测模型:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/object_detection_desktop.md

TensorFlow Lite:

https://www.tensorflow.org/lite

上图:运动中的人物检测。下图:两个面部探测方块(“核心面部”和“全面部”)。在较窄的人像比例剪裁案例中,经常只有核心面部能够显示(全面部尺寸太大)。

剪裁

在确定了每帧的目标后,就可以决定如何把内容剪裁到新的画面中。取决于物体在场景中的移动轨迹(例如物体是跑来跑去还是静止不动),AutoFlip会自动选择最佳剪裁策略 – 静态的、移动的或是追踪的。在静态模式中,剪裁后的相机视角是固定在某一位置,从这个位置可以在大部分场景中看到目标。这个模式能高效地模拟专业静态电影拍摄,例如使用静态三脚架的相机或者后期的稳定处理。而在其他场景中,以恒定速率移动相机视角相比于静态模式会有更好的效果。而追踪模式能够在场景中提供连续稳定的目标物体追踪。

在算法决定使用以上哪种剪裁策略后,AutoFlip对每帧确定一个最佳剪裁窗口,同时确保目标出现在该窗口中。当追踪框追踪场景里的目标时经常会在每帧画面之间跳来跳去,导致了不能很好的确定剪裁窗口。因此我们在欧式范数优化过程中,通过降低平滑(低阶多项式)相机轨迹和追踪框间的残差来调整每帧的窗口视角。

欧式范数:

https://zh.wikipedia.org/wiki/%E8%8C%83%E6%95%B0

低阶多项式:

https://en.wikipedia.org/wiki/Degree_of_a_polynomial

上图:跟踪每帧的追踪框得出的相机轨迹。下图:使用欧式范数得出的平滑相机轨迹。

左图:目标物体在场景中来回移动,需要追踪相机轨迹。右图:目标物体和场景保持相对静止;静态相机视角能够涵括该场景目标物体的移动轨迹。

AutoFlip的图像构造提供非填充和填充剪裁两种设置。当窗口不能包含所有指定区域时(例如目标分散在整个画面),通过自动切换到较为缓和的剪裁策略,例如填充黑边使图像充满整个画面。对于图像背景颜色是单色调时,黑边颜色会自动转成相同色调,来达到无缝填充效果;在其他情况下,AutoFlip会采取虚化的方式来达到相同效果。

黑边:

https://zh.wikipedia.org/wiki/%E9%BB%91%E9%82%8A

AutoFlip使用场景

能够直接让开发者和电影制作人使用这款工具、减少他们创造中的阻碍、以及实现视频剪辑自动化让我们感到非常激动。处理各种视频类型和高宽比的功能愈发重要,尤其现在出现越来越多的各种比例的视频内容消费设备。不管你的应用场景是人像转横向、横向转人像、还是改动极小的4:3转16:9比例,AutoFlip都能提供一个智能、自动化和自适应的剪裁方案。

展望未来?

和机器学习算法相似,AutoFlip也能够从不断提升的视频内容相关物体探测能力中受益,例如面试探测或者卡通片中人物面部捕捉。然而一个常见问题是当输入视频边缘有重要内容遮挡(例如文字或者标志),这些内容通常会被剪裁掉。通过整合文字、标志探测以及图像修补技术,我们希望AutoFlip在将来能够保证剪裁质量同时复位这些表层信息。最后,在需要填充的案例中,deep uncrop技术能够提供超越原可视区域的能力。

deep uncrop:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Teterwak_Boundless_Generative_Adversarial_Networks_for_Image_Extension_ICCV_2019_paper.pdf

当我们在Google改进AutoFlip的同时,我们也鼓励开发者和电影制作人能够在开源社区为我们提供帮助。

鸣谢

我们想对AutoFlip的同事表示感谢,Alexander Panagopoulos, Jenny Jin, Brian Mulford, Yuan Zhang, Alex Chen, Xue Yang, Mickey Wang, Justin Parra, Hartwig Adam, Jingbin Wang, 以及Weilong Yang; 还有提供开源帮助的MediaPipe团队, Jiuqiang Tang, Tyler Mullen, Mogan Shieh, Ming Guang Yong, 以及Chuo-Ling Chang。

原文标题:

AutoFlip: An Open Source Framework for Intelligent Video Reframing

原文链接:

https://www.googblogs.com/autoflip-an-open-source-framework-for-intelligent-video-reframing-2/


如您想与我们保持交流探讨、持续获得数据科学领域相关动态,包括大数据技术类、行业前沿应用、讲座论坛活动信息、各种活动福利等内容,敬请扫码加入数据派THU粉丝交流群,红数点恭候各位。

编辑:王菁

校对:林亦霖

译者简介

张达敏,本科就读于麻省大学阿默斯特,主修计算机科学,辅修应用数学。硕士把自然语言处理作为研究方向,希望能为人工智能领域贡献自己的力量。目前积极钻研机器学习相关知识,希望能够在学习过程中充满创造力,同时保持科学严谨的态度。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

你可能感兴趣的文章
【linux基本权限】走进linux基本权限
查看>>
预防利用ssh暴力破解linux用户
查看>>
【入门向】linux系统管理之工作管理
查看>>
linux系统管理之系统资源查看
查看>>
linux系统管理之系统定时任务
查看>>
【好记性不如烂笔头】linux权限管理之特殊权限
查看>>
【亲测可行】解决xshell强制更新
查看>>
【rpm包与源码包】linux软件安装详解
查看>>
【CentOS篇,超详细】搭建本地yum源,使其生效
查看>>
【采用yum或者源码包方式】nginx环境搭建
查看>>
【解决HCNetSDK.dll无法加载问题】海康SDK开发对接java项目demo运行
查看>>
【解决用户控制验证密码】win10下莫名其妙的运行软件需要验证管理员密码
查看>>
springboot初体验以及解决遇到的问题
查看>>
MariaDB10.5.6的安装与使用,多一手准备总是好的
查看>>
【win10篇】win10日常使用点滴记录,驱除烦恼,不定期更新
查看>>
逝去的青春,与虾米音乐不得不说的故事,爷青结
查看>>
解决sublime text打开txt文件乱码以及被墙的问题
查看>>
阿里云盘今天开启公测了,简洁安全速度快你会用吗?
查看>>
【软件实施系列】软件实施面试题附带SQL联合查询图解
查看>>
【项目部署】JavaWeb项目部署到云服务器超详细流程
查看>>