从日系手机看自动剪辑功能

坂本ユウスケ

2024年3月25日讀畢需時 4 分鐘

什么是AQUOS AI

AQUOS AI 在此特指的是在AQUOS系列手机上搭载的，AI Live Shutter及AI Live Story技术。AI Live Shutter可以在系统相机的视频界面下，在拍摄视频的时候自动截取高光照片，AI Live Story是在拍摄超过40秒的视频后，自动产生15秒的模板短片。

夏普独家的AI Live Shutter及AI Live Story技术，可以自动判断场景并自动捕捉拍摄的主体。无论是拍照还是拍视频，AQUOS R5G的AI人工智能都能帮助你轻松地记录精彩瞬间。当AI Live Shutter的功能开启时，在拍视频的同时，AI人工智能就会自动选出人物的灿烂笑脸，或辨别出构图最佳的场景，并自动储存影像；而AI Live Story功能，则是在拍摄超过40秒的视频后，自动产生有趣的15秒短片，可以随时分享给家人朋友或上传到社交平台。在视频拍摄过程中，有三种模式Standard、Fun、Relax可以选择。

AQUOS AI是用于解决什么问题的

AQUOS AI 通过在录像中自动截取高光照片，并在完成拍摄的时候合成模板影片，减少从拍摄、编辑、分享的步骤。做到随拍随成片，拍摄完即分享。

AQUOS AI流程如何

AQUOS AI LIVE SHUTTER 分析

测试内容	同一组照片	同一组照片	同一张照片（城市风景）	同一张照片（城市风景）	同一张照片（人物）	同一张照片（人物）
陀螺仪状态	维持不动	运动后停止	维持不动	运动后停止	维持不动	运动后停止
视频	内部视频
结果	11P	26P	4P	7P	15P	17P
时间点	0:05 0:19 0:25 0:30 0:37 0:54 1:04 1:12 1:31 1:53 1:57	0:11 0:15 0:22 0:28 0:31 0:37 0:41 0:51 0:55 1:01 1:09 1:28 1:47 2:15 2:38 2:48 2:51 3:17 3:27 3:40 4:02 4:29 4:41 4:46	0:01 0:14 0:29 0:44	0:01 0:07 0:18 0:30 0:42 0:48 0:59	0:02 0:05 0:08 0:11 0:14 0:18 0:21 0:24 0:27 0:31 0:34 0:37 0:40 0:43 0:47	0:04 0:07 0:13 0:18 0:22 0:27 0:31 0:36 0:40 0:45 0:49 0:52 0:57 1:01 1:04 1:08 1:11

LIVE SHUTTER 所截取的片段，与预览时间对不上。说明有可能连续多次检出后截取，截取多次检出中最稳定的一张。

根据抓取LOG，detect算法大概运行帧率为3FPS；考虑到其在拍照界面也可以进行特征检测，可能是相同的模型复用。目前实测可以分类出人、猫、狗、花、料理； https://k-tai.sharp.co.jp/support/d/sh53c/userguide/m_02_03.html

从以上两点可知，AQUOS AI LIVE SHUTTER可能是在录像中调用分类器；只要连续多次命中分类器上有的人、猫、狗等物体，且手机处于持稳状态，陀螺仪没有较大幅的晃动，则进行截帧处理。

AQUOS AI优势与劣势

Strength：

直接系统原相机支持，大幅复用现有模型，对性能要求不高。

自动化的打通视频、拍照、剪辑等界限，大幅减少用户步骤，拍视频就是拍照片，拍完即剪完，拍完就导出。

支持录像中拍照，并将录像中拍照与模版剪辑做耦合，录像中还需要拍照的片段一定是高光片段，逻辑通顺符合直觉。

将手机陀螺仪判断是否是高光的入参之一，符合手机场景下，用户针对重要场景需要持稳手机的一贯操作。在视觉模型之外拓展了更多信息的输入。

Weekness：

由于性能和能力之限制，整体高光的判断趋于原始。针对分类器之外的素材截取的帧不一定是真正的高光，当然也不是只要是截取了稳定的分类器分出来的帧就是高光。

模版数量少且要求苛刻，必须原片40s以上，成片一定是15s；拍长了会合成失败一直Loading。

由于没有自己的相册，其合成界面是在拍摄页完成后进入Playback，如果拍摄了新的素材进行覆盖，则不能进行模版剪辑。

虽然有TOF但是没有活用，针对检出素材会反复拍摄（见同一张照片人物）。

只能进行单段素材的剪辑，不能针对多段素材进行跨时间的编辑。

模版少、音乐少、性能一般，产出的作品质量和帧率不高。

AQUOS AI给我们的启示

从截取高光照片到高光视频的推导

考虑到有相当一部分短视频可以作为九图的替代。在用户进行制作的时候，甚至很多用户是基于Live Photo或静态图片加特效转场。可以说如果做一个及格分的短视频，图片和视频之间没有那么难以逾越的高山。用户在进行视频拍摄完成之后，可以根据自己的期望分享视频或者照片。

AQUOS AI将视频中的高光照片的时间点记录下来，进行前后延展，从而实现快速生成。做到即拍即分析，拍完即成片。

录像中拍照作为入参高光判断

目前我们也有录像中拍照的功能，而AQUOS将录像中拍照那个时间点，视作高光判断，是遵从照片到视频的推导逻辑。除此之外，录像中拍照其实是用户一个很强烈的意图的操作，指的是录像中的那个场景非常重要，以至于需要单独拍摄一张照片用于记录，类似于更高级别的标记。

陀螺仪作为判断高光的额外信息，符合直觉

AQUOS在针对视觉算法能力一般的情况下，针对符合手机用户直觉的持稳动作，作为判断高光的额外信息。这是打通了拍摄和剪辑才有的能力，通过拍摄时获取更多的视觉以外的数据，是我们与剪映等互联网非编软件不同的地方。剪映可以通过很多模版大力出奇迹。而我们在拍摄的时候就可以获取到更多的信息，如陀螺仪可以判断运动烈度等等，通过配件获取更多数据，如心率等。

与手机不同，手机可能需要通过持稳动作作为高光信息，运动相机可以通过陀螺仪判断现在运动的烈度，相反是运动越剧烈可能高光的可能性会更高。