top of page

鼓点与节拍之争

作家相片: 坂本ユウスケ坂本ユウスケ

当我们谈到踩点,我们到底在期待什么?

当我们评论蒙太奇的好坏的时候,有一定基础的人会认为,蒙太奇很重要的一点是讲故事,是透过蒙太奇将不同时空链接起来,从头至尾讲一个完整的故事,这是我们在之前NLP to AutoCut上提到的。对此我们利用了图像语义识别技术,从中抽象出语义再透过排列语义,重塑图像,最后输出一段有故事性的图像。



当我们在看一个短视频或者vlog的时候,我们一般都会说这个视频踩点很好;或者说这个视频剪辑没踩上点。当我们来定义短视频时,我们更倾向于将其视作传统在朋友圈发的9图的升级版,甚至现在很多短视频就是照片构成的。短视频是大众群体分享生活以及消遣评点他人生活的重要载体。大部分的短视频都是同质化的。而其中让短视频赋予特色的就是音乐。短视频不超过30秒甚至15秒的需求与音乐的副歌不谋而合;出现了大量短视频专用的音乐,可以说短视频重塑了音乐之于视频的重要性。


在用户发布短视频或是vlog的时候,视听者是作为一个个体观看用户内容并于发布者交流。这种交流是点对点的。发布者要想吸引视听者的注意力通常只有两种方法,正好对应了娱乐的两种分类,一种是奇观式的娱乐,也就是透过宏大或夸张的行为直接冲击视听者的眼球,重塑视听者的认知,让视听者有“居然还有这种事情”的感叹;而另一种就是陪伴式的娱乐,发布者发布的内容需要贴近视听者的当前生活,塑造我和你一样、我懂你,从而引起共鸣,消解压力的一种娱乐方式。


要想渲染出贴近的点对点的气氛,音乐就必不可少。当然音乐之于视频的最主要的作用就是烘托气氛。因而视频和音乐配合的恰当与否,和视听者是否能够理解、融入并接受视频内容强相关。而在这其中,视频剪辑的节奏是否和音乐节奏相配合,便成了我们口中的踩点与否,成了一般用户评价视频剪辑优劣的关键指标。


重音和响度


当我们谈到音乐节奏的时候,一般用户脑里都会想起的士科的那种底鼓的重音;要对一首曲子的节奏进行分析,我们第一反应就是分析重音。重音重音,应该就是重的音。那么怎么识别重的音呢?我们就理所当然的认为,重音的响度肯定是相比于其他音要大的。


我们将一个音频文件导入Adobe Audition,得到了这个音频文件的响度图。我们将时间轴放大后,可以清晰的看到有规律的一段时间的响度会比其他时间响度明显更大,透过打出打出peak值的时间戳,确实是可以是一个将重音筛选出的方法。而且单靠响度不能确认小节的话,我们可能只能找出歌曲中响度最大的几个点,而不能准确的晒出重音。



这是非常理想的方法,但是适用性和兼容性不是那么的好。尤其是目前大部分音乐都有做音频标准化化,使得整首歌曲的响度都是一样大,很难判断高低潮;且不是所有响度大的波纹都是乐器发出的重音,这样的话,我们这种手段就会有很高的误报率,而这是完全不能接受的。


鼓点识别


在上一节我们提到,透过响度分析有一定的可行性,但是拥有两个比较大的缺陷或者是局限:一个是音频标准化导致误报;另一个是因为响度分析说到底是一个相对值,很难划定区间和范围;对于我们人而言,很容易来分析的强弱拍,而对于算法而言,虽然可以透过平均值和方差来供给判断,但是完全不知道该取哪个范围内的响度最大值——也许是1秒内或者是5秒内?机器难以进行判断。那么有没有什么参数,能够不用设定时间范围从而来取得重拍呢?


频谱鼓点识别


在大部分的商业音乐中,大家都有使用爵士鼓的习惯,一般的强拍都会搭配一声强有力的底鼓;适用于Adobe After Effects的Sound Key插件就给出了一个全新的方案——根据频谱的低音范围从而确定底鼓。事实上效果非常好,有相当一部分的后期制作者也是运用该插件进行鼓点识别与分析。


但是当我们把这个方案进行预研的时候,问题出现了。对于人来非常简单的框选鼓点的低频部分这个任务,用机器进行代替的时候,出现了难以预估的问题。我们自然是可以给一个预设值,但是要兼容用户上传的音乐;鼓点的频谱显然不是一成不变的。



若我们对任何歌曲都使用同一个预设值,我们会出现很多的误报状况。因为在这个预设值的频谱,可能是低音的贝斯,或是钢琴的低音。或者音乐制作者添加了filter,使得在某段音乐中,鼓点的频谱没有那么低,从而使得我们完全无法识别。


乐器鼓点识别


在上面的频谱鼓点识别,我们提到了如果对任何歌曲使用同一个预设值,会出现很多的误报情况。我们不得不提出一个假设,若是利用大量数据进行训练,让机器可以训练识别出乐器,这样是不是可以保证鼓点识别无误报了?毕竟重鼓的声音和延长音都是比较好分辨的。




这会有什么问题呢?我们不妨把这个问题简化了。就算有一个音乐专家坐在后台帮你实时分析鼓的声音,是不是能够说明我们已经完美的解决了这个问题呢?除了耗时长,算力要求高;还有一个更加显而易见的问题。那就是不是所有音乐都有鼓的参与,抑或是某些音乐中,鼓只是修饰用。如果我们倒入了一首纯钢琴曲,这位鼓音乐专家就无可奈何了。你就可能需要更多专家,钢琴专家、二胡专家、唢呐专家等等。


节拍识别


回到最初的本源,可能这件事情没有那么复杂;所谓判断音频的节奏,除了根据鼓点,我们应该有更为浅显易懂的方案,那就是节拍。相比于编曲的五花八门,作曲中的节拍选择少了很多个量级,且大部分有迹可循。



目前字节跳动旗下的剪辑软件就是此解决方案;它将一首音乐,按照四分音符进行节拍标记;用户可以选择节拍1(四分音符均分)或节拍2(四分音符重拍)。将选择的责任丢给了用户,确实人在识别节拍节奏中会更加灵敏。软件也给予了两种节拍方案供用户选择。这当然是会节省算力,对于用户来说也有一定的自由度。只不过用户可能会觉得你给我的两个节拍,没有一个准的。


也许真正的节奏识别,得将节拍和鼓点结合起来。

10 次查看0 則留言

最新文章

查看全部

Comments


 © ACES 2018-2024 by Sakamoto Yuusuke. 

bottom of page