各位见知的小伙伴们,大家好呀。新一期的巡山报告又和大家见面啦,本期主要带来AI在分离人声以及在冬奥视效上的一部分应用。
一、快速分离人声/背景音
不知道大家有没有对音频降噪和从背景音中提取人声的需求,亦或是学音乐时到处找伴奏的痛苦经历。这次介绍的是一款由法国公司Deezer开发的开源音轨分离算法Spleeter。(实际上,该训练模型也被各专业音乐软件使用:iZotope(部分功能被Adobe Au集成),SpectralLayers,VirtualDJ等)
让我们先来听一下利用Spleeter分离的效果吧。
音频1
音频1提取的人声
(感兴趣的小伙伴可以试一试哦,SpleeterGUI下载链接见文末参考文献)
在音频信号处理中,我们一般用频谱表示信号频率与能量的关系。绘成频谱图后,横轴表示时间,纵轴表示频率,亮度表示振幅。频谱图相近代表的声音听起来相似,而不同类的声音也有着不同的频谱特征。因此也被称为声纹图。
分离人声(提取含某种特征的声音)相当于从下方第二张图中提取出第一张图。
上图:spleeter提取出的人声;
下图:原曲(上下相减即为伴奏);
样本:前文试听的《孤勇者-陈奕迅》片段
那么spleeter是如何做到这一点的呢。
首先spleeter基于频域进行音轨分离(一类声音作为一个音轨)。每条音轨对应着一个unet网络结构。unet网络的输入为音频幅度谱,输出为某条音轨的幅度谱。训练时的损失函数为输出音轨的幅度谱与标准幅度谱的L1距离。预测时通过多条音轨的幅度谱计算出每条音轨占据输入音频的能量比例(mask);通过输入音频频谱乘以mask得到各个音轨的输出频谱,汇总输出结果音频。
传统方法:通过计算光谱质心、过零率、光谱衰减、MFCC等特征对音频信号进行分类——合适的特征选取难度高,分离难度高,分离效果差强人意。下面视频为传统方法对音频解析的主要理论依据之一:不同发声体音色不同。
最后我们混合了新闻报道、钢琴、主要由bass生成的一段背景音,三者毫不相关;并增大了钢琴和背景音的音量使之与人声统一。测试spleeter在压力环境下的分离效果。
从结果来看:
- 其对已经学习过的音频特征分离效果较好(钢琴/鼓点/人声/低音伴奏)。
- 会将没有学习过的bass声特征误分类(针对筝类和女高音高频泛音的实验同样显示了这一情况)。
不过或可通过有针对性地训练自己的训练集;调整输出结果中各音轨音量并重新混合,再次分离以改善这一情况。
音频2
音频2提取的人声
音频2提取的钢琴
二、 冬奥会中的计算机视觉 - 1
2022冬奥,北京向世界展现了一个科技的中国。
并展现了一个由AI技术,大数据,云计算系统共同构成的生态环境。某些令人惊奇的片段背后并不是单一的技术体现。这里我们就来简单聊聊计算机视觉,尤其是3DAT技术在冬奥会艺术表达方面的表现。
开幕式里,3DAT巧妙地实现了演员与LED屏幕的互动,使得人与艺术效果默契配合。风雪特效跟运动员的配合天衣无缝,运动员所到之处“风雪消融”;雪花与孩子如影随形,陪着孩子们在舞台上自由地移动。
而这种“默契配合”并非精准排练的结果,它来自于一个更高效、更科技的手段。其核心算法是基于计算机视觉、AI的实时人体检测和位置追踪技术。
首先,要精准地识别出舞台上的演员并定位他们的位置。国家体育场巨大的舞台,夜晚的环境、周围各式各样的布景灯光、几百人自由移动状态下人影的重叠等等,这些都对算法的准确性提出了极高的要求。其次,要能够呈现出“默契配合”的艺术效果。如果演员与系统的互动稍有延迟,观众就会看到拖影、卡顿。这些又对算法配套设备的及时性提出了极高的要求。
在花样滑冰表演滑中场表演中,3DAT与花滑也产生了奇妙的化学反应。
在数据收集阶段,依赖于AI算法,只需要两部拍摄设备就能准确地捕捉1800㎡花滑场地里运动员的动作细节,更为重要的是数据的采集不需要目标人群穿戴任何传感器,这让大量收集老百姓和花滑选手的数据信息成为了可能。再把这些海量花滑运动的视频图像数据,通过3DAT技术生成三维人体运动数据,AI模型通过学习这些三维数据可以获得人体运动的先验常识。通过嵌入人体运动先验常识,AI模型能够稳定预测输出正确的三维姿态,保证节目效果。
参考文献:
【1】Spleeter简易版GUI下载
https://pan.baidu.com/s/1Ph6rnK5x0Ip-OKI5ubYarw
提取码2022
【2】Spleeter源码
https://github.com/deezer/spleeter
【3】Spleeter工具简单分析
https://blog.csdn.net/qq_39132330/article/details/107324264
【4】声音的秘密
https://bideyuanli.com/topic/shengpu
【5】科技与艺术的奇妙碰撞
http://news.eeworld.com.cn/mp/Intel/a132451.jspx