奥飞寺博文
量子比特报告| 公众号QbitAI
写歌作词、持续写出不同风格的歌曲的AI,如今依然以编曲的身份活跃着!
上传部分《Stay》 并按一键。
伴奏和人声可以轻松分离。
(点击链接分别听人声和伴奏) Dr.Byte AI火爆,一键将人声和伴奏完全分离| 可在线播放
人声有一种在空旷的地方清唱的清晰感觉,并且可以直接使用背景音乐进行混音和编辑。
如此惊人的效果也在Reddit上引发了热议。
这项研究的首席研究员孔秋强来自字节跳动,去年主导发布了全球最大的古典钢琴数据集GiantMIDI-Piano。
那么,今天他带来了一位怎样的AI音乐人呢?
我们来看看吧。
基于具有相位估计的深度残差网络音乐源分离(MSS)的音乐源分离
系统。
首先,改变尺寸
和相
解耦以估计复杂的理想比率掩模(cIRM)。
其次,我们将有界掩模估计和直接幅度预测结合起来,以实现更灵活的幅度估计。
最后我们介绍一下143的MSS系统。
深度残留UNet
,使用残差编码块(REB)
和残差解码块(RDB)
增加深度:
在残差编码块和残差卷积块之间还引入了中间卷积块(ICB)。
,提高残差网络的表达能力。
每个残差编码块由四个残差卷积块(RCB)组成。
剩余的卷积块由两个内核大小为33 的卷积层组成。
每个残差解码块由八个卷积层和一个反卷积层组成。
实验结果接下来,系统在MUSDB18数据集上进行测试。
MUSDB18 训练/验证集包括100/50 完整的立体声轨道,每个轨道都有独立的人声、伴奏、贝斯、鼓和其他乐器。
在训练过程中,上述系统用于并行混合音频数据丰富,其中来自同一源的两个3秒剪辑被随机混合并训练为新的3秒剪辑。
就信号失真率(SDR)而言
作为基线,我们发现ResUNetDe Couple 系统在分离人声、低音和其他伴奏方面明显优于以前的方法。
在消融实验中,143层残差网络的性能也证实了将有界掩模估计和直接幅度预测相结合确实可以提高源分离系统的性能。
介绍该研究的第一篇论文的作者孔秋强在华南理工大学获得学士和硕士学位,在英国萨里大学获得电子与信息工程博士学位。
2023年加入字节跳动语音、语音和音乐智能研究组,主要研究方向为音频信号处理和音频事件检测领域。
纸:
https://arxiv.org/abs/2109.05418
尝试一下:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation
开源地址:
https://github.com/bytedance/music_source_separation
参考链接:
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/
——以上就是——量子位QbitAI·注册关注今日头条,第一时间了解最新技术动态
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/675958.html