发布者认证信息(营业执照和身份证)未完善,请登录后完善信息登录
 终于理会字节跳动博士研制的“AI 音乐家”火了:可一键完美分离人声和伴奏 - 最新消息 - 三农网
Hi,你好,欢迎来到三农网
  • 产品
  • 求购
  • 公司
  • 展会
  • 招商
  • 资讯
当前位置: 首页 » 资讯 » 吃在农村 找商家、找信息优选VIP,安全更可靠!
终于理会字节跳动博士研制的“AI 音乐家”火了:可一键完美分离人声和伴奏 - 最新消息
发布日期:2023-10-07 06:42:36  浏览次数:11

AI 可以写歌、填词、改换风格、续写音乐。今天,AI 又来做编曲人了。

上传一段《Stay》,一键按下,伴奏和人声就轻松分离。

人声颇有种在空旷地带清唱的清晰感,背景乐都能直接拿去做混剪了!

这样惊人的效果也引发了 Reddit 热议。

这项研究的主要负责人孔秋强来自字节跳动,全球最大的古典钢琴数据集 GiantMIDI-Piano,也是由他在去年牵头发布的。

那么今天,他又带来了怎样的一个 AI 音乐家呢?

一起来看看。

基于深度残差网络的音源分离

这是一个包含了相位估计的音乐源分离(MSS)系统。

首先,将幅值(Magnitude)与相位(Phase)解耦,用以估计复数理想比例掩码(cIRM)。

其次,为了实现更灵活的幅值估计,将有界掩码估计和直接幅值预测结合起来。

最后,为 MSS 系统引入一个 143 层的深度残差网络(Deep Residual UNets),利用残差编码块(REB)和残差解码块(RDB)来增加其深度:

残差编码块和残差卷积块中间还引入了中间卷积块(ICB),以提高残差网络的表达能力。

其中每个残差编码块由 4 个残差卷积块(RCB)组成,残差卷积块又由两个核大小为 3×3 的卷积层组成。

每个残差解码块由 8 个卷积层和 1 个反卷积层组成。

实验结果

接下来,将这一系统在 MUSDB18 数据集上进行实验。

MUSDB18 中的训练/验证集分别包含 100/50 个完整的立体声音轨,包括独立的人声、伴奏、低音、鼓和其他乐器。

在训练时,利用上述系统进行并行的混合音频数据增强,随机混合来自同一来源的两个 3 秒片段,然后作为一个新的 3 秒片段进行训练。

以信号失真率(SDR)作为评判标准,可以看到 ResUNetDecouple 系统在分离人声、低音、其他和伴奏方面明显优于以前的方法:

在消融实验中,143 层残差网络的表现也证实了,结合有界掩码估计和直接幅值预测确实能够改善声音源分离系统的性能。

作者介绍

这项研究的论文一作为孔秋强,本硕都毕业于华南理工大学,博士则毕业于英国萨里大学的电子信息工程专业。

他在 2019 年加入字节跳动的 Speech, Audio and Music Intelligence 研究小组,主要负责音频信号处理和声音事件检测等领域的研究。

VIP企业最新发布
全站最新发布
最新VIP企业
背景开启

三农网是一个开放的平台,信息全部为用户自行注册发布!并不代表本网赞同其观点或证实其内容的真实性,需用户自行承担信息的真实性,图片及其他资源的版权责任! 本站不承担此类作品侵权行为的直接责任及连带责任。

如若本网有任何内容侵犯您的权益,请联系 QQ: 1130861724

网站首页 | 实时热点 | 侵权删除 | 付款方式 | 联系方式 | 法律责任 | 网站地图 ©2022 zxb2b.com 三农网,中国大型农产品交易电商平台 鄂公网安备42018502006996 SITEMAPS | 鄂ICP备14015623号-20

返回顶部