谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐

谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐

图片来源:由无界 AI生成

Google继续向音乐领域发起挑战,让每个人都能轻松创作音乐的时代似乎又向前迈进了一步。

12月14日,Google发布了人工智能音乐创作工具“MusicFX”,只需几句话,用户就能创作出独特的音乐作品。

谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐

分析指出,MusicFX的推出将成为人工智能领域的一个重要里程碑,为音乐家、制作人和音乐爱好者提供了尝试和创作多种音乐的新机会:

MusicFX为音乐创作者提供了多样的音效和声音素材,用户可以创作各种类型的音乐,同时支持调整音调、节奏和音量,还可以添加混响、回声等效果。无论是想要营造放松的氛围还是刺激紧张的氛围,MusicFX都可以满足。

谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐

要访问MusicFX,您需要前往谷歌的一个实验性产品网站(AI Test Kitchen)。该平台旨在让用户尽早体验最新的人工智能技术,并提供早期反馈。通过这种合作方式,谷歌能够改进技术并遵守道德标准。

媒体分析认为,MusicFX的发布不仅为音乐生成提供了全新的工具,也代表了人工智能发展过程中的趋势,用户在帮助企业完善和塑造人工智能方面的作用变得越来越重要,通过在早期阶段让用户参与进来,谷歌不仅增强了技术,还主动解决了潜在的道德问题。

此外,MusicFX的出现可能会降低音乐创作的门槛,让更多没有接受过专业音乐培训的音乐爱好者参与其中。

然而,MusicFX的出现引发了一些争议。有人认为,如何解决人工智能生成的内容对版权、所有权和音乐原创性的影响尚未得到解答。为了关注这些问题,谷歌决定在AI生成的音乐中使用水印。然而,这并没有解决AI生成内容是否属于原创的问题。

关于接下来的计划,谷歌表示他们将继续根据用户反馈不断改进MusicFX。MusicFX有可能重新定义音乐创作和与音乐互动的方式。AI Test Kitchen有望成为未来人工智能发展的典范,这种方法可以推动人工智能发展进入负责任的新时代,在这个时代,技术与社会价值观和规范将同步发展。

01 MusicLM的实力如何?

在今年年初,谷歌MusicLM横空出世,可以直接将文本、图像转化为音乐,并且曲风多样,几乎能够满足所有音乐偏好。

MusicLM是一个以文本为条件的音频生成模型,可以从文本描述中生成高保真的音乐。该模型采用层次化的序列到序列的方法,这使它能够生成几分钟内连贯的音乐。

MusicLM使用三种模型来提取作为条件自回归音乐生成输入的音频表示。这三种模型分别是SoundStream、w2v-BERT和MuLan。

谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐

其中,AudioLM模型可以看作是MusicLM的前身,MusicLM利用了AudioLM的多阶段自回归建模作为生成条件,可以通过文本描述生成音乐,并以24kHz的频率保持这个频率,生成音乐的过程在几分钟内完成。

相比之下,MusicLM的训练数据更为丰富。研究团队引入了专门用于评估文本-音乐生成任务的MusicCaps数据集,以解决任务缺乏评估数据的问题。MusicCaps由专业人士共同创建,包含了5500个音乐-文本对。基于这个数据集,谷歌训练出了MusicLM模型,训练时间达到了280000小时。

然而,媒体之前的分析指出,MusicLM肯定存在一些不足之处,或者说离完美还有一段距离。

部分样本存在质量问题,而且尽管 MusicLM 在技术上可以生成人声,包括完成和声,但仍有许多方面需要改进。大多数“歌词”也是糟糕的英语或纯粹的胡言乱语,然后由合成的声音演唱,听起来像是奇怪的“混合物”。

02 AI生成音乐的版权风险:是否属于原创作品?

AI和人类一样,有时会直接复制这些素材,如何保护版权?

谷歌的研究人员在一项实验中发现,该系统生成的音乐中大约有1%是直接复制自其训练的歌曲。这个问题足以让研究人员不愿意过早发布MusicLM。此外,使用搜集来的素材供AI学习,是否已经涉及侵犯版权的问题?

实际上目前已经有了相关案例。2020年,美国说唱歌手Jay-Z的唱片公司对YouTube频道Vocal Synthesis提出版权警告,理由是它使用人工智能创作了Jay-Z翻唱比利·乔尔(Billy Joel)的“We Didn’t Start the Fire”等歌曲。

一份由美国音乐出版商协会的埃里克·桑雷 (Eric Sunray) 撰写的白皮书指出,像MusicLM这样的AI音乐生成器通过“从训练数据库中学习作品中连贯的音频,侵犯了美国版权法的复制权”。

此外,AI生成的音乐虽然被称为“原创”,但通常呈现出多种音乐人作品的混合,可以说存在抄袭甚至是仿冒的嫌疑。

因此,谷歌利用DeepMind的数字水印技术SynthID生成的ID表明了对版权问题的重视。谷歌表示,生成的所有歌曲都附带数字水印,这种水印对人的听觉没有影响,也不会影响音乐的效果。

这个方法主要是通过将音频波转换为二维可视化来实现。即使在数字水印遭受添加噪声、音质压缩、音频调速等破坏性操作的情况下,仍然可以检测到歌曲中的水印。

然而,一些分析师认为,尽管谷歌添加了水印来证明这首音乐是由人工智能创作的,但这并没有解决一个根本问题:由人工智能系统生成的音乐是否可以被视为原创作品?它能够与“人造音乐”同等竞争吗?

随着人们对这些问题的关注和争议,也许很快就会有明确的答案。