谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐

图片来源：由无界 AI生成

Google继续向音乐领域发起挑战，让每个人都能轻松创作音乐的时代似乎又向前迈进了一步。

12月14日，Google发布了人工智能音乐创作工具“MusicFX”，只需几句话，用户就能创作出独特的音乐作品。

分析指出，MusicFX的推出将成为人工智能领域的一个重要里程碑，为音乐家、制作人和音乐爱好者提供了尝试和创作多种音乐的新机会：

MusicFX为音乐创作者提供了多样的音效和声音素材，用户可以创作各种类型的音乐，同时支持调整音调、节奏和音量，还可以添加混响、回声等效果。无论是想要营造放松的氛围还是刺激紧张的氛围，MusicFX都可以满足。

要访问MusicFX，您需要前往谷歌的一个实验性产品网站（AI Test Kitchen）。该平台旨在让用户尽早体验最新的人工智能技术，并提供早期反馈。通过这种合作方式，谷歌能够改进技术并遵守道德标准。

媒体分析认为，MusicFX的发布不仅为音乐生成提供了全新的工具，也代表了人工智能发展过程中的趋势，用户在帮助企业完善和塑造人工智能方面的作用变得越来越重要，通过在早期阶段让用户参与进来，谷歌不仅增强了技术，还主动解决了潜在的道德问题。

此外，MusicFX的出现可能会降低音乐创作的门槛，让更多没有接受过专业音乐培训的音乐爱好者参与其中。

然而，MusicFX的出现引发了一些争议。有人认为，如何解决人工智能生成的内容对版权、所有权和音乐原创性的影响尚未得到解答。为了关注这些问题，谷歌决定在AI生成的音乐中使用水印。然而，这并没有解决AI生成内容是否属于原创的问题。

关于接下来的计划，谷歌表示他们将继续根据用户反馈不断改进MusicFX。MusicFX有可能重新定义音乐创作和与音乐互动的方式。AI Test Kitchen有望成为未来人工智能发展的典范，这种方法可以推动人工智能发展进入负责任的新时代，在这个时代，技术与社会价值观和规范将同步发展。

01 MusicLM的实力如何？

在今年年初，谷歌MusicLM横空出世，可以直接将文本、图像转化为音乐，并且曲风多样，几乎能够满足所有音乐偏好。

MusicLM是一个以文本为条件的音频生成模型，可以从文本描述中生成高保真的音乐。该模型采用层次化的序列到序列的方法，这使它能够生成几分钟内连贯的音乐。

MusicLM使用三种模型来提取作为条件自回归音乐生成输入的音频表示。这三种模型分别是SoundStream、w2v-BERT和MuLan。

其中，AudioLM模型可以看作是MusicLM的前身，MusicLM利用了AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述生成音乐，并以24kHz的频率保持这个频率，生成音乐的过程在几分钟内完成。

相比之下，MusicLM的训练数据更为丰富。研究团队引入了专门用于评估文本-音乐生成任务的MusicCaps数据集，以解决任务缺乏评估数据的问题。MusicCaps由专业人士共同创建，包含了5500个音乐-文本对。基于这个数据集，谷歌训练出了MusicLM模型，训练时间达到了280000小时。

然而，媒体之前的分析指出，MusicLM肯定存在一些不足之处，或者说离完美还有一段距离。

部分样本存在质量问题，而且尽管 MusicLM 在技术上可以生成人声，包括完成和声，但仍有许多方面需要改进。大多数“歌词”也是糟糕的英语或纯粹的胡言乱语，然后由合成的声音演唱，听起来像是奇怪的“混合物”。

02 AI生成音乐的版权风险：是否属于原创作品？

AI和人类一样，有时会直接复制这些素材，如何保护版权？

谷歌的研究人员在一项实验中发现，该系统生成的音乐中大约有1%是直接复制自其训练的歌曲。这个问题足以让研究人员不愿意过早发布MusicLM。此外，使用搜集来的素材供AI学习，是否已经涉及侵犯版权的问题？

实际上目前已经有了相关案例。2020年，美国说唱歌手Jay-Z的唱片公司对YouTube频道Vocal Synthesis提出版权警告，理由是它使用人工智能创作了Jay-Z翻唱比利·乔尔（Billy Joel）的“We Didn’t Start the Fire”等歌曲。

一份由美国音乐出版商协会的埃里克·桑雷 (Eric Sunray) 撰写的白皮书指出，像MusicLM这样的AI音乐生成器通过“从训练数据库中学习作品中连贯的音频，侵犯了美国版权法的复制权”。

此外，AI生成的音乐虽然被称为“原创”，但通常呈现出多种音乐人作品的混合，可以说存在抄袭甚至是仿冒的嫌疑。

因此，谷歌利用DeepMind的数字水印技术SynthID生成的ID表明了对版权问题的重视。谷歌表示，生成的所有歌曲都附带数字水印，这种水印对人的听觉没有影响，也不会影响音乐的效果。

这个方法主要是通过将音频波转换为二维可视化来实现。即使在数字水印遭受添加噪声、音质压缩、音频调速等破坏性操作的情况下，仍然可以检测到歌曲中的水印。

然而，一些分析师认为，尽管谷歌添加了水印来证明这首音乐是由人工智能创作的，但这并没有解决一个根本问题：由人工智能系统生成的音乐是否可以被视为原创作品？它能够与“人造音乐”同等竞争吗？

随着人们对这些问题的关注和争议，也许很快就会有明确的答案。