音乐信息检索技术:音乐与人工智能的融合-USB迷|专注于互联网分享

2024年3月26日发(作者：酆康成)

音乐信息检索技术：音乐与人工智能的融合

李伟;高智辉

【摘要】音乐科技是一个典型的交叉学科领域,分为艺术部分和科技部分.近年来兴起

的音乐信息检索技术(MIR)是音乐科技领域的重要组成部分.MIR领域包含数十个研究课题,

可按照与各音乐要素的密切程度分为核心层和应用层.当前的MIR技术发展仍然面临诸多

困难,但随着艺术与科技的不断融合,必将迎来其发展的辉煌时期.

【期刊名称】《艺术探索》

【年(卷),期】2018(032)005

【总页数】5页(P112-116)

【关键词】人工智能;音乐信息检索技术;音乐科技

【作者】李伟;高智辉

【作者单位】复旦大学计算机科学技术学院,上海201203;复旦大学信息科学与工程

学院,上海200433

【正文语种】中文

【中图分类】J61

一、音乐科技概况

早在20世纪50年代，计算机刚刚产生，美国的一位化学博士就开始尝试运用计算

机处理音乐。随后几十年，欧美各国相继建立了多个大型音乐科技研究机构，如1975年

建立的美国斯坦福大学的音乐及声学计算机研究中心（Center for Computer Research

in Music and Acoustics，CCRMA）、1977 年建立的法国巴黎的声学与音乐研究与协

调研究所（Institute for Research and Coordination Acoustic/Music，IRCAM）、

1994年建立的西班牙巴塞罗那庞培法布拉（UPF）大学的音乐科技研究组（Music

Technology Group，MTG）、2001年建立的英国伦敦女王大学数字音乐研究中心

（Centrefor Digital Music，C4DM）等。此外，在亚洲的日本、中国台湾等国家和地区

也有多个该领域的公司（如雅马哈）和科研院所。欧洲由于其浓厚的人文和艺术气息成了

音乐科技的世界中心。

图1 音乐科技各领域关系图

音乐科技是一个典型的交叉学科领域，分为艺术部分和科技部分。（图1）艺术部分

主要偏向使用各种音频软件及硬件进行音乐创作，科技部分主要进行底层计算机技术的研

发，为艺术创作提供技术支撑，也叫做声音与音乐计算（Sound and Music Computing，

SMC）。SMC主要包括音频信号处理（Audio Signal Processing）及计算机听觉

（Computer Audition，CA），音乐信息检索技术（Music Information Retrieval，

MIR）属于计算机听觉中专门分析理解音乐内容的部分。

近20年来，互联网上出现了海量的数字音乐。音频大数据与人工智能（Article

Intelligence，AI）相结合，产生了MIR，成为音乐科技领域的重要组成部分。MIR以音

乐声学为基础，基于音频信号处理提取音频特征，后端大量采用AI中的各种机器学习技

术。目前，MIR已成为一个很大的科学研究领域，国内外主要的学术会议有ISMIR（音

乐信息检索国际会议）、ICMC（计算机音乐国际会议）、CSMT（中国声音与音乐技术

会议）、ICASSP（声学、语言、信号处理国际会议）等。

二、MIR领域科研情况介绍

MIR领域包含数十个研究课题，这些课题按照与各音乐要素的密切程度可划分为核

心层MIR研究和应用层MIR研究。（图2）

（一）核心层MIR研究

1.音高与旋律（Pitch and Melody）[1]1-5

音乐中每个音符都有一定的音高，而音高由声波的频率决定。音高检测的手段大概分

为三种：（1）时域检测，即在时间上对声波进行分析，具体有过零率法、自相关法（如

YIN算法）、最大似然法、自适应滤波器法、超分辨率法等；（2）频域检测，如对信号

进行短时傅里叶变换（STFT），由周期性信号在基频整数倍处有不同峰值的原理得到该

时间段的基频，从而得到音高；（3）基于听觉模型检测，即通过模拟人类感知音高的生

理过程，使用耳蜗模型对每一个通道进行独立的自相关运算，综合所有通道信息得到相对

的音高。

旋律是经过艺术构思，按照节奏及和声形成的反映音乐主旨的音符序列。旋律提取指

的是从多声部/多音音乐（Polyphonic Music）信号提取单声部（Monophonic）旋律的

过程，典型方法有音高重要性法、歌声分离法、数据驱动的音符分类法等三种，可应用在

音乐搜索、抄袭检测、歌唱评价、作曲家风格分析等方面。

更进一步，音乐识谱（Music Transcription）是识别音乐中每个时刻发声的各个音

符并形成乐谱的过程。通常首先基于矩阵分解技术进行歌声和各种伴奏乐器声音的分离；

接下来在各个音源上寻找每一个音符的起始点并进行分割；随后进行多音高/多基频（f0）

估计，提取每个音符的基频，根据MIDI音符表转换为音符的音名；最后利用音乐领域知

识或规则进行后处理纠错。

2.音乐节奏（Music Rhythm）[2]159-171

音符起始点检测（Node Onset Detection）的目的是检测音乐中某一音符开始的时

间，是各种音乐节奏分析的预处理步骤。一个音符在波形上可以体现为Onset（音符起始

点）/Attack（音符上升段）/Transient（音符持续段）/Decay（音符衰减段）等几个部

分。弹拨类乐器为Hard Onset（硬音符起始点），典型算法由子带分解、检测各子带能

量峰值、合并后挑选结果等几个步骤组成；弦乐器吹奏类乐器为Soft Onset（软音符起

始点），可通过检测和弦突变点求解。

图2 MIR领域包含的研究课题

节拍跟踪（Beat Tracking）是用计算机模拟人们在听音乐时无意识地踮脚或拍手现

象的过程，是理解音乐节奏的基础，也是很多MIR任务的重要步骤。其一般依赖于音符

起始点检测、打击乐或其他时间局域化时间检测。如果音乐偏重抒情没有打击乐器或者不

明显，则可采用和弦改变点作为候选节拍点。

速度检测（Tempo Detection）通常与节拍跟踪同时进行，用于判断音乐进行的快

慢，通常以BMP（Beats per Minute）表示。其可以应用于音乐情感分析，或者帮助帕

金森病人恢复行走能力。一个经典方法是用带通滤波器计算每个子带幅度包络线，与一组

事先定义好的梳状滤波器卷积，并对所有子带上的能量进行求和，最高峰值即为速度。

拍子检测（Meter Detection）、小节线检测（BarLine/Measure Detection）、强

拍估计（Downbeat Estimation）的技术路线类似，通常基于节拍相似性矩阵、节拍跟

踪和基于音乐知识的启发式规则。节奏型检测（Rhythmic Pattern Detection）基于模

板匹配方法或者机器学习的节奏型标注，可用于音乐流派分析和音乐教学等。

3.音乐和声（Music Harmony）[3]1280-1289

自18世纪后半叶至今，主调音乐（Homophony）已经逐渐取代了复调音乐

（Polyphony），而和声正是主调音乐最重要的要素之一。

和弦识别（Chord Detection）中最重要的音频特征为半音类（PCP[Pitch Class

Profiles]，或称 Chroma），即在12个半音类上与八度无关的谱能量的聚集。识别模型

有模板匹配、隐形马尔科夫模型（Hidden Markov Model，HMM）、条件随机场

（Conditional Random Fields，CRF）、支持向量机（Support Vector Machine，

SVM）、递归神经网络（Recurrent Neural Network，RNN）等。

调检测（Key Detection）通过PCP特征来描述对调的感知，还可用调高分类器平滑

减少音高的波动。其可用于音乐识谱、和弦检测、音乐感情计算、音乐结构分析等。

4.歌声信息处理（Singing Information Processing）[4]57-60

歌声检测（Vocal/Singing Voice Detection）是判定整首歌曲中哪些部分是歌声，

哪些部分是纯乐器伴奏的过程。一般通过音频分帧，提取能够有效区分歌声和伴奏的音频

特征（梅尔频率倒谱系数[Mel-Frequency Cepstral Coefficients，MFCC]、谱特征、颤

音等），然后进行机器学习分类，最后使用平滑后处理去除奇异点。

歌声分离（Vocal/Singing Voice Separation）是指将歌声与背景音乐伴奏进行分离

的过程。对立体声录音，假设歌声位于中央信道，可利用声源的空间差异性来定位和分离；

对单声道录音，可采用基于音高推理（Pitch-based Inference）获得歌声泛音结构，或

基于矩阵分解技术，或基于计算听觉场景分析CASA（Computational Auditory Scene

Analysis）的方法。其可应用于在歌手识别、哼唱/歌唱检索、卡拉OK伴奏等。

歌手识别（Singer/Artist Identification）判断一个歌曲是由集合中的哪个歌手演唱

的，框架类似于说话人识别/声纹识别。歌声与语音之间存在巨大差异，技术上更困难。

其可用于按歌手分类管理大量歌曲、模仿秀。

歌唱评价（Singing Evaluation）含两部分。基础评价包括计算两段歌声各种音频特

征如音量、音高、节奏、旋律、颤音等之间的相似度，高级评价包括感情、音域、声音质

量、音色辨识度、歌唱技巧等。

歌词识别（Lyrics Recognition/Transcription）与语音识别技术框架类似，区别在

于：歌词非匀速进行且音高变化范围大；歌唱根据旋律和节奏的进行、颤音和转音等技巧

来控制声带的发声方式、发声时间和气息稳定性；同一个人歌唱和说话音色有很大不同；

歌词具有一定艺术性需要押韵；等等。其可应用于歌曲检索、歌曲分类、歌词与音频或口

型对齐等。

（二）应用层MIR研究

1.音乐搜索（Music Retrieval）[5]231-236

音乐识别（Music Identification）录制一个音乐片段作为查询片段，计算音频指纹

后与后台指纹库进行匹配，将最相似记录的歌曲名、词曲作者、演唱者、歌词等元数据返

回，其核心是音频指纹技术（Audio Fingerprinting）。

哼唱及歌唱检索（Query by Humming/Singing）录制一段哼唱或歌唱声音作为查

询片段，计算音频特征后在数据库中进行相似性匹配，并按匹配程度高低返回结果列表，

难度比音乐识别更大。一般使用旋律编码特征（音高轮廓、音程、音长、音高变化、音长

变化）等进行旋律匹配，匹配手段有字符串近似匹配、动态时间规整、编辑距离、隐形马

尔科夫模型等。[4]57-60

多版本音乐识别或翻唱识别（Cover Song Identification）用于判断两首音乐是否具

有同样的本源。特点是主旋律基本相同但音乐结构、音调、节奏、配曲、演唱者性别、语

言等可能会发生巨大变化。一般提取稳定的音乐中高层特征，在各个版本的整首音乐或音

乐片段间进行匹配。

敲击检索（Query by Tapping）根据输入的节拍信息，从数据库中返回按节拍相似

度高低排序的音乐列表，没有利用音高信息。一般提取音符持续时间向量作为特征，归一

化处理后动态规划比对并排序返回。

音乐借用（Music Borrowing）检测不同歌曲之间旋律相似的部分。与音乐识别相比，

音乐借用也检测相似短片段，但后者不知道该片段在歌曲中的起始位置及长度。其可用于

抄袭检测。

2.音乐情感识别（Music Emotion Recognition，MER）[6]227-244

音乐情感识别涉及心理学、音乐学、AI技术。其有两种技术路线：一是利用Hevner

或Thayer情感模型将MER归结为单标签或多标签分类问题；二是归结为基于Arousal

和Valence（AV）值的二维AV情感空间回归预测问题。MER广泛应用于音乐选择、影

视制作、音乐推荐、音乐治疗等场景。

3.音乐流派 /曲风分类（Music Genre Classification）[7]282-289

通过音频特征提取和统计分类对音乐内容进行分析，可将音乐分为流行、摇滚、爵士、

乡村、经典、蓝调、嘻哈、迪斯科等类别。

4.作曲家分类（Music Composer Classification）

读取一段音乐，通过音频特征和统计分类器（如决策树、SVM）等方式分析音频数

据内在的风格，可识别出相应的作曲家信息，常用于音乐理论分析。

5.智能乐器识别（Intelligent Instrument Recognition）

识别多声部/多音音乐中的各种乐器/主乐器。传统技术框架为音频特征提取（如

LPC[Linear Predictive Coding，线性预测编码]、MFCC、常数 Q 变换倒谱系数、基于

频谱图时域分析的音色特征、基于稀疏特征学习得到的特征）和统计分类器GMM

（Gaussian Mixture Model，高斯混合模型）、SVM、贝叶斯决策等，近十年又发展了

基于深度学习（Deep Learning）的新方法。

6.音乐结构分析（Music Structure Analysis）[8]625-636

通过自相似矩阵、递归图、子空间聚类等方式把音频流分割为一系列具有音乐意义的

时间区域，如前奏、主歌、副歌、桥段和结尾，常用于音乐理解、多版本音乐检索、乐句

划分、音乐摘要、音频水印等。

7.音乐摘要 /缩略图（Music Summary/Thumbnail）

通过初步的音乐结构分析寻找最合适的片段作为摘要，一般以副歌和附近乐句为主，

可应用在彩铃、浏览、搜索中。

8.音乐推荐（Music Recommendation）[9]1366-1367

分为基于用户历史行为的个性化音乐主动推荐，基于情感的推荐和基于场景（如工作、

睡觉、运动）的推荐等。音乐推荐一般使用三种技术框架，即协同过滤推荐（相似偏好用

户群喜好的音乐）、基于内容的推荐技术（根据音乐间的元数据或声学特征的相似性推

荐），以及混合型推荐（多模态数据）。

9.音乐标注（Music Annotation/Tagging/Labelling）

应用于复杂的音乐发现、建立语义相似的歌唱播放列表、音效库管理、音乐推荐等场

景。首先进行人工标注，给音乐和音频赋予描述性的关键字或标签；之后采用机器学习模

型学习音频内容与标签之间的关系并进行自动标注。困难之处在于实际待标注的标签内容

本身无法确定，且难以客观评价标注质量。

10.歌声与歌词同步

音乐电视节目的理想情况是歌声、口型、歌词三者精准同步。这是一个典型的结合音

频、视频、文本三种媒体的多模态研究。截至目前，尚未发现关于三者同步的研究，仅有

少量关于歌声和歌词同步的研究。

三、与MIR相关的其他音乐科技研究课题介绍

在传统的MIR技术中，并不包括算法作曲、歌声合成、音频水印、音视频结合等内

容。考虑到这些技术也属于音乐科技中十分重要的方面，这里也进行简要介绍。

（一）自动/算法/AI作曲（Automated/Algorithmic/AI Composition）

指在音乐创作时部分或全部使用计算机技术，减轻人（或作曲家）的介入程度。用编

程的方式来生成音乐，一般用语法表示、概率方法、人工神经网络、基于符号规则的系统、

约束规划和进化算法、马尔克夫链、随机过程、基于音乐规则的知识库系统、深度递归神

经网络等对时间域旋律进行预测。

（二）歌声合成技术（Singing Voice Synthesis，SVS）

通过共振峰参数合成法、采样合成/波形拼接合成等方式，将歌词按照乐谱合成为歌

声，应用于虚拟歌手、玩具、练唱、音色转换等多个场景。由西班牙MTG提供核心技术，

日本雅马哈公司商业化的“初音未来”即是一个最典型的代表。

（三）数字音频水印技术（Audio Watermarking）[10]100-111

数字音频水印[10]100-111是在不影响原始音频质量的条件下向其中嵌入具有特定意

义且易于提取信息的技术，嵌入的水印能够经受各种时域频域的音频信号失真及同步失真。

该技术可用于保护版权、广播监控、盗版追踪、内容标注等。

脆弱/半脆弱音频水印用于数字音频作品的真实性和完整性保护。脆弱水印用于检测

宿主数据发生的任何变化，半脆弱水印融合鲁棒水印与脆弱水印的特性，能够抵抗有损压

缩、噪声等常规音频信号失真，以及对剪切、替换、恶意篡改等非法操作敏感。

音频取证（Audio Forensics）包括被动音频认证，基本方式包括听觉测试、频谱图/

频谱分析等，高级方式包括特征提取和统计分类。

（四）音视频结合

人类感知的本能告诉我们，应大力开展融合音视频的跨媒体科技研发。典型应用有音

乐可视化、基于视频速度和音乐情感进行的电影情感事件检测等。

四、总结与展望

当前的MIR技术发展仍然面临诸多困难。从数据角度看，很多数字音乐涉及版权无

法公开，各种音频数据都源自特定场合和物体，难以搜集和标注；从信号角度看，音乐中

各种乐器和歌声在音高上形成和声，在时间上形成节奏，耦合成多层次的复杂音频流，难

以甚至无法分离处理，从而影响后续各个应用。

由于国内教育体制原因，艺术界与科技界割裂严重。20世纪90年代时开始，各音乐

院校逐渐开始设立音乐科技/音乐工程系。但是直到现在，音乐科技仍然严重依赖引进设

备、软件进行艺术创作，重实践轻理论的观念根深蒂固，没有底层计算机软硬件核心技术

的研发能力。在理工科领域里进行音乐科技研发的团队和相关公司近十几年刚刚起步，目

前整体力量还不够强大。

随着中国经济的快速发展，近五年来，社会对音乐科技类的计算机软硬件、互联网产

品的需求急剧增加。可喜的是，从小接受过音乐训练的理工科大学生数量越来越多，为该

领域未来的发展提供了潜在的人力资源。2013年由复旦大学和清华大学创办的全国声音

与音乐技术（Conference on Sound and Music Technology，CSMT）会议及交流平

台也对整个领域的发展起到了巨大的推进作用。

总体来讲，在当代社会，艺术与科技相融合是大势所趋。无论从科技还是文化角度来

讲，音乐科技领域都具有很强的理论、应用、文化及社会价值。在不久的将来，音乐科技

一定会迎来它发展的辉煌时期。

参考文献：

【相关文献】

[1]李伟，冯相宜，吴益明，等.流行音乐主旋律提取技术综述[J].计算机科学，2017，

44（5）.

[2] audio-based real-time beat tracking system for music with or

with out drum-sounds[J].Journal of new music research，2001，30（2）.

[3]，aneous estimation of chords and musical context

from audio[J].IEEE transactions on audio speech and language processing，2010，

18（6）.

[4]，，dis，et g-voice separation from

monaural recordings using robust principal component analysis[C]//IEEE

international conference on acoustics，speech and signal processing，2012.

[5]，，rlin，et by humming：musical

information retrieval inanaudio database[C]//ACM international conference on

multimedia，1995.

[6]，，ted music emotion recognition：a

systematic evaluation[J].Journal of new music research，2010，39（3）.

[7]Tao Li，a Qi Li.A comparative study on content based

music genre classification[C]//SIGIR 2003：proceedings of the 26th annual

international ACM SIGIR conference on research and development in informaion

retrieval，2003.

[8]，M.Müller，-based music structure analysis[C]//Int

society for music information retrieval conference，2010.

[9]s personalizing classical music recommendations[C]//IEEE

international conference on data mining workshop，2016.

[10]李伟，袁一群，李晓强，等.数字音频水印技术综述[J].通信学报，2005，26（2）