acm-header
登录

ACM通信

研究突出了

信息学爱乐乐团


管弦乐队

图片来源:免费音乐无处不在

一种音乐伴奏系统,在类似协奏曲的设置中,由计算机驱动的管弦乐队跟随并学习独奏者。该系统分为三个模块:第一个模块利用隐马尔可夫模型计算实时分数匹配;第二种通过对预先存在的音频记录进行相位声编码产生输出音频;第三种通过使用类似卡尔曼滤波器的模型预测未来的时间进化,提供了两者之间的联系。几个例子展示了系统在不同的音乐设置的行动。强调了与机器学习的联系,展示了当前的弱点和新的可能的方向。

回到顶部

1.音乐伴奏系统

音乐伴奏系统是为现场音乐家充当音乐伙伴的计算机程序,通常以现场演奏者为中心充当音乐的辅助角色。在线玩家和电脑之间可能的交互类型是多种多样的。有些方法通过处理音乐家的音频来创造声音,通常是在分析音频内容本身的驱动下,可能会以很大程度上预定义的方式扭曲、呼应、协调或评论独奏者的音频。812其他方向则指向即兴音乐,比如爵士乐,在爵士乐中,计算机按照乐谱的轮廓,甚至可能“在飞行中”创作自己的音乐部分,3.或者演变成“呼叫和响应”,计算机和人类轮流扮演主角。69我们在这里的重点是第三种方法,它模拟了传统的“古典”协奏曲类型的设置,在这种设置中,计算机以一种遵循现场独奏者的方式表演一个预先作曲的音乐部分。2411这种分类只是为了总结一些过去的工作,同时承认有相当大的空间混合这些场景,或完全在这个可能性范围之外工作。

动机是协奏曲这个问题在印第安纳大学雅各布斯音乐学院(JSoM)表现得尤为明显,我们最近的大多数实验都是在这里进行的。例如,JSoM有大约200名学生钢琴家,对他们来说,文学协奏曲是他们日常练习和愿望的中心。然而,在JSoM中,普通的管弦乐队每年只有两场钢琴协奏曲,使用学生独奏家,从而确保这些有抱负的钢琴家在IU期间永远不会作为管弦乐独奏家表演。我们认为这是非常不幸的,因为几乎所有这些学生都有必要的技术技能和音乐深度,从协奏曲体验中大大受益。我们在音乐伴奏系统方面的工作力求将这种有益的经验带给音乐学生,业余爱好者,以及许多其他想要作为管弦乐独奏者,尽管,无论出于什么原因,没有机会。

即使在古典音乐领域,也有许多方法来进一步细分伴奏问题,这需要本质上不同的方法。JSoM是一个大型弦乐教学项目的发源地,从5岁的学生开始。这个项目的学生在第一年就开始用钢琴演奏独奏作品。在为这些早期音乐家伴奏时,钢琴家的作用不仅仅是演奏遵循年轻的独唱者,却要同时,通过建立良好的节奏,稳定的节奏在适当的地方,同时引入音乐的想法。从某种意义上说,这是所有古典音乐伴奏问题中最难的,因为伴奏者必须知道更多的比独奏者,从而决定伴奏者什么时候应该跟随,以及什么时候和如何领导。对伴奏者角色的粗略估计提供了一个相当严格的伴奏,对独奏者的解释(或错误)没有过度的反应,有几个商业程序采取这种方法。教学音乐系统的更复杂的观点,跟随和引导作为适当的几乎完全没有触及,可能是由于建模的目标的困难。然而,我们认为这一领域是持久研究贡献的沃土,并希望我们和其他人能够为这一事业做出贡献。

另一种完全不同的情况是,音乐在很大程度上没有任何传统的节奏流动感,例如潘德列茨基、谢纳基斯、布列兹、凯奇和施托克豪森的一些作品中,举一些比较著名的例子。这样的音乐通常用秒来标记,而不是用拍或小节来强调规律脉搏的无关性。对于这类涉及独奏和伴奏的作品,乐谱可以表明独奏部分和伴奏部分各点之间的同步性点或时间关系点。如果这一方法只是基于音频,那么自然的策略便是等待各种独立事件被检测出来,然后再进行回应这些事件。这是IRCAM评分跟踪者所采用的方法,在这种类型的各种片段中都取得了一些成功。2

第三种情况,包括我们的系统,处理具有持续音乐节奏的独奏和伴奏作品,包括绝大多数“常见的实践”艺术音乐。这种音乐是JSoM大多数以表演为导向的音乐学生的主要关注点,也是我们的伴奏系统最适合家用的音乐。包含有规律的,虽然不是刚性的,脉冲的音乐需要独奏部分和伴奏部分之间的密切同步,因为这种同步降低了整体的结果会受到很大的影响。

我们的系统被称为“信息学爱乐”,或“音乐加一”(MPO),由于其所谓的改进,沿着演奏伴奏记录音乐- 1激励我们工作的公司。几年来,我们与JSoM的教师和学生在这种传统协奏曲设置上合作,不断努力提高我们系统的性能,同时探索这种场景的变化。web页面http://www.music.informatics.indiana.edu/papers/icml10包含小提琴家赵有镇的视频,在我们的系统的伴奏下演奏西贝柳斯小提琴协奏曲的第一乐章,这是从我们的讲座/音乐会中截取的艺术的一周2007年节日。我们将根据系统的三个基本组件来描述系统的整体架构:听、预测和播放,包括几个具有启发性的示例。我们还确定了机器学习社区可能感兴趣的拟议方法的开放问题或局限性,并很可能从他们的贡献中受益。

一般练习古典音乐所需的基本技术自然延伸到前卫的域。事实上,我们认为伴奏系统最大的潜在贡献之一是为人机合作创作的新音乐。计算机在演奏快音符和协调复杂节奏方面提供了本质上无限的技巧。另一方面,目前,计算机在提供美学上令人满意的音乐诠释方面相对较弱。利用伴奏系统的技术能力的作品,同时通过现场独奏者的领导使表演人性化,为21世纪的作曲和技术提供了一个开放式的音乐会议场所。由瑞士作曲家和数学家Jan Beran专门为我们的伴奏系统所写的几种不同的作品,在上面的网页中有介绍。

回到顶部

2.音乐+ 1概述

我们的系统由三个子任务组成,分别是“听”、“预测”和“玩”。Listen模块解释现场独奏者的音频输入,因为它实时积累。本质上,Listen用“运行注释”注释传入的音频,使用第3节讨论的隐藏马尔可夫模型,用可变的检测延迟识别音符的开始。稍作思考就会发现,某些检测延迟是不可避免的,因为一个音符必须在被识别之前被听到一段时间。出于这个原因,我们认为构建一个纯粹的“响应式”系统是没有希望的,它要等到检测到独奏音符后才会播放同步伴奏事件:我们的检测延迟通常在3090毫秒范围内,如果伴奏始终落后这么多,这足以证明是致命的。出于这个原因,我们模拟了人类音乐家的伴奏时间,不断预测未来的进化,同时随着更多的信息变得可用,修改这些预测。我们系统中执行这项任务的模块Predict是一个非常接近于第4节中讨论的卡尔曼滤波器的高斯图形模型。Play模块使用相位声编码5使用纯伴奏录音中的音频来构造管弦乐音频输出。这一著名的技术在不引入音调扭曲的情况下扭曲了原始音频的时间,从而保留了许多原始音乐意图,包括平衡、表达和音调颜色。Play过程是由Predict模块的输出驱动的,本质上是通过像面包屑一样跟踪未来目标的进化序列。

虽然该系统的基本方法依赖于ML社区的旧标准,hmm和高斯图形模型,系统的计算挑战不应该被低估,在复杂的音乐场景中需要精确的实时双向音频计算,足以在复杂的音乐社区中引起兴趣。该系统是由作者在超过15年的时间里用C和c++实现的现成硬件。Listen和Play都是作为单独的线程实现的,当检测到一个独奏音符(Listen)或一个管弦音符(Play)时,它们都调用Predict模块。

下面是对“听与预测”的详细介绍。

回到顶部

3.听:基于hmm的分数如下

盲目的音乐音频识别1713将音乐音频的自动转录处理成符号化的音乐表征,利用无先验知识的音乐被识别。这个问题仍然是完全开放的,特别是对于复调音乐(几个独立的部分),那里的艺术状态仍然是原始的。虽然有很多方法可以建立合理的数据模型来量化特定的音频瞬间与假设的音高集合的匹配程度,但似乎缺少的是音乐语言模型。如果把音素和音符看作是语言和音乐的原子,那么音乐上似乎就没有与之对等的.此外,虽然音乐遵循简单的逻辑,并且可以很好地预测,但这种逻辑通常是基于更高层次的结构,如节奏、和声和动机转换。可计算处理的模型,如noten-gram似乎在这里贡献很少,而一个计算上有用的音乐语言模型仍然是未知的领域。

我们的Listen模块处理更简单的情况,其中音乐分数已知,给出独奏者将演奏的音高和他们的大致持续时间。因此,分数跟随问题是其中之一对齐而不是识别.分数跟踪,或称为在线对齐,比离线更困难,因为在线算法在估计音频事件的时间时不能考虑未来的音频数据。后面的乐谱必须在音符开始被察觉之前“听到”一点音符,因此总是产生某种程度的延迟估计开始时间和估计时间之间的延迟。在线校准的主要挑战之一是在延迟和准确性之间进行权衡。施瓦兹14给出了一个很好的注释书目的许多贡献得分以下。

*3.1.听模型

我们的HMM方法将音频数据视为一系列“帧”,y1y2、……yT,大约每秒30帧,在将这些帧建模为隐藏马尔可夫链的输出时,x1x2、……xT.中描述的马尔可夫链的状态图图1,将音乐建模为一系列子图,每个单独的音符对应一个子图,这样的安排使整个过程进入(n当它离开时+ 1)th音符n请注意。从图中可以看到,每个音符都以一个简短的状态序列开始,以捕获攻击笔记的一部分。接下来是另一个带有自我循环的状态序列,意在捕捉音符的主体,并解释我们可能观察到的音符持续时间的变化,如下所示。

如果我们连结在一起每个国家都有可能向前发展p,或保持当前状态,概率= 1p,然后是国事访问总数(音频帧),l,在先后的时间里度过状态的二项分布是负的

ueq01.gif

l+ 1,……虽然用马尔可夫链来表示这种分布很方便,但负二项的不对称性质在音乐上也是合理的:虽然发作间隔(IOI)比它的名义长度长得多是常见的,反之则不常见。对于每个音符,我们选择参数而且pE (T)m / p和Var (T) =mq / p2反映我们先前的信念。在任何排练之前,平均值被选择与音符值和乐谱中给定的名义节奏相一致,而方差被选择为平均值的固定递增函数。然而,一旦我们已经排练了几次,我们选择而且p根据矩量法,使经验均值和方差与模型的均值和方差一致。

实际上,我们使用的音符模型比书中描述的更广泛图1,短音符的变体,以可选休止符结尾的音符,休止符等,尽管所有的音符都遵循相同的基本思想。其结果是一个由数千个状态组成的网络。

我们的数据模型由三个特征组成btyt),etyt),年代tyt)假定是有条件独立的,给定国家:

ueq02.gif

第一个功能,bt,测量信号的局部“突发性”,特别有用的区分音符攻击和稳态行为,观察我们区分了一个音符的攻击部分和稳态部分图1.第二个特点,et,测量局部能量,有助于区分休止符和音符。然而,到目前为止,向量值特征年代t是最重要的,因为它非常适合做音高辨别,如下所示。

我们让fn表示与的标称基音相关联的频率n配乐。和任何具有频率的准周期信号一样fn,我们期望音频数据从n这个音符将有一个由整数倍的“峰”组成的幅度谱fn.这是由描述的高斯混合模型图2

ueq03.gif

在哪里hwh= 1,Nj;,2)是高斯分布的离散近似。该模型捕捉了这张纸币的“光谱包络线”,描述了能量在频率范围内的分布方式。此外,由于音高的对数性质,玩家所犯的频率“错误”与期望的频率成正比。在我们的模型中,这是通过混合组分不断增加的方差得到的。我们定义年代t的幅值谱yt,归一化为常数值,C.如果我们相信n这个音在音中t帧,我们注视年代t直方图作为随机样本的大小C.因此,我们的数据模型就变成了多项式分布

eq01.gif

值得注意的是,该模型以一种直接的方式推广到多个音调同时发声的情况,只需混合方程3.1的几种形式的分布。通过这种方式,我们的方法可以适应从小提琴上的双停到大型合奏表演。

这种建模方法描述了部分音频频谱由于独奏者相当好。然而,我们的实际信号不仅会收到这个个人贡献,还会收到音频生成的由我们的伴奏系统本身。如果伴奏音频中含有与独奏音频相混淆的频率内容,就会导致伴奏系统极不可取的可能性后自己本质上,是在追逐自己的影子。在一定程度上,当独奏者不演奏时,“关闭”乐谱追随者可以减少这种结果的可能性;我们当然会这么做。然而,由于独奏部分和伴奏部分的音高内容通常是相似的,所以追影仍然有很大的潜力。

我们的解决方案是直接建模的伴奏贡献的音频信号,我们收到。因为我们知道管弦乐队演奏什么(我们的系统生成这个音频),我们将这个贡献添加到数据模型中。更明确,如果t交响乐团的贡献的幅度谱是否在框架内t的条件分布模型年代t用方程1,但是用pt、npn+ (1)t为0 < < 1而不是pn

在许多情况下,这种添加会产生更好的结果。然而,在实际实现这种方法时,令人惊讶的困难在于,两者之间似乎只有微弱的一致已知的我们的系统通过扬声器播放的音频和伴奏音频回来通过麦克风。尽管如此,通过各种平均技巧来估计t,我们几乎可以消除不受欢迎的追影行为。

*3.2.在线解读音频

一个score follower所能做的最糟糕的事情之一就是在事件发生之前报告它们。在这种情况下,除了完全不可能产生准确的估计之外,音乐结果经常涉及伴奏者在独奏者之前到达一个巧合点。当伴奏者以这种方式“踩上”独奏者时,独奏者必须努力重新控制演奏,在这个过程中可能会感到绝望和无关紧要。由于假阳性的后果是如此之大,分数跟踪者必须在报告其位置之前合理地确定记录事件已经发生。在线分数跟踪的概率公式是避免这种假阳性的关键,同时以一种合理的方式导航准确性-延迟权衡。

每当我们处理一帧新的音频,我们就会重新计算“转发”的概率,pxt|y1、……yt),对于当前帧,t.侦听等待来检测笔记n直到我们有足够的信心它的爆发已经成为过去。也就是说,直到

ueq04.gif

对于某个常数。在这个表达式中,startn的初始状态n注释模型,如图1,它在模型中所有其他状态之前或之后(xt开始n是有意义的。假设t*是上述不等式成立的第一个坐标系。当这种情况发生时,我们对音符开始时间的认识可以用函数来概括t

ueq05.gif

我们用正反向算法来计算。偶尔,这种分布传达了关于音符开始时间的不确定性,例如,如果它有高方差或双峰。在这种情况下,我们只是不报告特定记录的开始时间,认为保持沉默比提供错误的信息要好。否则,我们估计起始为

eq02.gif

并将此信息传递给Predict模块。

在前面提到的网站上可以看到几个证明我们得分能力的视频。其中一种方法只是播放音频,同时在音符出现的时候突出显示它们的位置,从而显示检测延迟看到稍微落后于谁听到.第二段视频显示了一个相当古怪的演奏者,他疯狂地装饰,进行极端的节奏变化,弹错音符,甚至重复一个小节,从而显示了乐谱追随者的健壮性。

回到顶部

4.预测:建模音乐时机

如第2节所讨论的,我们相信纯粹的响应伴奏系统在我们处理的常见的实践“古典”音乐的范围内无法达到可接受的声部协调,因此我们选择通过预测而不是反应来安排我们的伴奏。我们的方法是基于一个概率模型的音乐计时。在开发这个模型的过程中,我们从三个重要的特征开始,我们相信这个模型必须具备。

  1. 由于我们的伴奏必须是实时构建的,所以我们的模型的计算要求必须是实时可行的。
  2. 我们的系统必须通过排练来改进。因此,我们的模型必须能够自动训练它的参数,以体现现场玩家在过去的例子中展示的计时细微差别。这样我们的系统就能更好预测当前表演的未来音乐演变。
  3. 如果我们的排演要成功地引导系统达到预期的音乐效果,系统必须相当好地“sightread”(在没有排演的情况下进行表演)。否则,玩家就会因为糟糕的整体效果而分心,无法展示自己想要听到的内容。因此,必须有一个中立的参数设置,允许系统运行得相当好“开箱即用”。

*4.1.时间模型

我们首先考虑单个音乐部分的计时模型。我们的模型用两个隐藏序列表示,{tn}, {年代n},tn时间是以秒为单位的吗n音符开始和年代n以每拍秒为单位的节奏是n请注意。这些序列根据模型演变

eq03.gif

eq04.gif

在哪里ln的长度是n事件,用节拍表示。

使用"update"变量,{n}, {n},设为0,该模型就会在每个起始间隔时间内给出一个文字的和机器人的音乐表演,tn+ 1tn消耗的时间与节拍的长度成正比,ln.更新变量的引入允许通过{n},以及使用{扩展或压缩注释长度n}。我们进一步假设{(nnt}独立于(nntNnn),n= 1, 2,…, (年代0t0tN00),从而得到所有模型变量的联合高斯模型。模型所体现的韵律性解释用{nn}参数。在这方面,{n}向量表示倾向运动员倾向于加速的表现(n< 0),减慢(n> 0)和stretch (n> 0),而{n}矩阵捕捉了这些趋势的可重复性。

最简单的方法是把方程3和方程4看作是单个音乐部分的计时模型。然而,将这些方程视为时间模型也是合理的复合独奏的节奏而且乐团。也就是说,考虑所描述的情况图3,其中独奏节奏、管弦节奏和复合节奏的音乐时间如下(以节拍为单位):

ueq06.gif

{ln}可以通过简单地取构成合成节奏的有理数的差值来求得:l1= 1/3,l2= 1/6等。接下来,我们将方程3和4作为独奏部分和管弦乐部分的复合节奏模型。

可观测的这个模型中的变量是由Listen和the产生的独奏音符起始估计已知的乐队开始的音符(我们的系统在演奏时构建这些)。假设n索引复合节奏中有关联的独奏音符的事件,由{cacm5403_b.gif}。另外,假设n'索引与起始时间相关联的乐队音符的事件,{on”}。我们的模型

ueq07.gif

在哪里nN(0,年代2),n 'N(0,年代0).的底部面板所示为高斯图形模型图3.在此图中,标记为“Composite”的行对应于{(年代ntn)}变量的方程3和4,而标记为“Updates”的行对应的{(nn)}变量。“Listen”行是估计的独奏音符开始时间的集合,{cacm5403_b.gif}而“伴奏”排对应的是管弦乐队的时间,{on '}。

*4.2.实际的模型

模型就位后,我们现在就可以进行实时伴奏了。在我们的第一次排练中,我们初始化模型,以便n= 0n.这种假设不会妨碍我们的系统正确地解释和跟随节奏的变化或独奏者的其他节奏上的细微差别。相反,它指出,无论我们在表演中看到什么,我们预计未来的时机根据当前的节奏演变。

在实时伴奏中,我们的系统只关心调度当前等待的乐队音符时间,on '.这个音符的时间最初安排在我们演奏上一个管弦乐队音符的时候,on ' 1.此时,我们计算新均值on ',调节on '1以及观察到的其他变量,以及日程安排on '相应的行动。当我们等待当前计划的时间发生时,Listen模块可能会检测各种单独事件,cacm5403_b.gif.当这种情况发生时,我们再计算的均值on ',条件反射的新信息。实际的时钟时间迟早会赶上当前的预定时间n '在这一点上,管弦乐队演奏了一个音符。因此,一个管弦乐队的音符在实际演奏之前可能会被重新安排很多次。

一个特别有启发意义的例子是一系列的独奏音符,最终与管弦乐队达成一致。当我们检测到每个单独的音符时,我们会对期望的巧合点进行精确的估计,从而逐渐“打磨”到这个到达点。值得注意的是,当Listen无法检测到一个独奏音符时,几乎不会造成什么伤害。我们只是简单地预测待处理的管弦乐队的音符条件作用于我们的变量观察到。

前面给出的网页包含了一个演示这个过程的视频。视频显示了我们的分数追随者估计的独奏时间出现在一个光谱图上的绿色标记。我们的伴奏系统的预测显示为类似的红色标记。人们可以看到,随着新的独奏音符的估计,即将到来的管弦乐队时间“抖动”,直到最后目前预测的时间过去。在视频中,人们可以看到偶尔的独奏音符,从来没有用绿线标记。这些音符的后发病时间不足以达到峰值,值得进行音符检测。这种情况通常发生在重复的音调中,因为我们的数据模型提供的信息较少,而音符后面的音符较长,我们之前的模型不太固执己见。我们只是简单地把这些笔记当作未观察到的,并且只根据观察到的事件来进行预测。

Predict的作用是“安排”伴奏音符,但这在实践中真正意味着什么?回想一下,我们的程序是通过相位声编码(时间拉伸)播放音频的,只有管弦乐队的录音。用于Dvo的第一乐章的该音频文件的时频表示cacm5403_c.gifák大提琴协奏曲见图4.如果你知道这首曲子,你可能就能跟着谱图走。在为我们的伴奏系统准备这个音频时,我们执行离线乐谱校准,以确定各种管弦乐队的音符出现在哪里,如图中用竖线标记。调度一个音符仅仅意味着我们改变相位声码器的播放速率,以便它在预定的时间到达适当的音频文件位置(垂直线)。因此游戏的播放率会随着性能的发展而不断改变。这是我们唯一一次“控制”乐团的演出。

在一次或多次“排练”之后,我们适应我们对独奏者的计时模型,以更好地预测未来的表演。要做到这一点,我们首先使用公式2对独奏音符时间进行离线估计,只对整个帧序列,y1、……yT,使用正向向后算法来识别每个音符最可能的开始时间。使用一个或多个这样的演练,我们可以迭代地重新估计模型参数{n}使用EM算法,使预测精度得到可测量和可感知的提高。同时,原则上,我们也可以估计{n}参数时,我们观察到这样做几乎没有任何好处。

在实践中,我们发现独奏家的诠释是一种“移动的目标”。首先,这是因为独奏者在最初的排练中倾向于妥协,把乐队拉进想要的方向,而实际上并没有达到目标解释。但是,即使独奏者似乎在某一天静下心来演奏一种特定的演奏,我们经常会在随后的会议中观察到进一步的“演奏漂移”。当然,没有这种漂移,一个人的思想就永远不会进步!因此,我们使用最近的几次排练来训练模型,从而促进音乐诠释的不断发展。

回到顶部

5.音乐表达与机器学习

我们的系统通过“渗透”来学习它的音乐性。如果独奏者以一种音乐的方式演奏,而管弦乐队设法紧跟独奏者,那么我们希望管弦乐队会这样做继承这种音乐性。这种通过模仿学习的方式在协奏曲中效果很好,因为演奏者之间的权力划分相当极端,大多将“优先权”授予独奏者。

相比之下,当伴奏需要独立的音乐感,甚至可能与其他演奏者的演奏相反时,纯粹的跟随演奏方法就不那么合理了。这种情况发生在第1节讨论的早期伴奏问题上,因为在这里,人们无法从现场演奏者那里学习所需的音乐性。也许是伴奏对立面协奏曲的背景是歌剧管弦乐队,其中的“伴奏”合奏通常与独奏家处于同等地位。在一次歌剧排练中,我们的系统充当了排练钢琴师,我们观察到了系统表现的最低点。这两种情况的共同之处在于,它们都要求伴奏者具备独立的音乐知识和目标。

我们如何才能更智能地模拟这种音乐性?一种增量方法将从观察我们的方程3和4的计时模型过于参数化开始,具有比音符更多的自由度。我们之所以做出这样的建模选择,是因为我们事先不知道需要哪些自由度,所以我们使用来自独奏者的训练数据来帮助整理。不必要的学习参数可能会对时序模型产生一些噪声,但总体结果是可以接受的。

一种可能的改进方法是减少模型的自由度——当然玩家不希望改变节奏而且在每个音符上应用与节奏无关的音符长度变化。例如,一个替代模型添加了一个隐藏的离散过程,为每个音符“选择”三种可能性:变化要么节奏音符长度,或者没有任何变化。在这些变量中,选择这两个变量都是最可能的先验,从而使模型偏向于更简单的音乐解释。得到的模型是一个开关卡尔曼滤波器。15虽然这样的模型不再可能做出精确的推断,但我们希望人们可以做出足够好的逼近,以实现该模型的全部潜力。

也许还有一种更有野心的方法是通过分析乐谱本身来选择需要自由度的位置。我们可以认为这种方法是在音乐结构中添加“关节”,这样当音乐家施加外力时,它就会变形成音乐上合理的形状。这里有一个有趣的联系,与表达合成的工作,如Widmer和Goebl,16在这个过程中,一个人利用机器学习的思想,用算法构建了一段以前从未见过的音乐的富有表现力的演绎。这里的一种方法是将各种得分情况(根据得分功能的本地配置定义)与解释性动作联系起来。通过在所有“等效”分数位置上从性能语料库中估计时间和响度参数来学习相关的解释动作。这种方法比我们现在的音乐性方法更有野心,因为他们试图理解表达在一般情况下,而不是在特定的音乐背景下。

对音乐表达的理解和综合是音乐科学中最有趣的问题之一,虽然近年来取得了一些进展,但我们仍然可以把这个问题称为“开放”。这里的一个主要挑战是,我们不能直接将音乐的表面属性(如音高轮廓或局部节奏环境)映射到解释性动作(如延迟、节奏或响度变化)中。相反,有一个模糊的中间阶段,在这个阶段,音乐家对音乐剧有一些了解意义,解释性决定的基础。这个意思来自于音乐的几个不同方面。例如,有些来自音乐结构,就像一个人可能会在一个乐句结束时放慢速度,给人一种音乐结束的感觉。一些意义来自韵律方面,类似于讲话,例如一个局部到达点,可能会被强调或延迟。第三个方面的意义描述了一个整体的性格或影响一段音乐的,如激动的或平静的虽然没有官方的音乐解释分类,但大多数关于这个主题的讨论都围绕着这种中间识别,以及它们需要的解释行动。10

从机器学习的角度来看,从单个例子中学习任何有用的东西是不可能的,因此必须将相同音乐情境的许多例子组合在一起,以便学习它们相关的解释性动作。因此,似乎很自然地用一些潜在变量来建模音乐,这些变量隐式地将单个音符或音乐部分分类。潜变量应该是什么,如何描述它们之间的依赖结构?虽然我们不能回答这些问题,但我们在它们中看到了很多深度和挑战,并以极大的热情向有音乐倾向的读者推荐这个问题。

回到顶部

致谢

这项工作得到了NSF基金is -0812244和is -0739563的支持。

回到顶部

参考文献

1.Cemgil, a.t., Kappen, h.j., Barber, D.音乐转录生成模型。IEEE反式。朗音频讲话。14的过程。, 2(2006年3月),679694。

2.Cont, A., Schwarz, D., Schnell, N.从布列兹到民谣:训练ircam的分数追随者。在国际计算机音乐会议论文集(2005), 241248。

3.Dannenberg, R., Mont-Reynaud, B.实时跟随即兴创作。在1987年国际计算机音乐会议论文集(1987), 241248。

4.提高计算机伴奏质量的新技术。在1988年国际计算机音乐会议论文集(1988), 243249。

5.弗拉纳根,j.l.,戈尔登,R.M.相位声码器。贝尔系统。技术。j . 45(1966年11月),14931509。

6.即兴创作与学习。在神经信息处理系统研究进展.麻省理工学院出版社,剑桥,马萨诸塞州,2002年。

7.克拉普里,A.,戴维,M.(编辑),音乐转录的信号处理方法。2006年,纽约斯普林格-弗拉格。

8.作曲家、表演者和计算机系统之间的实时交互。正无穷。过程。Soc。日本。团体指出,123(2002), 16岁。

9.《超越控制论果酱幻想:延续》。IEEE第一版。图。: 24。, 1(2004), 3135。

10.音乐表演。为基础。启Psychol 48。(1997), 115138。

11.实时音乐伴奏的贝叶斯网络。在神经信息处理系统研究进展(少量)14。麻省理工学院出版社,2002年。

12.罗,R。互动音乐系统。麻省理工学院出版社,1993年。

13.基于对数频谱反褶积的复调音乐信号的钢琴滚子可视化。在2004年ISCA统计和感知音频处理教程和研究研讨会(SAPA 2004)(2004)。

14.紧随评论书目,2003年。

15.带切换的动态线性模型。j。Stat Assoc。86(1991), 763769。

16.Widmer, G., Goebl, W.表达性音乐表演的计算模型:艺术的状态。J.新音乐, 3 (2004), 203216

回到顶部

作者

克里斯托弗·拉斐尔craphael@indiana.edu),印第安纳大学信息学与计算学院,布卢明顿,印第安纳州。

回到顶部

脚注

本章的原始版本名为“Music Plus One and Machine Learning”,发表在机器学习国际会议论文集,海法,2010。

DOI:http://doi.acm.org/10.1145/1897852.1897875

回到顶部

数据

F1图1。隐序列的状态图,x1x2、……ofour HMM.

F2图2。一种理想化的音符谱,模型为高斯混合谱。

F3图3。上图:两个音乐部分产生一个复合节奏当叠加。Bot:合成节奏产生的图形模型。

F4图4。Dvo第一乐章开头的“谱图”cacm5403_c.gif正义与发展党大提琴协奏曲。横轴代表时间,纵轴代表频率。竖线表示乐队的音符时间。

回到顶部


©2011 acm 0001-0782/11/0300 $10.00

如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部,并在第一页注明本通知和完整引用,则允许您免费制作本作品的部分或全部数字或纸质副本,供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2011 ACM股份有限公司


没有发现记录

Baidu
map