1、电路与系统专业优秀论文 基于时-频分析的歌声分离关键词:时频分析 歌声分离 主音高检测 听觉滤波器 乐音分离 信号处理 心理声学 小波变换摘要:为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CAS
2、A) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA
3、的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的
4、方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。正文内容为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离
5、是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的
6、不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基
7、于 STFT的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构
8、提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要
9、是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析
10、的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号
11、分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离
12、的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分
13、支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在
14、TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取
15、。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多
16、音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF
17、 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱
18、具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检
19、测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信
20、号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基
21、于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有
22、很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一
23、声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为
24、线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 S
25、TFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构
26、提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要
27、是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析
28、的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号
29、分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离
30、的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分
31、支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在
32、TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取
33、。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多
34、音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF
35、 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱
36、具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检
37、测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。为实现对大型在线音乐数据进行自动分析、组织和检索,乐音分离在近几年越来越受到人们的关注。非立体声分离是希望从单一声道的多音音乐中恢复出每一个声源/乐器声线,这是一个非常具有挑战性的问题。而本文要研究的是歌声分离,也就是从单一声道的多音音乐中将歌唱声分离出来,并且能达到较好的分离效果。概括地说,现有的非立体声乐音分离系统都是基于传统的信号处理技术(主要是正弦模型) ,统计技术(如稀疏编码和非负矩阵分解) ,或者基于心理声学的研究(计算听觉场景分析,CASA) 。 音乐信
38、号是一种典型的非平稳信号,因此对于分析音乐信号,时频(TF)分析方法是有效的。TF 分析方法是非平稳信号处理的一个重要分支,它是利用时间和频率的联合函数来表示非平稳信号,并对其进行分析和处理。TF 分析方法按照 TF 联合函数的不同可以分为线性和非线性两种。常见的线性 TF 表示主要有短时傅立叶变换(STFT) 、Gabor 展开以及小波变换等。非线性 TF 方法主要有 WignerVille 分布(WVD)和 Cohen 类。此外,听觉滤波器也逐渐成为对信号进行 TF 分析的重要方式。 CASA 研究的主要目标是分析一个听觉场景,并识别场景中的各种声音。我们也是根据 CASA 的思想建立了基
39、于 TF 分析的歌声分离系统。该分离系统由四个模块组成:TF 分解、主音高检测、歌声 TF 信息的提取和歌声的合成。在 TF 分解阶段我们采用了 STFT 和 Gammatone 滤波器两种 TF 分析技术,由此设计出两种分离方法。基于 STFT 的歌声分离系统,在 TF 分解阶段是利用 STFT 将输入的时域信号变换到 TF 域。经过这样的处理,信号的频谱具有随时间变化的特点。基于 Gammatone 滤波器的歌声分离系统,是利用一个 Gammatone 滤波器组将输入信号分解成多个频带的时域信号,然后将每个滤波器的输出划分为重叠的帧。两种方法的主音高的检测模块是一致的。虽然基音提取的方法有
40、很多,但是大多数乐音信号是多音信号,所以想要从多音信号中提取出歌声的音高相当困难。而我们利用乐音的谐波特性进行音高的提取。第三阶段是进行歌声 TF 信息的提取。基于 STFT 的方法,是根据检测到的主音高,将每一帧信号的频谱中的各次谐波结构提取出来。而在基于 Gammatone 滤波器的方法中,除了要用到主音高,还需要计算相关图谱和交叉通道互相关,以及端点检测。最后一步,STFT 方法中是对提取的歌声的短时谱进行反变换。而在第二种分离方法中,对各通道进行叠加求和就可以得到分离的歌声。特别提醒 :正文内容由 PDF 文件转码生成,如您电脑未有相应转换码,则无法显示正文内容,请您下载相应软件,下载
41、地址为 http:/ 。如还不能显示,可以联系我 q q 1627550258 ,提供原格式文档。我们还可提供代笔服务,价格优惠,服务周到,包您通过。“垐垯櫃 换烫梯葺铑?endstreamendobj2x 滌甸?*U 躆 跦?l, 墀 VGi?o 嫅#4K 錶 c#x 刔 彟 2Z 皙笜?D 剧珞 H 鏋 Kx 時 k,褝仆? 稀?i 攸闥-) 荮vJ 釔絓|?殢 D 蘰厣?籶(柶胊?07 姻Rl 遜 ee 醳 B?苒?甊袝 t 弟l?%G 趓毘 N 蒖與叚繜羇坯嵎憛?U?Xd* 蛥?-.臟兄+鮶 m4嵸/E 厤U 閄 r塎偨匰忓tQL 綹 eb?抔搉 ok 怊 J?l?庮 蔘?唍*舶裤爞 K 誵Xr 蛈翏磾寚缳 nE 駔殞梕 壦 e 櫫蹴友搇6 碪近躍邀 8 顪?zFi?U 钮 嬧撯暼坻7/?W?3RQ 碚螅 T 憚磴炬 B- 垥 n 國 0fw 丮“eI?a揦(?7 鳁?H?弋睟栴?霽 N 濎嬄! 盯 鼴蝔 4sxr?溣?檝皞咃 hi#?攊(?v 擗谂馿鏤刊 x 偨棆鯍抰Lyy|y 箲丽膈淢 m7 汍衂法瀶?鴫 C?Q 貖 澔?wC(?9m.Ek?腅僼碓 靔 奲?D| 疑維 d袣箈 Q| 榉慓採紤婏(鞄-h-蜪7I冑?匨+蘮.-懸 6 鶚?蚧?铒鷈?叛牪?蹾 rR?*t? 檸?籕