信号处理方法在波谱分析及生物信息学中的应用研究
  • 【DOI】

    10.7666/d.y995538

  • 【摘要】

    随着方法学研究的成熟与发展,信号处理成为了当代科学技术的重要工具,被广泛地用于语音、图像、通信、生物医学等领域。小波变换作为信号处理方法的优秀代表,已受到许多化学家的关注,大量的波谱分析工作利用小波变换方法,围绕着化学信号的去噪,滤波,基线校正,特征提取等内容展开,取得了令人满意的结果。小波变换的多尺度分辨能力,除了运用于信号解析方面外,还有利于谱图数据的压缩处理,现今,由于检测技术的提高和新型仪... 展开>>随着方法学研究的成熟与发展,信号处理成为了当代科学技术的重要工具,被广泛地用于语音、图像、通信、生物医学等领域。小波变换作为信号处理方法的优秀代表,已受到许多化学家的关注,大量的波谱分析工作利用小波变换方法,围绕着化学信号的去噪,滤波,基线校正,特征提取等内容展开,取得了令人满意的结果。小波变换的多尺度分辨能力,除了运用于信号解析方面外,还有利于谱图数据的压缩处理,现今,由于检测技术的提高和新型仪器的研制,标准红外光谱数据库不断增大,如能有效的对红外光谱数据进行压缩,于谱图的存储及快速检索均是一项有意义的工作。 本文针对小波变换在红外光谱数据压缩中遇到的几个重要问题进行了探讨,并尝试在原先的基础上,进一步提高压缩性能(第二章、第三章)。早期的谱图数据压缩研究,大抵针对紫外可见光谱,在红外光谱的压缩方面也仅用到Daubechies小波函数,事实上,不同的小波函数对谱图的压缩能力各不相同,而且谱图本身的复杂度也会对压缩比造成一定的影响。本文作者通过选取4幅代表性的Aldrich凝聚相样本标准红外光谱,在预控重构根均方差为0.009的条件下,考察了四类小波函数(Daubechies小波函数系、Coiflets小波函数系、Symlets小波函数系和双正交小波函数系)的压缩性能。在此基础上,一种用于二维图象压缩的方法——嵌入式零树小波编码方法被引入本工作中,该方法在压缩过程中定义的零树结构,利用了小波分解谱图后系数的自相似性,可以忽略非重要的小波系数而不必保留其位置信息,我们将其改进后,结合霍夫曼编码对红外光谱进行压缩,使得压缩结果较“硬”阈值法提高了68.1[%]。 生物信息学是二十一世纪的新兴学科,人类基因组计划(Human Genome Project,HGP)的启动推动了生物信息学的产生和蓬勃发展。海量数据的产生,需要新的方法、新的计算工具来进行数据管理跟提取有用信息构建二次数据库。因此,蛋白质序列分析成为了生物信息学家们的关注热点,由于缺少实验数据,研究者们希望通过蛋白质序列信息预测其结构特征或者进行功能分类。 本论文的第二部分(第四章——第七章)从氨基酸替代模型入手,提出表征蛋白质序列相似性的“S”函数,通过建立蛋白质频率谱,使用支持向量机及Delaunay三角化算法分类G蛋白偶联受体,之后在进一步的研究中,我们将偏最小二乘投影与Delaunay三角化算法结合,预测G蛋白偶联受体拓扑结构。蛋白质的三级结构与其一维的氨基酸序列排布是一一对应的,通过不同氨基酸的结构以及所处环境的不同,形成了特定的三级结构。因此,将信号处理方法用于蛋白质序列分析的关键问题,是将氨基酸字符替换成数字,如何在保证少损失结构信息的条件下,把蛋白质字符序列转换成数字序列。文中构建的杂化氨基酸替代模型,在蛋白质序列集HTH-type transcriptional repressor和Lysozyme的分类中取得了很高的准确度。在BAliBASE数据库的分类中,对于相似性低于20[%]的蛋白质序列,小波函数Bior3.3具有最高的识别率,基于此结果,我们提出了衡量序列相似性的“S”函数,该函数利用小波分解系数能量归一化的特性,对不同尺度的小波系数赋以相应的权重并相加和,最终得到S值的高低判定相似性的大小。“S”函数应用于相似蛋白质数据集Fibrillin和Amelogenin precursor的计算中,所得结果与实验结论相吻合。G蛋白偶联受体家族的分类及结构识别一直是序列分析的热点,我们在使用氨基酸替代模型转换蛋白质序列的基础上,通过傅立叶变换建立蛋白质频率谱,该频率谱描述了在时间尺度上出现频率最高的序列片段,则这些片段有可能是蛋白质序列的保守区域或是功能区域。本文中使用支持向量机分类G蛋白偶联受体,以蛋白质频率谱作为输入参数,取得了90%以上的准确率,而使用Delaunay三角化算法对其的分类精度也在80%以上,以此为基础,我们进一步研究对G蛋白偶联受体的拓扑结构识别,即预测氮端的位置和7个跨膜区域的起止位置,通过Delaunay三角化算法与偏最小二乘投影法的结合,预测氮端的正确率达到100%,预测7个跨膜区域的正确率达到90%,同时对其位置的预测误差在8个氨基酸残基之内,可以看出,此方法预测G蛋白偶联受体的拓扑结构可获得很高的准确度,能为后续的三级结构识别工作提供有力的帮助。 收起<<

  • 【作者】

    文志宁 

  • 【学科专业】

    物理化学

  • 【授予学位】

    博士

  • 【授予单位】

    四川大学

  • 【导师姓名】

    胡常伟

  • 【学位年度】

    2006

  • 【语种】

    chi

  • 【关键词】

    信号处理  小波变换  波谱分析  生物信息学  序列分析