生物高分子中信息学分析新方法研究
  • 【DOI】

    10.7666/d.y906580

  • 【摘要】

    一、研究背景及意义 随着人类基因组计划(Human genome Project(HGP))的完成,关于生命科学的研究进入了后基因时代,迄今,已经产生了海量的数据,数据的积累必将产生重大的发现。如何从这些数据中最大限度地获取有用信息并缩短整个研究的进程是科学家面临的重要课题,随之兴起的与DNA有关的复杂体系的信息学要求研究者能够利用信息学的手段获取、分析和挖掘数据结果,尽管已有相当多的重大... 展开>>一、研究背景及意义 随着人类基因组计划(Human genome Project(HGP))的完成,关于生命科学的研究进入了后基因时代,迄今,已经产生了海量的数据,数据的积累必将产生重大的发现。如何从这些数据中最大限度地获取有用信息并缩短整个研究的进程是科学家面临的重要课题,随之兴起的与DNA有关的复杂体系的信息学要求研究者能够利用信息学的手段获取、分析和挖掘数据结果,尽管已有相当多的重大发现,但是距离最终解析所有的关于生命的奥秘仍有很长的路程,需要研究者开拓新的思路、发现新的分析方法和工具。 本文主要针对生物高分子体系(DNA和蛋白质等),运用生物信息学和化学计量学(主成分分析、人工神经网络、多元统计方法、傅立叶分析、小波分析)的方法,做了以下研究:1,基因预测新方法研究;2,目标分子与DNA的相互作用研究;3,复杂生物、化学体系频率分析新方法研究,其中包括:(1)复杂分析化学体系重叠信号的解析研究;(2)基于小波变换的核酸序列的频率特征和进化研究;(3)膜蛋白跨膜区域的预测研究;4,隐马尔可夫模型对核酸序列的识别研究。二、研究内容及结果1.基因预测新方法研究 提出了一种综合的基因预测方法,首先计算序列的四个的特征:三周期特性、D值、GC含量和New Z_Curve;利用这四个特征图谱,初步确定编码区的数目和位置;然后用序列搜索的方法准确确定基因的结构。其中New Z_Curve特征是基于Z Curve提出的一种新的特征,通过该特征,可以初步确定编码区的数目和位置。对5个已知的基因的预测结果显示,本文提出的方法具有可行性。2.目标分子与DNA的相互作用研究 目标分子与DNA相互作用的研究在了解药物作用机理、分子设计和药物筛选等方面有重要意义。目前主要以实验方法研究两者的作用机理(包括作用常数和作用模式),较难从分子结构水平发现影响相互作用的因素,而且对于批量的未知化合物与DNA的相互作用无法进行预测。 本文以目标分子与DNA相互作用的实验数据和目标分子的结构量化数据为基础,应用模式识别技术、多元回归和人工神经网络方法讨论了显著影响相互作用的因素,建立了两个预测作用常数的模型和一个预测作用模式的模型。初次量化的分子结构参数有24种,经过筛选发现其中的12种对相互作用有显著的影响。所建立的模型对作用模式和常数的预测有较好的准确性。这些研究为抗癌药物的分子设计和筛选可提供有价值的信息。3.复杂生物、化学体系频率分析新方法研究 (1)复杂分析化学体系重叠信号的解析研究 为了估计重叠信号中单峰(组分)的数目和位置,本文基于连续小波变换((CWT))提出了一种新的重叠峰定位方法——连续小波变换极大值谱(maximum spectrum of continuous wavelet transform(MSCWT)),在MSCWT中,峰的位置和数目与原信号包含的单峰的位置和数目一致。在该方法中,CWT的计算是在一定的尺度范围内进行的(不同于单尺度变换)。为了获得合适的变换尺度范围,提出了一个新的判据,如果Cdilation代表中心尺度,则合适的范围是[Cdilation-6±2,Cdilation+1±1]。通过MSCWT检测到峰的位置和数目后,拟合方法被用于还原各单峰信号。本文对模拟信号、高效液相色谱(HPLC)、紫外信号(UV)、差示脉冲伏安(DPV)信号分别做了分析,结果表明本文的重叠信号解析技术有很高的准确度,适合处理不同类型的重叠信号。 (2)基于小波变换的核酸序列的频率特征和进化研究 提出了两种新的频率分析技术——小波频率谱(WFS)和小波变换Fourier频率谱(WTFS),并将其成功地应用于核酸序列的频率分析之中。结果表明:WFS和WTFS能准确地检测核酸编码区序列的三周期性,即在0.333Hz处有信号峰。与Fourier频率谱相比,WFS没有噪音干扰,而且可以自由变换区间观察信号频率;而WTFS除了具有WFS的优点外,其谱图呈线状,非常有利于频率的分析。利用WFS和WTFS,再结合基因的其它特征,有望开发具有自识别的基因发现工具。 WFS除了可以研究核酸序列的频率特点以外,还可以作为序列的频域表示。 基于WFS表示,本文对11个核酸序列(引起急性严重呼吸系统窘迫症的冠状病 毒(SARS CoY))做了进化分析,结果表明尽管它们非常相似,但是还是存在差异, 暗示它们具有不同的变异方式。这种基于序列频域表示的进化分析是一种新的 分析思路。 (3)膜蛋白跨膜区域的预测研究如何从少数已知结构的膜蛋白预测大量未知结构的膜蛋白是蛋白质结构预测的主要内容之一。本文利用MSCWT对8种SARS CoY膜蛋白的跨膜区域做了预测,其结果与TMpred(Swiss)软件、单尺度连续小波变换的结果进行了比较,发现本文所述的方法有较高的准确性。而且可以为进一步研究跨膜片段的折叠提供参考。4.隐马尔可夫模型(HMM)对核酸序列的识别研究 建立了一个用于识别DNA(或RNA)序列中多个特殊序列的隐马尔可夫模型,该模型通过训练可以识别任一序列中是否存在与训练序列相似的序列。文中以预测连续出现的CG丰富区和TA丰富区为例,提出了一种可操作的识别过程。实验结果显示该HMM可以成功识别序列中是否含有期待的序列。通过设定具有不同特征的训练序列,模型可推广用于任何特征序列的识别。三、创新点本论文的创新点如下:(1)基于Z_Curve曲线,衍生出了核酸序列的一种新的特征曲线——NewZ_Curve(NZC),依据该曲线中出现的单峰或靠得很近的组峰的数目和位置可以预测编码区的数目和大概位置,这在文献中未见报道。另一个创新点是本文提出了一种综合多特征的基因识别方法,对已知的基因预测的结果显示,该方法具有较好的准确性,而且操作简单。 (2)在目标分子与DNA相互作用的研究中,提出了从目标分子结构量化参数出发,结合实验数据预测目标分子与DNA相互作用的模式和常数的新方法,该方法提出的两个预测作用常数和预测作用模式的模型能对批量未知分子与DNA的作用情况进行预测,这对分子设计和筛选具有重要意义。 (3)在处理复杂化学体系重叠信号的研究中,提出了一种基于连续小波变换的新的波谱方法——连续小波变换极大值谱(MSCWT),该谱能准确定位重叠信号中各单组分峰的数目和位置,为进一步用拟合方法解析原始重叠信号提供了坚实的依据。 (4)基于连续小波变换,提出了一种新的频率分析波谱——小波频率谱,并将其应用于核酸序列(以SARS_CoY为例)的频率分析和核酸序列的频域表示。利用核酸序列的频域表示研究了11种SARS_CoV的系统进化,这种基于序列频域表示的进化研究思路在其它文献中未见报道。 (5)开发了小波变换Fourier频率谱(WTFS),并将其应用于蛋白质编码区三周期性的检测。WTFS继承了小波变换的多尺度分析(可以自由变换频率范围)和Fourier变换的高分辨的特点,其谱图呈线状,易于观察,抗噪能力强。 (6)用连续小波变换极大值谱处理膜蛋白的疏水序列,不但可以较好地确定跨膜区域的位置,而且可以推测跨膜区域内蛋白的可能的折叠方式。 收起<<

  • 【作者】

    刘宏德 

  • 【学科专业】

    高分子化学与物理

  • 【授予学位】

    博士

  • 【授予单位】

    西北师范大学

  • 【导师姓名】

    卢小泉

  • 【学位年度】

    2006

  • 【语种】

    chi

  • 【关键词】

    生物高分子  DNA作用  基因预测  重叠信号  小波变换  人工神经网络  生物信息学