《生物信息学》复习资料
《生物信息学》先锋版 中译本 第二版 科学出版社
打分政策:60% 期末考试(70%掌握内容、25% 熟悉内容、5% 理解内容)(请注意红体与黑体字
A: 生物信息学概述
1. 生物信息学:生物信息学是生物学信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
                                  数据库
生物信息学主要由三大部分组成      算法与统计工具
                                  分析与解释
测序策略:逐个克隆法、全基因组鸟法
计算机在生物信息学中的作用:生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。
生物信息学课程范围:使初学者理解生物信息学的基本原理,并获得相应的应用能力。具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析 。
2. 生物信息学实例
——数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …
——序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign
——基因搜索Genscan, GenomeScan, GeneMark, GRAIL
——蛋白结构域分析与鉴定pfam, BLOCKS, ProDom, 
——基因调控元件的计算机模式识别 Gibbs Sampler, AlignACE, MEME
电子信息学什么
——蛋白折叠预测PredictProtein, SwissModeler
生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站
3. 五个必须知道的生物信息学网站:(详细参考书本p9)
NCBI (The National Center for Biotechnology Information)bi.v/
EBI (The European Bioinformatics Institute)www.ebi.ac.uk/
The Canadian Bioinformatics Resourcea/
SwissProt/ExPASy (Swiss Bioinformatics Resource)a/sprot/
PDB (The Protein Databank)/PDB/
B: 数据采集
一、DNA, RNA 和蛋白质测序
1. DNA 测序原理:
DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸
产生有特定终止碱基的嵌套DNA片段。共有4种反应,每种代表DNA 4个碱基中的一个,每个碱基分别带有不同的荧光标记。DNA片段通过聚丙烯酰胺凝胶电泳(PAGE)分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。
2. DNA 序列类型:
DNA序列来源主要有3种方式。基因组DNA直接来自基因组,包括基因和基因外核酸序列,真核生物的基因组DNA包含内含子;cDNA由mRNA反转录而来,并且只对应于基因组中能表达的部分,它不包含内含子;最后,重组DNA来自实验室,包含克隆载体等人工DNA分子。
3. 基因组测序策略:
一次读段(one read)只能用于短的DNA分子(约800bp)测序,所以大的DNA分子,如基因组,必须首先将其打碎成片段。基因组测序可以分为两种方式:霰弹法测序(shot-gun sequencing)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,
克隆重叠测序(clone contig sequencing)包括亚克隆系统的产生及其测序。
4. 序列质量控制:
通过在DNA双链上进行多次读段完成高质量序列数据的测定。可使用如Phred等程序对最初的跟踪数据(trace data)进行碱基识别和质量判断。载体序列和重复的DNA片段被屏蔽后,使用Phrap程序将序列拼接成重叠(contigs),剩下的不一致部分通过人工校对解决。
5. 单遍(Single-pass)测序:
低质量的序列数据可以由单次读段产生(单遍测序,single-pass sequencing)。尽管不很准确,但单遍序列如ESTs和GSSs,可以以低廉的价格快速大量地产生。
6. RNA 测序:
大部分RNA序列可以从相应的DNA序列推断得到,但是需要用特殊的方法来识别被改变的核苷,这些方法包括:生化实验、核磁共振谱( NMR spectroscopy)、质谱
7. 蛋白质测序:
目前,大部分蛋白质测序是通过质谱(MS)技术进行的,应用这一技术可以通过测量真空中离子的分子质量/电荷比来计算精确的分子质量。软离子化方法可以对蛋白质这样的大分子进行质谱分析。通过比较经胰蛋白酶裂解而获得的多肽片段的分子质量与从数据库中蛋白质的虚拟消化(virtual digest)预测而来的分子质量的异同推断序列。通过在碰撞室(collision cell)中产生的蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。
二、蛋白质结构的确定
1. X-ray 衍射晶体学:
X衍射晶体学是一种通过精确定向的蛋白质晶体的X射线衍射模式来确定蛋白质结构的方法。这种方法中,X射线因晶体中原子的电子密度空间方向的不同而发生散射,可用傅立叶变换的数学方法从衍射数据中重构电子密度图,以建立结构模型。
2. 核磁共振谱:
  NMR是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐射可以在不同的
磁状态间转换。吸收光谱的性质受原子类型及其周围化学性质影响,所以NMR spectroscopy可以区分不同的化学功能团。核磁共振谱也因空间上原子的接近而改变。NMR谱的分析可以重建原子的三维构型,产生一系列结构模型。这一技术只适合小的可溶性蛋白的分析。
3. 其他方法:
对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X射线纤维衍射、电子显微镜和CD光谱(circular dichroism spectroscopy) 。
C:数据库——内容、结构和注释
一、文件格式
1. 三种常用序列格式:
常用核酸和蛋白序列格式:①NBRF/PIR格式  文件名后缀为:.pir o或 .seq
                        ②FASTA格式  文件名后缀为:.fasta
                        ③GDE格式  文件名后缀为 gde
例:
ID代码: 5H1B_CAVPO
序列登录号: O08892
NBRF/PIR格式:
>P1; 5HT1B_CAVPO
Guinea pig serotonin receptor accession:
FASTA格式:
>5HT1B_CAVPO O08892 | guinea pig serotonin
GDE格式:
% 5HT1B_CAVPO O08892 | guinea pig serotonin
2. 比对序列文件:
可用下述常用格式中任何一种: NBRF/PIR, FASTA,GDE
多序列比对格式:MSF, PHYLIP and ALN
3. 结构数据文件:
结构数据用PDB格式的平面文件(flat files)来维护,这类文件包含:正交的原子坐标值(X, Y, Z轴);注释、说明和实验细节。
NOTE1、ATOM行以字符计数,而不是以单词计数;
        2、NMR文件没有分辨率REMARK行。
二、已注释的序列数据库
1. 初级序列数据库:
保存raw sequence data, 并对每个条目做了进一步的注释: feature table---properties of seq.
2. 辅助序列数据库:
特别类型的序列数据. eg. ESTs, GSSs and unfinished genomic seq. data
3. 序列提交:Sequence(序列)→Internet(互联网)→NCBI/EMBL/DDBJ(数据库)
4. SWISS-PROT 和 TrEMBL:
SWISS-PROT:  收集了确认的蛋白质序列及与结构、功能和所属蛋白质家族有关的注释信息 。
TrEMBL: 翻译了初级核酸数据库中的编码序列。TrEMBL中各条目的注释不如SWISS-PROT中的条目那样详细。
5. 数据库查询
Searching by Sequence similarity→BLAST
Text-based Searching→Entrez or SRS accession number
accession number:提供基因及其产物的唯一标示号
D: 生物数据检索
一、通过 Entrez 和DBGET/LinkDB进行数据检索
1. 访问分布数据:利用专业的数据检索工具 Entrez, DBGET SRS 进行数据库搜索
2. Entrez:Entrez 可以用来搜索 NCBI 中集成的所有数据库包括 GenBank, OMIM 以及文献数据库 MEDLINE
3. NCBI 和 Entrez:Entrez→All databases模式搜索,以文本是形式进行
文本搜索:以单词或逻辑短语为关键词
4. DBGET/LinkDB
DBGET/ LinkDB : 日本京都大学和人类基因组中心联合开发的集成数据检索系统。它整合了20数据库并与KEGG相关联。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。