1 在线分子生物学数据库综合
NAR数据库列表:https://www.oxfordjournals.org/nar/database/c/
(1)检索方法:关键词或词组进行数据库检索、核苷酸或蛋白质序列进行数据库检索;
(2)连接词 AND, OR, NOT大写;
(3)用引号将两个单词组成一个词组;“16S rRNA”= 16S AND rRNA
(4)*, 放在单词后使检索范围扩大,但专一性降低;pseudopod* =pseudopod OR pseudopodia OR pseudopodium
(5)“:”表示范围,连接前后关键词,用于限定;110:500[Sequence length]
2 核酸数据库-GenBank(美国)、ENA(欧洲)、DDBJ (日本)
优点:操作简单
2.1.1序列默认显示GenBank flatfile格式,每条序列有两个专有的编号或标识(identifier): Locus name(位点名,目前大多以登录号代替)和Accession number (注册号或登录号;
2.1.2 结果显示-GenBank flatfile格式:
2.1.3分支数据库
2.1.4检索方法
(1)跨库检索 (cross-database search)
1. Entrez系统中数据库之间的链接
2. NCBI主页选择“All Databases”或Entrez主页,输入关键词
3. 各个数据库中检索到的信息数量
4. 点击相应数据库查看信息目录,每一条信息与其他数据库的相关信息链接
(2)选择数据库检索
1. NCBI主页选择特定数据库,输入关键词
2. 检索到的信息目录,每一条信息与其他数据库的相关信息链接
3. 查看信息内容
优点:检索面广
2.2.1 检索方法
(1)快速检索(Quick search)
1. 在EBI search页面搜索框输入关键词
2. 检索到的信息目录,每一条信息与其他数据库的相关信息链接
3. 查看信息内容
(2)高级检索(advanced search)
1. 在EBI Search页面搜索框点击Advanced search
2. 点击“Choose domain”选择数据库,然后再点击“Build query”输入关键词,点击“Search”
3. 获得结果
优点:与KEGG数据库连接
2.3.1检索方法
(1)单库检索(basic search)
1. 在DBGET主页选择一个数据库
2. 输入关键词检索
3. 查看检索到的信息目录
4. 查看信息详细内容
(2):跨库检索 (linkDB)
1. 在DBGET主页点击“linkDB”
2. 在查询网页选择数据库
3. 输入关键词检索(数据库:编号)
4. 结果
2.4基因组数据库
(1)NCBI 二级数据库:https://www.ncbi.nlm.nih.gov/genome,测序完成和正在测序物种基因组序列、遗传图、物理图、序列组装、基因注释等
(2)GOLD:https://gold.jgi.doe.gov/index ,可以查询已经完成基因组测序信息(物种、基因组大小、注释基因数目、染色体、GC%、序列数据、完成测序单位、文献等信息)
3 蛋白质数据库
3.1.1 检索方法
1. 在数据库主页搜索框选择“UniProtKB(Protein Knowledgebase)”库,使用关键词检索
2. 可根据物种、关键词、功能、通路等进行筛选
3.2.1 检索方法
(1)检索某一蛋白质的全部信息:在主页的“Protein search”输入蛋白名称搜索
(2)检索某一蛋白质的注释信息
1. 数据库主页“Search/Analysis”菜单
2. “Text Search”
3. 选择数据库“iProClass”后输入关键词或注册号
4. 检索结果列表
5. 查看详细内容
(3)检索某一蛋白质分类的信息
1. 数据库主页“Search/Analysis”菜单
2. “Text Search”
3. 选择数据库“PIRSF”后输入关键词或注册号
4. 检索结果列表
5. 查看详细内容
4 结构数据库
4.1.1 数据库功能
1. 提供多种结构显示视图
2. 提供多种结构/序列分析
4.1.2检索方法
1. 数据库主页“Search”框 输入关键词、注册号、作者名、序列等
2. 检索结果列表
3. 查看详细内容
4.2.1数据库功能-可以检索DNA或RNA的三级结构
4.2.2 检索方法
1. 数据库主页“Search”框 输入关键词、注册号、作者名、序列等
2. 检索结果列表
3. 查看详细内容
5 酶和代谢数据库
5.1 KEGG (Kyoto Encyclopedia of Genes and Genomes)- https://www.kegg.jp/kegg/
5.1.1数据库功能
1. 可查看各种代谢、遗传等路径图
2. 可检索参与各种路径的基因
6 BLAST
Identity: 两条序列在同一位点上的核苷酸或氨基酸残基完全相同
Positive: 两条序列在同一位点上的氨基酸残基的化学性质相似
Global alignment: 两条完整的序列相比较
Local alignment: 两条序列中相似程度最高的部分相比较
Gapped alignment: 为达到最佳 alignment,序列中加入空位
Ungapped alignment:相比较序列的核苷酸或氨基酸序列连续
(bits) Score: 分值越大,两个比较序列相似程度越高
E value: 期望得到的、完全由机会造成的、相当于或大于目前分值的alignment 次数,E值取决于 alignment 分值、相比较序列的长短和数据库中数据的数量,Blast中E的阈值为10,E 值越小越好。
6.2.1 blastn 用核苷酸序列检索核苷酸数据库
1. 将要查询的序列直接粘贴到序列框中或输入登录号
2. 选择 database、organism
3. 选择 Blast Algorithm
4. 可进行其他项目的选择用于分析
5. 进一步选择检索范围:Limit by entrez query (如protease NOT hivI [organism])
6. Filter (Human repeats):遮盖重复序列可加快检索速度(特别是 > 100 kb 的片段)
7. 结果页面
6.2.2 评判标准
Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低
6.2.2 blastp 用蛋白质序列检索蛋白质数据库
基本操作同 blastn
1. PHI-BLAST (Pattern Hit Initiated BLAST)-依据氨基酸序列检索
2. PHI-BLAST (Pattern Hit Initiated BLAST)-依据同样的特殊区域检索,需提取输入
6.2.3 blastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白质序列检索蛋白质数据库
基本操作同 blastn
6.2.4 tblastn 用蛋白质序列检索核苷酸数据库(数据库中的序列被翻译出不同的蛋白质序列)
基本操作同 blastn
标明匹配的蛋白质序列对应于原来核苷酸序列的阅读框(frame)的起始位置(取值+1, +2, +3, -1, -2, -3)
6.2.5 tblastx 将核苷酸序列通过 6 种阅读框翻译成不同的蛋白质序列检索核苷酸数据库(数据库中的序列也被翻译出不同的蛋白质序列)
基本操作同 blastn
6.2.6 CDART 检测被检索的序列中是否含有保守结构域
界面提交序列
6.2.7 Primer-BLAST 设计PCR引物,分析引物特异性
界面提交序列,根据自己期望产物调整参数
6.2.8 Multiple Alignment 多重比对-进化分析
界面提交序列
6.3.1 适用对比
适用于 blastn, blastp, blastx, tblastn, tblastx
1. blastn: 两条核苷酸序列相比较
2. blastp: 两条蛋白质序列相比较
3. tblastn: 比较蛋白质序列(sequence 1)和核苷酸序列翻译成蛋白质序列(sequence 2)
4. blastx: 比较核苷酸序列(翻译成蛋白质序列)(sequence 1)和蛋白质序列(sequence 2)
5. tblastx: 两条核苷酸序列(翻译成蛋白质序列)比较
6.4.1 利用BLAST方法分析miRNA -https://mirbase.org
检索方法
1. 在数据库主页点击“searching”
2. 在 “By sequence”栏目粘贴序列(小于1000 bp)
3. 在“Search sequences”栏目中选择检索“Mature miRNAs”或“Stem-loop sequences”
4. 点击“Search miRNAs”
5. 检索结果
6.4.2 分析RNA或DNA的二级结构http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi
检索方法
1. 在“RNAfold WebServer”网站粘贴序列
2. 分析结果
3. 不同图示展示结果
7 系统演化分析
7.1.1 分析网站列表 https://www.ebi.ac.uk/jdispatcher/msa
7.1.2 Clustal Omega在线分析
分析方法
1. 粘贴或上载序列
2. 调整参数
3. 多序列对位排列结果
7.2.1 Boxshade-突出相同或相似位点http://arete.ibb.waw.pl/PL/html/boxshade.html
分析方法
1. 在“Boxshade”网页粘贴比对序列
2. 在“Paste your multiple-alignment file below”栏目选择“ALN”,
3. 在“Output format”栏目选择“RTF_new”
4. 在结果网页点击“here is your output number 1”
5. 修饰过的排列结果
7.2.2 ESPrip -多种修饰功能突出相同或相似位点 https://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
分析方法
1. 在Clustal Omega结果网页下载“Alignments”(CLUSTALW format)
2. 在ESPript分析网页“Aligned Sequences”栏上载Alignments文件
3. 在“Output layout”和“Output file or device”栏选择参数
4. 修饰后的比对结果
7.3.1 ClustalW2-phylogeny分析网页https://www.ebi.ac.uk/Tools/phylogeny/simple_phylogeny/
分析方法
1. 输入比对后的序列(或上载Alignments文件)
2. 设置构建参数
3. 提交
7.3.2 MEGA
分析方法
1. 打开MEGA,将比对序列拖入MEGA主界面,选择Alignment – Align by ClustaIW.
2. 参数选择默认,点击OK
3. 从Data-Export Alignment保存为,meg或者fasta格式
4. 回到主界面,将比对后的meg或fasta文件拉入主界面
5. 选择Phylogeny-Construct/Text Maximum Likelihood Tree,参数根据需要设置,一般默认
8 基因分析和基因组注释
8.1 基因预测
8.1.1 确定开发阅读框-已知mRNA序列 https://www.ncbi.nlm.nih.gov/orffinder/
分析方法
1. 输入序列或注册号,选择密码表
2. 显示结果,进行选择
3. 翻译为蛋白质
4. 序列比对、更改显示格式
8.1.2 Gene Finding http://www.softberry.com/
分析方式
1. 在Softberry主页的“Run Programs Online”选择“Gene Finding in Eukaryota”类中的“FGENESH”
2. 在FGENESH网页输入序列(FASTA格式)、选择物种(human)作为参照
3. 分析结果(文字和图像)
8.1.3 GenScan http://hollywood.mit.edu/GENSCAN.html
分析方式
1. 在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照
2. 分析结果(文字和图像)
8.1.4 Augustus 真核生物预测 http://bioinf.uni-greifswald.de/augustus/
分析方式
1. 在AUGUSTUS的分析主页选择“web interface”
2. 输入地序列、选择物种
3. 分析结果
8.1.5 基因预测存在主要问题
1. 假阳性(False Positive):多预测了假的编码区,即在非编码区预测出基因
2. 假阴性(False Negative):漏掉了真实的编码区,即将基因预测为非编码区
3. 过界预测(Over Prediction):由于基因边界很难准确定位,预测经常会超过实际边界
4. 片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因
5. 融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因
https://services.healthtech.dtu.dk/services/Promoter-2.0/
分析方法
1. 在“Promoter 2.0”网页粘贴序列
2. 分析结果
https://www.dna.affrc.go.jp/PLACE/action=newplace
分析方法
1.在“PLACE”网页粘贴序列
2.分析结果
3.可点击链接查看相关转录因子文献信息
8.4.1 lncRNA预测 http://www.noncode.org/blast.php
分析方法
1.在“blast”网页粘贴序列
2.分析结果
8.4.2 miRNA及靶基因预测 http://www.mirbase.org/search.shtml
9 蛋白质分析
工具综合网址 ExPASy https://www.expasy.org/
9.1.1 分析蛋白质的pI、Mw、氨基酸组成 ProtParam https://web.expasy.org/protparam/
分析方法
1. 在ProtParam主页粘贴序列进行分析
2. 蛋白质的 pI、Mw、氨基酸组成等
9.1.2 分析蛋白质的疏水性 ProtScale https://web.expasy.org/protscale/
分析方法
1. 在ProtScale主页粘贴序列、选择分析方法
2. 蛋白质的亲水和疏水性分析结果,有文字和图形两种显示方式
9.1.3 分析蛋白质的模体(MOTIFS) ScanProsite tool https://prosite.expasy.org/scanprosite/
分析方法
1. 提交蛋白质序列(可以同时提交不多于10条)
2. 选择motifs (缺省值)
3. 选择输出格式
4. 分析结果
9.2.1预测蛋白质的α-螺旋、β-折叠及其他二级结构 https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html
分析方法
1. 在SOPMA主页粘贴序列(FASTA格式)
2. 点击“submit”
9.2.2 蛋白质三级结构 AlphaFold https://alphafold.com/
分析方法
1. 直接输入蛋白质序列、蛋白质名称、基因名称即可预测
2. 查询结果链接至UniProt数据库
9.3.1 预测膜整合蛋白的跨膜区 https://harrier.nagahama-i-bio.ac.jp/sosui/mobile/
分析方法
1. 在SOSUI主页选择分析“SOSUI”
2. 在SOSUI:Submit a protein sequence网页粘贴序列
3. 分析结果
9.3.2 分析膜锚定蛋白的GPI位点
1. For Plant Proteins http://mendel.imp.ac.at/gpi/plant_server.html
2. For Animals Proteins http://mendel.imp.ac.at/gpi/gpi_server.html
3. For Fungal Proteins http://mendel.imp.ac.at/gpi/fungi_server.html
分析方法
1. 递交序列
2. 点击“RUN PREDICTION”
9.4.1 分析信号肽及其剪切位点 https://services.healthtech.dtu.dk/services/SignalP-5.0/
分析方法
1. 在SignalP网页选择物种参照和分析方法,粘贴序列
2. 分析结果
9.4.2分析糖链连接点
1. 分析O-连接糖蛋白 https://services.healthtech.dtu.dk/services/NetOGlyc-4.0/
2. 分析N-连接糖蛋白 https://services.healthtech.dtu.dk/services/NetNGlyc-1.0/
9.4.3 分析蛋白质修饰位点
1. NetAcet: 乙酰化位点预测 https://services.healthtech.dtu.dk/services/NetAcet-1.0/
2. NetPhos: 磷酸化位点预测https://services.healthtech.dtu.dk/services/NetPhos-3.1/
3. NMT: 肉豆蔻酰化位点预测化https://mendel.imp.ac.at/myristate/SUPLpredictor.htm/
4. PACMAN: 甲基化预测https://bugfri.unibe.ch/
5. PrePS: 异戊二烯化预测https://mendel.imp.ac.at/PrePS/
6. SUMOplot: SUMO化预测 http://www.abgent.com/sumoplot
分析方法
1. 选择物种,粘贴序列
2. 分析结果
9.5.1 PSORT细胞定位缩写对照表
分析方法
1. 在PeptideCutter网页选择化学因子、粘贴序列
2. 分析结果
10 基因组浏览器
10.2.1 基因注释查询
查询方法
1. 在主页面选择需要查询的物种
2. 输入需要查询染色体名称及物理位置,或基因名称
3. 获得该染色体物理区段内基因信息
4. 获得基因信息
5. 进一步获得该基因详细信息
1. 小鼠 https://www.informatics.jax.org/
2. 果蝇 https://flybase.org/
3. 酵母 https://yeastgenome.org/
4. 拟南芥 https://www.arabidopsis.org/index.jsp
5. 水稻 https://rapdb.dna.affrc.go.jp/links.html
1. 大豆 http://www.soybase.org/
2. 麦 https://wheat.pw.usda.gov/GG3/
3. 玉米 https://www.maizegdb.org/
4. 棉花 https://www.cottongen.org/
5. 芸薹 http://www.brassicadb.cn/#/
6. 茄科 https://solgenomics.net/
7. 橙子 http://citrus.hzau.edu.cn/
10.5.1 QTL数据检索
分析方法
1. 在数据库主页的“Resources & Tools”选择Animal QTLdb
2. 在QTL数据库浏览QTL信息
3. 在QTL数据库查询
4. 选择不同的查询方法
5. 结果
11 其它应用
查询方法
(1)直接通过关键词检索
1. 输入芯片探针ID(如:206044_s_at)或基因名称(如:BRAF)
2. 点击表达谱图片查看详细表达谱信息
(2)通过基因序列检索
1. 先获得基因序列,然后通过Specialized BLAST搜索GEO序列数据库,序列一致性接近100%的匹配说明GEO有该基因相应的表达谱结果
2. 点击“Accession”列查看匹配基因的表达谱信息
植物 http://crispr.hzau.edu.cn/CRISPR2/
范用http://www.e-crisp.org/E-CRISP/designcrispr.html