引物及基因序列在基因组中的比对
发表人:程 虹,发布时间:12-11-07
本地Blast主要用于数据量大时可以进行批量比对,或是有针对性的使用本地数据库。也可在离线运行并保证数据安全性。 因本实验室补洞及寻找目的基因的需要,可将全基因组序列构建本地blast数据库,使用目标序列作为比对序列,快捷方便的得出结果,本方法中提供一个简单的Perl程序运行本地Blast,用于比对核酸序列,如需使用蛋白序列或调试其他参数可根据NCBI的本地Blast使用说明编辑perl 程序,需事先下载或格式化好本地数据库。
1. 安装Active Perl的Windows版本,见附件,双击安装,免费使用;
2. 安装老版本Blast程序(PS:现在NCBI官方推荐使用Blast+程序,有待更新);
方法:双击,在该文件所在目录下会生成一系列文件。留意安装路径,举例:设定为"D:/NCBI/Blast"。
3. 格式化数据库:(同样数据库只需格式化一次)
开始→运行→cmd,使用cd 命令打开blast程序所在文件夹,输入:
> D:
> cd D:/NCBI/Blast
> formatdb -i databasename -p F -o T
注:databasename表示自己选择的数据库(放置于同一文件夹)
注:databasename表示自己选择的数据库(放置于同一文件夹)
参数说明:
-i input file 参数用于指定需要格式的数据库
-p type of file 用于指定文件类型,T 为蛋白质,F为核酸,默认为 T
-o parse options 用于指定是否解析序列ID并创建索引 T 为创建,F为不创建,默认为F。如果不用T,会提示[NULL_Caption] WARNING: "inputseq": Could not find index files for database "databasename"。可以输入formatdb -h 来获取相关参数的解释和帮助。
4. 双击运行LocalBlast.pl,见附件。
将该程序与Blast程序放置于同一文件夹输出结果文件在同一目录下,根据屏幕提示进行,比对e-value阈值为10-3,输出结果为TAB格式,分为12列,每列分别代表"Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit score"。
实测可用,欢迎调试。报告bug请联系hongc@zju.edu.cn。
评论(0) | 阅读(1715) | 关闭
暂无评论! |
我要:发表评论 | 浏览更多评论 |
---|