超详细教程!如何下载、安装和运⾏AlphaFold2
前⾔:
AlphaFold2在CASP14蛋⽩质结构预测关键评估⼤赛中夺得第⼀名的好成绩,其预测的⼤部分结构达到了空前的准确度,与实验⽅法(X-ray、冷冻电镜、核磁共振)不相上下,其成绩也远超其它的选⼿。
男生生日礼物可以看到,虽然利⽤AlphaFold2预测了这么重要模式⽣物的数据库,但是并未覆盖所有的蛋⽩序列数据库,⽽且⽬前其它提供AlphaFold2预测服务的⽹站貌似国内的⽤户使⽤不了,所以只有搭建本地的AlphaFold2服务,你才能⽤AlphaFold2随⼼所欲的预测⾃⼰研究蛋⽩的结构。接下来教你们如何安装AlphaFold2。(本⽂建议有Linux基础的⼈⾷⽤,⾮战⽃⼈员除⾮你⾮常⾮常⾛运,否则过程中肯定会⽆法解决其中的报错问题。)
⼀、介绍配置要求
该团队在Google云服务器上做测试时⽤的配置:
CPU:12核春来江水绿如蓝的意思
九年级历史上册教学计划内存:85 GB
小沈阳姓什么boot disk:100 GB(这个应该⽤来安装系统和环境)
硬盘:3 TB
显卡:A100 ⼀块
看了这个配置,你是不是直接放弃了,硬盘3T,但是如果你⽤reduced_dbs(这个是简化的数据库),那么⾄少也得有600 GB的硬盘空间。
我⾃⼰的配置:
CPU:Intel Xeon Gold 5215
内存:251 GB
系统:CentOS 7.6
硬盘:87 TB
显卡:NVIDIA GeForce RTX 2080Ti 四块
这个配置是⾜够满⾜要求的,OK,下⼀步下载程序相关的⽂件。
个⼈要求:
立春的含义是什么意思会Linux基础知识,熟悉Linux环境下软件包的安装,熟悉脚本程序运⾏
⼆、下载程序需要的数据库、程序和模型
如果GitHub打不开,速度慢, ⾸先你得准备个⽐较⼤的硬盘空间,⾄少得有三个TB左右,然后把github上⾯这个包给下载到⼀个⽬录(如果GitHub打不开,速度慢,可以去gitee上⾯到AlphaFold2项⽬),然后进⼊scripts这个⽂件夹⾥⾯,运⾏命令download_all_data.sh <;下载⽬录>,然后程序会⾃动可以去gitee上⾯到AlphaFold2项⽬
运⾏前请确保电脑可以正常上⽹,下载会⽤到两个⼯具aria2和rsync),这个过程⼤概会下载438GB的⽂件,得等待很长时进⾏下载。(运⾏前请确保电脑可以正常上⽹,下载会⽤到两个⼯具aria2和rsync
间,如果断⽹的话,你还得把其它的都删掉,重新下载。我不介意直接运⾏这个主程序,可以利⽤多台机器分个下载。当然你也可以⽤在windows上提前⽤迅雷这种⼯具下载好,然后在拷贝到服务器上⾯去解压。利⽤迅雷下载的话你可以把scripts⽂件当做⽂本⽂件打开,⾥⾯会有下载的链接,除了pdb_mmcif 这个⽂件之外,其它的都是可以使⽤迅雷下载,为什么这个⽂件不⾏?因为pdb⽹站并没有提供压缩的mmcif数据库⽂件,每个都是⼩⽂件,必须得⽤同步的⽅式把pdb服务器上⾯的数据库同步到本地才⾏,这⼀步建议直接在安装⽬录上去操作单独脚本下载,不然到时候拷贝和压缩以及解压要花⼤⼒⽓,这个⽂件夹⾥⾯有18万个cif⽂件,你仔细琢磨琢磨。
下载完成后,你得解压,不同后缀的压缩⽂件解压命令不⼀样,可以⾃⾏去百度⼀下Linux下各种压缩⽂件的解压缩命令,解压后关注每个⽂
件夹⽂件⼤⼩和⽂件名是否与上⾯这张图中列出来的⼀致。另外,注意!bfd⽂件夹和small_bfd这两个⽂件夹是互斥的,⼤⽂件夹⾥⾯只
保护环境的名言另外,注意!bfd⽂件夹和small_bfd这两个⽂件夹是互斥的,⼤⽂件夹⾥⾯只留⼀个,bfd是完整的数据库⽽small_bfd是简化的数据库,如果你的磁盘不够,你就下后者。271.6 GB的bfd⽂件你就别下了。
三、安装docker和NVIDIA Container Toolkit
在经历了漫长的下载过程之后,终于可以开始了安装环境了,当然你可以在windows上⽤迅雷下载数据库的同时来进⾏这⼀步。
1、安装docker
docker是什么?为什么使⽤docker?请⾃⾏百度。
怎么下载安装docker?
2、安装NVIDIA Container Toolkit
这个⾥⾯有详细的教程,不过有点难度,不同的机器不⼀样,请⾃⾏解决。
3、测试是否成功
root权限运⾏:docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
如果你看到如下图的⼀个表格,证明你成功了。
备注:我在安装这个的时候很痛苦,这边要求cuda的版本在11.0,但是机器上cuda的版本是10.1,所以我升级了cuda的版本,但是显卡驱动的版本和cuda的版本不⼀样,会报错,说内核和软件的版本不
⼀样,然后我⼜去升级显卡的驱动,升级驱动过程中还遇到包依赖的问题,但是最后通过我不断的百度,还是解决了这些。这⼀步是整个安装过程中最头疼的问题,不同的Linux会报不同的错,所以我也不确定你们在安装过程中会出现什么问题,所以遇到这些问题你们还是⾃⼰去百度⼀下报错信息看看怎么解决,有的报错百度不到,所以还是建议有Linux经验的⼈来安装这部分。
四、运⾏AlphaFold2
做完了以上⼏个步骤,接下来就是激动⼈⼼的环节了,运⾏AlphaFold2!
1、配置输⼊输出⽂件夹路径
⾸先你得配置⼀下输⼊和输出⽬录,打开docker⽂件夹下的run_docker.py脚本,然后把其中的DOWNLOAD_DIR参数改成fasta⽂件夹的输⼊⽬录,把output_dir后⾯改为输出结果的路径(最好是绝对路径)。
2、build⼀下docker镜像⽂件
docker build -f docker/Dockerfile -t alphafold .
3、安装python虚拟环境
如果你使⽤python3,并且机器⾥⾯有pip3,你可以直接:
pip3 install -r
备注:不过我还是建议你使⽤python的虚拟环境,如果你之后⽤你的python⼲其它的事的话,你会发现有的包版本太⾼还是太低,如果你换了这些包的版本,或者不⼩⼼升级了⼀些包,那么你的AlphaFold2就运⾏不了了。
4、运⾏AlphaFold2
python3 docker/run_docker.py --fasta_paths=输⼊序列⽂件完整路径 --max_template_date=2020-05-14 --preset=[reduced_dbs、full_dbs、casp14]
参数讲解:
fasta_paths:预测蛋⽩质fasta⽂件的⽂件名
max_template_date:如果你预测蛋⽩在pdb⾥⾯,⽽你不想⽤这个pdb做模板,你就⽤这个⽇期来限制使⽤该pdb做模板,这个⽇期应该早于这个蛋⽩结构的release date
preset:时间和预测质量的均衡考虑:reduced_dbs最快,但是质量最差,full_dbs中等,casp14质量最好但时间是full_dbs的⼋倍左右。
5、运⾏结果
运⾏结束后,在你的output_dir中会⽣成⼀系列⽂件,其它的不说,其中ranked_0到4就是AlphaFold2预测出来的分数最⾼的五个模型,0是最好的,可信度依次往下。然后你就可以打开pymol查看的你蛋⽩的⽂件了。
(2021-8-11)
(版权所有,禁⽌⼀切转载!)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论