超详细教程!如何下载、安装和运行AlphaFold2--慧智精品网

超详细教程！如何下载、安装和运⾏AlphaFold2

前⾔：

AlphaFold2在CASP14蛋⽩质结构预测关键评估⼤赛中夺得第⼀名的好成绩，其预测的⼤部分结构达到了空前的准确度，与实验⽅法（X-ray、冷冻电镜、核磁共振）不相上下，其成绩也远超其它的选⼿。

男生生日礼物可以看到，虽然利⽤AlphaFold2预测了这么重要模式⽣物的数据库，但是并未覆盖所有的蛋⽩序列数据库，⽽且⽬前其它提供AlphaFold2预测服务的⽹站貌似国内的⽤户使⽤不了，所以只有搭建本地的AlphaFold2服务，你才能⽤AlphaFold2随⼼所欲的预测⾃⼰研究蛋⽩的结构。接下来教你们如何安装AlphaFold2。（本⽂建议有Linux基础的⼈⾷⽤，⾮战⽃⼈员除⾮你⾮常⾮常⾛运，否则过程中肯定会⽆法解决其中的报错问题。）

⼀、介绍配置要求

该团队在Google云服务器上做测试时⽤的配置：

CPU：12核春来江水绿如蓝的意思

九年级历史上册教学计划内存：85 GB

小沈阳姓什么

boot disk：100 GB（这个应该⽤来安装系统和环境）

硬盘：3 TB

显卡：A100 ⼀块

看了这个配置，你是不是直接放弃了，硬盘3T，但是如果你⽤reduced_dbs（这个是简化的数据库），那么⾄少也得有600 GB的硬盘空间。

我⾃⼰的配置：

CPU：Intel Xeon Gold 5215

内存：251 GB

系统：CentOS 7.6

硬盘：87 TB

显卡：NVIDIA GeForce RTX 2080Ti 四块

这个配置是⾜够满⾜要求的，OK，下⼀步下载程序相关的⽂件。

个⼈要求：

立春的含义是什么意思会Linux基础知识，熟悉Linux环境下软件包的安装，熟悉脚本程序运⾏

⼆、下载程序需要的数据库、程序和模型

如果GitHub打不开，速度慢，⾸先你得准备个⽐较⼤的硬盘空间，⾄少得有三个TB左右，然后把github上⾯这个包给下载到⼀个⽬录（如果GitHub打不开，速度慢，可以去gitee上⾯到AlphaFold2项⽬），然后进⼊scripts这个⽂件夹⾥⾯，运⾏命令download_all_data.sh <；下载⽬录>，然后程序会⾃动可以去gitee上⾯到AlphaFold2项⽬

运⾏前请确保电脑可以正常上⽹，下载会⽤到两个⼯具aria2和rsync），这个过程⼤概会下载438GB的⽂件，得等待很长时进⾏下载。（运⾏前请确保电脑可以正常上⽹，下载会⽤到两个⼯具aria2和rsync

间，如果断⽹的话，你还得把其它的都删掉，重新下载。我不介意直接运⾏这个主程序，可以利⽤多台机器分个下载。当然你也可以⽤在windows上提前⽤迅雷这种⼯具下载好，然后在拷贝到服务器上⾯去解压。利⽤迅雷下载的话你可以把scripts⽂件当做⽂本⽂件打开，⾥⾯会有下载的链接，除了pdb_mmcif 这个⽂件之外，其它的都是可以使⽤迅雷下载，为什么这个⽂件不⾏？因为pdb⽹站并没有提供压缩的mmcif数据库⽂件，每个都是⼩⽂件，必须得⽤同步的⽅式把pdb服务器上⾯的数据库同步到本地才⾏，这⼀步建议直接在安装⽬录上去操作单独脚本下载，不然到时候拷贝和压缩以及解压要花⼤⼒⽓，这个⽂件夹⾥⾯有18万个cif⽂件，你仔细琢磨琢磨。

下载完成后，你得解压，不同后缀的压缩⽂件解压命令不⼀样，可以⾃⾏去百度⼀下Linux下各种压缩⽂件的解压缩命令，解压后关注每个⽂

件夹⽂件⼤⼩和⽂件名是否与上⾯这张图中列出来的⼀致。另外，注意！bfd⽂件夹和small_bfd这两个⽂件夹是互斥的，⼤⽂件夹⾥⾯只

保护环境的名言另外，注意！bfd⽂件夹和small_bfd这两个⽂件夹是互斥的，⼤⽂件夹⾥⾯只留⼀个，bfd是完整的数据库⽽small_bfd是简化的数据库，如果你的磁盘不够，你就下后者。271.6 GB的bfd⽂件你就别下了。

三、安装docker和NVIDIA Container Toolkit

在经历了漫长的下载过程之后，终于可以开始了安装环境了，当然你可以在windows上⽤迅雷下载数据库的同时来进⾏这⼀步。

1、安装docker

docker是什么？为什么使⽤docker？请⾃⾏百度。

怎么下载安装docker？

2、安装NVIDIA Container Toolkit

这个⾥⾯有详细的教程，不过有点难度，不同的机器不⼀样，请⾃⾏解决。

3、测试是否成功

root权限运⾏：docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果你看到如下图的⼀个表格，证明你成功了。

备注：我在安装这个的时候很痛苦，这边要求cuda的版本在11.0，但是机器上cuda的版本是10.1，所以我升级了cuda的版本，但是显卡驱动的版本和cuda的版本不⼀样，会报错，说内核和软件的版本不

⼀样，然后我⼜去升级显卡的驱动，升级驱动过程中还遇到包依赖的问题，但是最后通过我不断的百度，还是解决了这些。这⼀步是整个安装过程中最头疼的问题，不同的Linux会报不同的错，所以我也不确定你们在安装过程中会出现什么问题，所以遇到这些问题你们还是⾃⼰去百度⼀下报错信息看看怎么解决，有的报错百度不到，所以还是建议有Linux经验的⼈来安装这部分。

四、运⾏AlphaFold2

做完了以上⼏个步骤，接下来就是激动⼈⼼的环节了，运⾏AlphaFold2！

1、配置输⼊输出⽂件夹路径

⾸先你得配置⼀下输⼊和输出⽬录，打开docker⽂件夹下的run_docker.py脚本，然后把其中的DOWNLOAD_DIR参数改成fasta⽂件夹的输⼊⽬录，把output_dir后⾯改为输出结果的路径（最好是绝对路径）。

2、build⼀下docker镜像⽂件

docker build -f docker/Dockerfile -t alphafold .

3、安装python虚拟环境

如果你使⽤python3，并且机器⾥⾯有pip3，你可以直接：

pip3 install -r

备注：不过我还是建议你使⽤python的虚拟环境，如果你之后⽤你的python⼲其它的事的话，你会发现有的包版本太⾼还是太低，如果你换了这些包的版本，或者不⼩⼼升级了⼀些包，那么你的AlphaFold2就运⾏不了了。

4、运⾏AlphaFold2

python3 docker/run_docker.py --fasta_paths=输⼊序列⽂件完整路径 --max_template_date=2020-05-14 --preset=[reduced_dbs、full_dbs、casp14]

参数讲解：

fasta_paths：预测蛋⽩质fasta⽂件的⽂件名

max_template_date：如果你预测蛋⽩在pdb⾥⾯，⽽你不想⽤这个pdb做模板，你就⽤这个⽇期来限制使⽤该pdb做模板，这个⽇期应该早于这个蛋⽩结构的release date

preset：时间和预测质量的均衡考虑：reduced_dbs最快，但是质量最差，full_dbs中等，casp14质量最好但时间是full_dbs的⼋倍左右。

5、运⾏结果

运⾏结束后，在你的output_dir中会⽣成⼀系列⽂件，其它的不说，其中ranked_0到4就是AlphaFold2预测出来的分数最⾼的五个模型，0是最好的，可信度依次往下。然后你就可以打开pymol查看的你蛋⽩的⽂件了。

（2021-8-11）

慧智精品网

超详细教程!如何下载、安装和运行AlphaFold2

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表