租用帮助

什么是生信分析服务器?如何配置?
2023-07-03 16:52:52
阅读()
来源:互联数据
摘要:     前两天,复旦大学已向国外泄露了中国人类基因组计划的部分数据,这些数据被认为是中国的国家机密。这一事件引起了人们对基因数据的保护与共享的关注。其实,中国的人类基因数据分析时间已经从1天提升到7分钟。

什么是生信分析服务器?如何配置?前两天,复旦大学已向国外泄露了中国人类基因组计划的部分数据,这些数据被认为是中国的国家机密。这一事件引起了人们对基因数据的保护与共享的关注。其实,中国的人类基因数据分析时间已经从1天提升到7分钟。随着服务器的进步,以前不可能的事情,也越来越多的进入到平常人的生活当中。


经过这一次实践,又看闲鱼上那么多卖生信分析的服务,我想我也有了新的使命,可以提供/协助给对于会装/会用rstudio的广大医学生/研究人员像自来水一样的分析计算资源,并把这样的经验推广并帮助到更多的朋友们。


海外服务器免费测试https://www.hkt4.com/zt/2023-05-06/


一、什么是生信分析服务器?


最近碰上这样的优质客户,说要安装r和rstudio分析10G的数据,并且要安装百度网盘。问什么样的设备可以做这样的分析。进一步询问,了解到其自身8G内存,3060显卡戴尔G16电脑安装后根本带不动。网上搜索了一下rstudio的硬件配置,找到这样一篇文章《单细胞转录组基础分析一:分析环境搭建》,文章来源于生信会客厅 ,作者Kinesin。里边有一段关于硬件要求的描述:


10X Genomics单细胞数据分析对电脑硬件配置要求比较高。上游分析软件Cell Ranger最低配置要求8核CPU+64G内存,推荐配置为16核CPU+128G内存,这显然不是个人电脑可以胜任的。下游分析使用R语言Seurat包时,10000个细胞的表达矩阵,8G内存的电脑就不能应付了。因此没有服务器的同学不用考虑上游分析,仅做下游分析最低也要16G内存的电脑。


生信分析服务器配置

机器性能配置初步成型


发给客户一聊,其立即表示认可,确实需要这么大的配置。再问是只做数据分析,不涉及图像处理。那么配置就清晰下来,数据只要10G,分析后也只有5G左右,包系统20G左右。一般40G的系统盘基本也能满足要求,跟客户建议多配置20G做数据盘。后来了解分析后数据要下载大概5G,且只是某个时间需要下载,按照1M下载速率除8算,10*1024*1024/128/60/60=22.76小时,所以可以选择按照流量计费,带宽可以升级带宽到100M,无下载流量不需要费用。


二、生信分析服务器初步建议客户配置:(一般围绕客户使用场景也主要了解判断如下三方面要求)


1、16核128G内存

2、60G硬盘(应该推荐超高IO类型的硬盘)

3、网络按流量计费,带宽开100M(初次建议5M,后来了解分析后还有5G数据要下载,建议是100M)


客户下载r,rstudio,网盘和数据到服务器,准备就绪,导入数据到rstudio,结果反馈导了10几分钟还没有导完。后来估计40多分钟左右才导完。


所以貌似16核128G配置还是略显有点不足,实际还可以升级配置到24vCPUs 192GiB内存或更高。速度上去了,实际总体使用成本应该不会差多少,但至少节约了时间。客户反馈实际1-2天时间就可以完成数据分析,总体成本两三百元或者更少。


后来了解到客户实际运行一段时间,没信心跑下去就把机器关掉删掉了资源。再花了500元让别人分析给结果数据了。


三、生信分析服务器方案配置成本:


客户反馈这次数据有15G的基因数据,所以硬盘容量60G应该是够。因为升级机器性能只会换CPU和内存,所以磁盘类型就需要从一开始就选型好。从rstudio分析基因数据的统计来看,涉及到读和写,读入速度也是考虑的一方面,如本次15G数据读入就花了1小时15分钟左右,内存占用也到了190多G。


所以选择尽可能高读写性能的磁盘类型,这里选择了超高IO,60G一小时是0.08元。带宽方面,客户使用方式上就远程桌面到云服务器下载网盘,下载R,rstudio和数据,然后配置和运行操作,不涉及到频繁的大量的数据从服务器流出的情况。所以建议客户配置带宽为100M,计费方式为按量计费。


下载1G数据也才0.64元。CPU和内存方面,rstuido分析CPU占用率并不高,目前实际观察8核也够了,具体可能和算法及基因数据不同有差异,待进一步观察;内存却是占用大头。这部分根据前人经验有个初步对应供参考。这样服务器配置和操作过程就非常清晰了。


四、生信分析服务器具体配置方案


按照上述步骤创建服务器和准备,导数据前打开RStudio,输入memory.limit()检查rstuido能分配的内存是否足够大(这里单位为M),如和购买服务器内存不一致,可以用如memory.limit(256000)设为256G。


客户导了不到一个小时又开始急了,说一直没动静像卡住了。安慰其打开任务管理器查看CPU和内存有无变化,rstudio的CPU实际占用率只有3.1上下跳动,内存却隔几秒钟就出现G级的增长。观察了一阵,导入命令运行完了,内存占用稳定在190G。从交流时间和如下账单分析15G数据导入消耗了1小时15分钟左右。


随后客户运行分析。从账单和关机时间分析,应该分析时间在1个半小时左右。


如下为此次生信数据准备和分析过程的账单详情,成本在37.8元左右。


最后:想想正是有了云计算的便利,才使得生信分析服务器的硬件配置几分钟就可以获得,即便要调整配置也就是几分钟的事情。而且即用即申请,不用可关机,用完即刻释放,成本也相对极低。对于非大企业,研究机构的小公司,个人分析者,真实实实在在的方便,正如文章中所讲没有服务器的同学不用考虑上游分析,如今想要用就可以随时可用而且用得起。


0

上一篇:2023年购买aws还是阿里云服务器?
下一篇:英国伦敦机房原生IP VPS测评结果如何?
HKT4为您的网站提供全球IDC资源
立即免费测试