分布式文件存储系统技术及实现
内容介绍:
一、大数据对分布式存储的需求
一、大数据对分布式存储的需求
1.当前业务对分布式存储的需求以及现在达到的水平。
(1)要对1PB数据排序,需要怎样的存储系
分布式存储客观需求 内容介绍: 一、大数据对分布式存储的需求 一、大数据对分布式存储的需求 1.当前业务对分布式存储的需求以及现在达到的水平。 (1)要对1PB数据排序,需要怎样的存储系统? 首先这1PB数据在排序的时候会产生一些临时数据,另外输出结果也要有1PB,所以在这整个过程中,需要的存储量大概在3PB-4PB, (2)如果说当前的存储系统有多个用户同时使用的话,同时考虑到系统要留一些存储空间用于后期扩展,那每个机型的存储量至少要在100PB左右。如果要求1PB数据在两小时之内完成,那对于数据的吞吐量也有一定的要求。 (3)在这个网站上,最新更新了阿里云研发的云计算平台关键性能数据,对于Gray这种排序来说,两三年前排序100TB数据需要几百分钟的时间消耗,在去年最好的成绩是1400多秒,今年平台上达到了377秒,可以看到每年都有很大的改善,同时要求底层的分布式存储系统也要有大的改善,能达到吞吐量的要求。 2.总结: (1)大数据对分布式存储的需求: ·存储容量大(目前阿里云分布式存储系统盘古最大容量200PB) ·高吞吐率(如果说1PB的数据在两小时之内算完,那要求每秒的吞吐量在几十GB左右,另外数据规模的增长同时带来的是硬件的损坏率) ·提高数据的可靠性(目前盘古系统在5000台集群的规模下,可以达到99.999999%的数据安全性。在5000台集群里面,100年左右会出现一次数据丢失) ·数据服务高可用(单独看分布式存储系统的高可用,达到99.95%云计算分布式系统,就是每年大概有4-5个小时不服务,如果应用层在分布式存储系统上做容错机制,就可以达到更高的可用性) ·高效运维(随着集群规模变大,如果每一次故障排查或者硬件更换都需要人为进行操作,那是不可思议的。高效运维的第一点就是要将日常硬件处理作为常态,做成流程化;第二点就是对于监控、报警等机制也要有非常完善的支持) ·低成本(是存储系统的核心竞争力,只有在保证数据安全、正确服务稳定的前提下降低成本,才是分布式存储的核心竞争力) (编辑:源码门户网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |