在大数量级的数据存储上,比较靠谱的分布式文件存储有哪些? 分布式文件存储系统

9821℃ DAVID

在大数量级的数据存储上,比较靠谱的分布式文件存储有哪些?分布式文件存储系统

有哪些主要的分布式存储系统?能不能给简单介绍一两句嘛?

1.HadoopHDFS(大数据分布式文件系统),这个适用于商用硬件上高数据吞吐量对大数据集的访问需求。它效仿谷歌文件系统(GFS),数据在相同节点上以复制的方式进行存储以实现将数据合并计算的目的。该系统的主要设计目标包括:容错,可扩展性,高效性和可靠性。2.OpenStack的对象存储Swift,提供一个类似AmazonS3的对象存储。其主要特点为:所有的存储对象都有自身的元数据和一个URL,这些对象在尽可能唯一的区域复制3次,而这些区域可被定义为一组驱动器,一个节点,一个机架等。开发者通过一个RESTfulHTTPAPI与对象存储系统相互作用。对象数据可以放置在集群的任何地方。在不影响性能的情况下,集群通过增加外部节点进行扩展。这是相对全面升级,性价比更高的近线存储扩展。数据无需迁移到一个全新的存储系统。集群可无宕机增加新的节点。故障节点和磁盘可无宕机调换。在标准硬件上运行,例如戴尔,HP和Supermicro。3.公有云对象存储,公有云大都只有对象存储。比如:Amazon的S3,微软的AzureBolb,阿里的OSS等等.4.Facebook用于图片存储的Haystack,拥有大量元数据,适用于图片的对象存储,采用每张图片一个文件的方式取代NFS文件系统。此外,Facebook着眼于长尾服务,因此传统缓存和CDN(内容发布网络)的表现并不甚佳。一般正常的网站有99%CDN点击量,但Facebook只有约80%CDN点击率。5.Ceph,是红帽的,它是一个遵循LGPL协议的存储平台,可以在单个分布式节点上同时支持对象存储,块存储和文件存储三种存储。Ceph设计的主要初衷是变成一个可避免单节点故障的分布式文件系统,EB级别的扩展能力,而且是一种开源自由软件,许多超融合的分布式文件系统都是基于Ceph开发的,作为开源软件在超融合商业领域的应用,Ceph因为性能等问题被诟病,但不乏许多厂商在Ceph上不断优化和努力。,比如深圳元核云就在优化它的性能方面做了很多努力,也取得了不错的成绩。还有OpenStack可以作为一个Linux访问的文件系统提供传统块存储Cinder,并行分布式文件系统Lustre,遵循InfinibandRDMA或TCP/IP协议创建块集中存储的GlusterFS,用户空间文件系统FUSE(FilesysteminUserspace)等。

当前主流的分布式文件系统有哪些

分布式文件系统、集群文件系统、并行文件系统,这三种概念很容易混淆,实际中大家也经常不加区分地使用。总是有人问起这三者的区别和联系,其实它们之间在概念上的确有交叉重叠的地方,但是也存在显著不同之处。

国内较好的分布式云存储产品有哪些?

分布式存储应用十分广泛,在云计算领域十分常见。因为业务特点和自身实力和资源等综合原因,很多大型的云计算厂商都会选择自主开发或二次开发分布式存储系统,这些厂商本身的产品性能也会比较稳定,在此我列举一下这些厂商。

1. 公有云方面:阿里云的盘古和腾讯的PaxosStore,这两个存储系统分别支撑了大多数阿里云和腾讯系产品的存储和计算。

2. 私有云方面:国外的有VMware的vSAN,谷歌的Google Megastore等;国内的有新华三的ONEStor、华为的FusionStorage、云宏的WinStore等。

在这里特别提一下云宏的WinStore存储,他们的产品在金融领域应用非常广泛,除了自主研发的虚拟化平台,他们也特别提到这个存储技术,WinStore是他们自主研发的分布式存储系统,使得他们的产品在数据存储安全性和容灾性能上有优势。

当前主流分布式文件系统有哪些?各有什么优缺点?

目前几个主流的分布式文件系统除GPFS外,还有PVFS、Lustre、PanFS、GoogleFS等。

1.PVFS(Parallel Virtual File System)项目是Clemson大学为了运行Linux集群而创建的一个开源项目,目前PVFS还存在以下不足:

1)单一管理节点:只有一个管理节点来管理元数据,当集群系统达到一定的规模之后,管理节点将可能出现过度繁忙的情况,这时管理节点将成为系统瓶颈;

2)对数据的存储缺乏容错机制:当某一I/O节点无法工作时,数据将出现不可用的情况;

3)静态配置:对PVFS的配置只能在启动前进行,一旦系统运行则不可再更改原先的配置。

2.Lustre文件系统是一个基于对象存储的分布式文件系统,此项目于1999年在Carnegie Mellon University启动,Lustre也是一个开源项目。它只有两个元数据管理节点,同PVFS类似,当系统达到一定的规模之后,管理节点会成为Lustre系统中的瓶颈。

3.PanFS(Panasas File System)是Panasas公司用于管理自己的集群存储系统的分布式文件系统。

4.GoogleFS(Google File System)是Google公司为了满足公司内部的数据处理需要而设计的一套分布式文件系统。

5.相对其它的文件系统,GPFS的主要优点有以下三点:

1)使用分布式锁管理和大数据块策略支持更大规模的集群系统,文件系统的令牌管理器为块、inode、属性和目录项建立细粒度的锁,第一个获得锁的客户将负责维护相应共享对象的一致性管理,这减少了元数据服务器的负担;

2)拥有多个元数据服务器,元数据也是分布式,使得元数据的管理不再是系统瓶颈;

3)令牌管理以字节作为锁的最小单位,也就是说除非两个请求访问的是同一文件的同一字节数据,对于数据的访问请求永远不会冲突.