当前位置：首页>正文

如何基于hadoop基本实现网盘功能，客户端用web实现基于hadoop的云存储实例

2023-05-18 03:23:26 互联网未知

如何基于hadoop基本实现网盘功能，客户端用web实现

应用服务器:在线网盘应用，可以用jsp写数据库服务器:可以用mysql，存储用户信息，上传文件信息等文件服务器:用hadoop的文件系统，直接把上传的文件写在这个系统就行了，因为分块和备份都不用自己实现

基于hadoop的云存储实例

基于Hadoop平台的云存储应用实践

http://cio.itxinwen.com/case_studies/2012/0327/402100.html

云计算（Cloud Computing）是一种基于因特网的超级计算模式，在远程的数据中心里，成千上万台电脑和服务器连接成一片电脑云。用户通过电脑、笔记本、手机等方式接人数据中心，按自己的需求进行运算。目前，对于云计算仍没有普遍一致的定义。结合上述定义，可以总结出云计算的一些本质特征，即分布式计算和存储特性、高扩展性、用户友好性、良好的管理性。

1云存储架构图

橘色的作为存储节点（Storage Node）负责存放文件，蓝色作为控制节点（（Control Node）则是负责文件索引，并负责监控存储节点间容量及负载的均衡，这两个部分合起来便组成一个云存储。存储节点与控制节点都是单纯的服务器，只是存储节点的硬盘多一些，存储节点服务器不需要具备RAID的功能，只要能安装Linux即可，控制节点为了保护数据，需要有简单的RAID level O1的功能。

云存储不是要取代现有的盘阵，而是为了应付高速成长的数据量与带宽而产生的新形态存储系统，因此云存储在设计时通常会考虑以下三点：

（1）容量、带宽的扩容是否简便

扩容是不能停机，会自动将新的存储节点容量纳入原来的存储池。不需要做繁复的设定。

图1云存储架构图

（2）带宽是否线形增长

使用云存储的客户，很多是考虑未来带宽的增长，因此云存储产品设计的好坏会产生很大的差异，有些十几个节点便达到饱和，这样对未来带宽的扩容就有不利的影响，这一点要事先弄清楚，否则等到发现不符合需求时，已经买了几百TB，后悔就来不及了。

（3）管理是否容易。

2云存储关键技术

云存储必须具备九大要素：①性能②安全性③自动ILM存储④存储访问模式⑤可用性⑥主数据保护⑦次级数据保护⑧存储的灵活⑨存储报表。

云计算的发展离不开虚拟化、并行计算、分布式计算等核心技术的发展成熟。下面对其介绍如下：

（1）集群技术、网格技术和分布式文件系统

云存储系统是一个多存储设备、多应用、多服务协同工作的集合体，任何一个单点的存储系统都不是云存储。

既然是由多个存储设备构成的，不同存储设备之间就需要通过集群技术、分布式文件系统和网格计算等技术，实现多个存储设备之间的协同工作，使多个的存储设备可以对外提供同一种服务，并提供更大更强更好的数据访问性能。如果没有这些技术的存在，云存储就不可能真正实现，所谓的云存储只能是一个一个的独立系统，不能形成云状结构。

（2）CDN内容分发、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术

CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问，同时，通过各种数据备份和容灾技术保证云存储中的数据不会丢失，保证云存储自身的安全和稳定。如果云存储中的数据安全得不到保证，也没有人敢用云存储了。

（3）存储虚拟化技术、存储网络化管理技术

云存储中的存储设备数量庞大且分布多在不同地域，如何实现不同厂商、不同型号甚至于不同类型（例如FC存储和IP存储）的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题，这个问题得不到解决，存储设备就会是整个云存储系统的性能瓶颈，结构上也无法形成一个整体，而且还会带来后期容量和性能扩展难等问题。

hadoop hdfs 源码怎么看

在使用Hadoop的过程中，很容易通过FileSystem类的API来读取HDFS中的文件内容，读取内容的过程是怎样的呢？今天来分析客户端读取HDFS文件的过程，下面的一个小程序完成的功能是读取HDFS中某个目录下的文件内容，然后输出到控制台，代码如下：

[java] view plain copy
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/")
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration()

Path hdfs = new Path(hdfsPath)

FileSystem in = FileSystem.get(conf)
//in = FileSystem.get(URI.create(hdfsPath), conf)//这两行都会创建一个DistributedFileSystem对象

FileStatus[] status = in.listStatus(hdfs)
for(int i = 0 i < status.length i ) {
byte[] buff = new byte[1024]
FSDataInputStream inputStream = in.open(status[i].getPath())
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff))
}
inputStream.close()
}
}
}

FileSystem in = FileSystem.get(conf)这行代码创建一个DistributedFileSystem，如果直接传入一个Configuration类型的参数，那么默认会读取属性fs.default.name的值，根据这个属性的值创建对应的FileSystem子类对象，如果没有配置fs.default.name属性的值，那么默认创建一个org.apache.hadoop.fs.LocalFileSystem类型的对象。但是这里是要读取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name属性的值为hdfs://localhost:9000，这样FileSystem.get(conf)返回的才是一个DistributedFileSystem类的对象。还有一种创建DistributedFileSystem这种指定文件系统类型对像的方法是使用FileSystem.get(Configuration conf)的一个重载方法FileSystem.get(URI uri, Configuration)，其实调用第一个方法时在FileSystem类中先读取conf中的属性fs.default.name的值，再调用的FileSystem.get(URI uri, Configuration)方法。

如何基于hadoop基本实现网盘功能，客户端用web实现基于hadoop的云存储实例