如何将文件复制到HDFS

日期：2020-07-15 栏目：程序人生浏览：次

在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs包中。基本的文件操作有open、read、write和close。实际上，Hadoop的文件API是通用的，可用于HDFS以外的文件系统。

Hadoop文件API的起点是FileSystem类，这是一个与文件系统交互的抽象类，存在不同的具体实现子类来处理HDFS和本地文件系统，可以通过调用factory方法FileSystem.get(Configuration conf)来得到所需的FileSystem实例。Configuration类适用于保留键/值配置参数的特殊类。它的默认实例化方法是以HDFS系统的资源配置为基础的。

如下，可以得到与HDFS接口的FileSystem对象：

Configuration conf = new Configuration();

FileSystem hdfs = FileSystem.get(conf);

要得到一个专用于本地文件系统的FileSystem对象：

FileSystem local = FileSystem.getLocal(conf);

Hadoop文件API用Path对象来编制文件和目录名，使用FileStatus对象来存储文件和目录的元数据。使用listStatus()方法得到一个目录中的文件列表：

Path inputDir = new Path(args[0]);

FileStatus[] inputFiles = local.listStatus(inputDir);

数组inputFiles的长度等于指定目录中文件的个数，在inputFiles中每一个FileStatus对象均有元数据信息，如文件长度、权限、修改时间等。

可以用命令行bin/hadoop fs -put 把本地文件复制到HDFS,也可以自己实现。

下面的程序编译打包后，可以直接运行如下的命令，实现自己的上传功能：

hadoop jar filecopy.jar FileCopy cite2.txt cite2.txt

下面是FileCopy的代码。

import java.net.URI;
import java.io.InputStream;
import java.io.OutputStream;
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
public class FileCopy
{
public static void main(String[] args) throws Exception
{
if(args.length != 2){
System.err.println("Usage : filecopy <source> <target>");
System.exit(2);
}
Configuration conf = new Configuration();
InputStream input = new BufferedInputStream(new FileInputStream(args[0]));
FileSystem fs = FileSystem.get(URI.create(args[1]),conf);
OutputStream output = fs.create(new Path(args[1]));
IOUtils.copyBytes(input,output,4096,true);
}
}

相关阅读：

将本地文件拷到HDFS中

从HDFS下载文件到本地

将本地文件上传至HDFS

HDFS基本文件常用命令

Hadoop中HDFS和MapReduce节点基本简介

《Hadoop实战》中文版+英文文字版+源码【PDF】

Hadoop: The Definitive Guide【PDF版】

转载注明出处：https://www.heiqu.com/bf55f93afbf10e8963ce17f43092821d.html

如何将文件复制到HDFS

相关推荐