Hadoop文本转换为序列文件

在以前使用Hadoop的时候因为mahout里面很多都要求输入文件时序列文件,所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件(因为当时要分析mahout的源码,所以就要看到它的输入文件是什么,文本比较好看其内容)。一般这个有两种做法,其一:按照《Hadoop权威指南》上面的方面直接读出序列文件然后写入一个文本;其二,编写一个job任务,直接设置输出文件的格式,这样也可以把序列文件读成文本(个人一般采用这样方法)。

相关阅读:

Hadoop权威指南(中文第2版)PDF 

Hadoop序列化文件SequenceFile 

时隔好久,今天又重新试了下,居然不行了?,比如,我要编写一个把文本转为序列文件的java程序如下:

package mahout.fansy.canopy.transformdata;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
import org.apache.mahout.common.AbstractJob;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.math.Vector;
import org.apache.mahout.math.VectorWritable;

public class Text2VectorWritable extends AbstractJob{
 
 @Override
 public int run(String[] arg0) throws Exception {
  addInputOption();
    addOutputOption();
    if (parseArguments(arg0) == null) {
        return -1;
  }
    Path input=getInputPath();
    Path output=getOutputPath();
    Configuration conf=getConf();
    Job job=new Job(conf,"text2vectorWritable with input:"+input.getName());
  //  job.setInputFormatClass(SequenceFileInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);
    job.setMapperClass(Text2VectorWritableMapper.class);
    job.setMapOutputKeyClass(Writable.class);
    job.setMapOutputValueClass(VectorWritable.class);
    job.setNumReduceTasks(0);
    job.setJarByClass(Text2VectorWritable.class);
     
    FileInputFormat.addInputPath(job, input);
    SequenceFileOutputFormat.setOutputPath(job, output);
    if (!job.waitForCompletion(true)) {
        throw new InterruptedException("Canopy Job failed processing " + input);
      }
  return 0;
 }
 
 public static class Text2VectorWritableMapper extends Mapper<Writable,Text,Writable,VectorWritable>{
  public void map(Writable key,Text value,Context context)throws IOException,InterruptedException{
   String[] str=value.toString().split(",");
   Vector vector=new RandomAccessSparseVector(str.length);
   for(int i=0;i<str.length;i++){
    vector.set(i, Double.parseDouble(str[i]));
   }
   VectorWritable va=new VectorWritable(vector);
   context.write(key, va);
  }
 }
 
}

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/3531cc74bddd3989dac70aaadafd60f9.html