1. ホーム
  2. hadoop

縮小後の出力ファイルのマージ

2023-08-31 04:49:49

質問

Mapreduceでは、各Reduceタスクはその出力をファイル名 part-r-nnnnn ここで nnnnn は reduce タスクに関連するパーティション ID です。は マップ/リデュース はこれらのファイルをマージしますか?もしそうなら、どのように?

どのように解決するには?

自分でファイルのマージを行う代わりに、呼び出しによってreduce出力ファイルのマージ全体を委任することができます。

hadoop fs -getmerge /output/dir/on/hdfs/ /desired/local/output/file.txt

注意 これはHDFSファイルをローカルに結合するものです。を実行する前に、十分なディスクスペースがあることを確認してください。