[解決済み】なぜHiveのFetchタスクはMapのみのタスクより速く動作するのですか？

2022-02-04 16:37:55

質問

単純なクエリのために、MapやMapReduceの代わりに、HiveでFetchタスクを有効にすることは可能ですか？ hive.fetch.task.conversion パラメータを使用します。

Fetch タスクが Map よりもはるかに高速に実行される理由を説明してください。 select * from table limit 10; )? この場合、マップのみのタスクは何を追加で行っているのでしょうか？私の場合、20倍以上の性能差があります。どちらのタスクもテーブルのデータを読み込むはずですよね？

解決方法は？

FetchTaskは直接データを取得しますが、Mapreduceはマップリデュース・ジョブを呼び出します。

<property>
  <name>hive.fetch.task.conversion</name>
  <value>minimal</value>
  <description>
    Some select queries can be converted to single FETCH task 
    minimizing latency.Currently the query should be single 
    sourced not having any subquery and should not have
    any aggregations or distincts (which incurrs RS), 
    lateral views and joins.
    1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only
    2. more    : SELECT, FILTER, LIMIT only (+TABLESAMPLE, virtual columns)
  </description>
</property>

また、もう1つのパラメータ hive.fetch.task.conversion.threshold 0.10-0.13ではデフォルトで-1、0.14では1G(1073741824)になっています。これは、テーブルのサイズが1Gを超える場合、FetchタスクではなくMapreduceを使用することを示しています。

詳細

[解決済み】なぜHiveのFetchタスクはMapのみのタスクより速く動作するのですか？

質問

解決方法は？

関連

[解決済み] hive.tez.container.size と tez.task.resource.memory.mb の違いについて

[解決済み] Apache Hive 小数点以下2桁に四捨五入する方法は？

[解決済み] 単一ファイルをコピーする際にhadoop discpの問題が発生する

[解決済み] Hive - Hiveサービスのクラスパスを印刷する方法

[解決済み] HiveのRANK OVER機能

[解決済み] Facebookのデータ分析ツール「HiPal」とは、どのようなものなのか？

[解決済み] Hiveで日付の差を計算する方法

[解決済み] SQLiteのINSERT/per-secondのパフォーマンスを向上させる

[解決済み] 整数の平方根が整数であるかどうかを判断する最速の方法

[解決済み] Collatz予想の検証を行うC++のコードは、なぜ手書きのアセンブリよりも高速に動作するのでしょうか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] hive.tez.container.size と tez.task.resource.memory.mb の違いについて

[解決済み] yarn.scheduler.maximum-allocation-mb` と `yarn.nodemanager.resource.memory-mb` の違いについて教えてください。

[解決済み] HADOOPでワード数を値でソートする方法は？[重複している]。

[解決済み] ハイブがバケットにデータを挿入する際に作成した小さなファイルをマージする方法は？

[解決済み] HDFSのHiveプロキシユーザーの最適なソリューションは何ですか？

[解決済み] Hive - Hiveサービスのクラスパスを印刷する方法

[解決済み] 最初のhadoopプロジェクトエラー。"入力パスが存在しません"

[解決済み] HiveのRANK OVER機能

[解決済み] Pig:FLATTENキーワード

[解決済み] Facebookのデータ分析ツール「HiPal」とは、どのようなものなのか？