• [解決済み] Hiveで日付の差を計算する方法

    質問 初心者です。入社日を指定するカラムを持つ社員テーブルがあり、過去3ヶ月に入社した社員のリストを取得したいのです。from_unixtime(unix_timestamp())を使って現在の日付を得ることができることは理解しています。datediffはどのように計算するのですか?MS SQLのようなDATEDIFF()関数が組み込まれているのでしょうか。 どのように解決するのですか?

    2022-03-08 17:27:55
  • [解決済み] HiveにStringのsplit関数はありますか?

    質問 Hiveに組み込まれたStringの分割機能を探しています。 例:Stringがifの場合。 A|B|C|D|E それから、こんな機能が欲しい。 array<string> split(string input, char delimiter) そうすれば、私は戻ってこられる。 [A,B,C,D,E] Hiveにそのような組み込みの分割関数は存在しま

    2022-03-07 18:44:16
  • [解決済み] curl で --negotiate を使用する場合、keytab ファイルは必要ですか?

    質問 その ドキュメンテーション kerberosで保護されたエンドポイントに接続する方法を説明したもので、次のように表示されます。 curl -i --negotiate -u : "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=..." は -u フラグを指定する必要がありますが、curl では

    2022-03-04 23:55:37
  • [解決済み] hadoop の -libjars に関する問題

    質問 Hadoop上でMapReduceジョブを実行しようとしていますが、エラーに直面し、何が問題になっているのかわかりません。マッパーに必要なライブラリjarをpasしなければなりません。 ターミナルで以下のように実行しています。 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar /home/hadoop/vardtst.jar -li

    2022-03-03 11:06:01
  • [解決済み] Facebookのデータ分析ツール「HiPal」とは、どのようなものなのか?

    質問 Facebookのデータ分析ツール「HiPal」のナレッジマネジメント機能とはどのようなものですか?また、どのように機能するのでしょうか。これは純粋にHadoop環境のために設計されているのでしょうか、それとも他のDBと一緒に使うことができるのでしょうか? どのように解決するのですか? ただし、HiPalはまだ公開されていないので、これはあくまで推測に過ぎません。 HiPa

    2022-02-27 23:01:55
  • [解決済み] Hive - Hiveサービスのクラスパスを印刷する方法

    質問 ハイブ クエリの実行中にロードされる jar の場所を確認するために、ハイブ サービスのクラスパスをチェックする必要があります。 新しいパーケット形式のデータを読み込むために、hiveのパーケットjarを最新のものに更新したいのですが。 hiveのlibの場所(/usr/hdp/2.5.XX/hive/lib/)のjarを更新しましたが、他の場所の古いjarをまだ使用しています

    2022-02-17 10:44:10
  • [解決済み] HiveのRANK OVER機能

    質問 Hiveでこのクエリを実行して、adimpressionテーブルでより頻繁に表示される上位10個のurlだけを返そうとしているのです。 select ranked_mytable.url, ranked_mytable.cnt from ( select iq.url, iq.cnt, rank() over (partition b

    2022-02-16 09:22:40
  • [解決済み] Pig:FLATTENキーワード

    質問 の使い方で少し迷っています。 FLATTEN というキーワードをPIGで使用しています。 以下のデータセットについて考えてみましょう。 tuple_record: {details: (firstname: chararray,lastname: chararray,age: int,sex: chararray)} を使用せずに FLATTEN こんな感じで、フィー

    2022-02-16 05:29:34
  • [解決済み] HDFSのHiveプロキシユーザーの最適なソリューションは何ですか?

    質問内容 HDFSとHiveのproxyuserの設定が非常にわかりにくいです。hive-site.xmlのdoAsオプションは有効にしています。 <property> <name>hive.server2.enable.doAs</name> <value>true</value> </property&g

    2022-02-15 19:46:28
  • [解決済み] ハイブがバケットにデータを挿入する際に作成した小さなファイルをマージする方法は?

    質問内容 私は、通話データレコード(CDR)を含むハイブテーブルを持っています。このテーブルは、電話番号でパーティショニングされ、call_dateでバケット化されています。現在、ハイブにデータを挿入すると、バックデイトのcall_dateがバケットに小さなファイルを作成し、ネームノードメタデータが増加し、パフォーマンスが低下しています。 これらの小さなファイルを1つに統合する方法はあります

    2022-02-14 20:26:29
  • [解決済み] 最初のhadoopプロジェクトエラー。"入力パスが存在しません"

    質問 シンプルなHadoopプロジェクトをセットアップするために、私はこのチュートリアルに従います。 http://ebiquity.umbc.edu/Tutorials/Hadoop/23%20-%20create%20the%20project.html 私のHadoopシングルノードは正常に動作しているようです。 を指定すると In このコードでフォルダを作成します。

    2022-02-14 07:28:02
  • [解決済み] HadoopでDatanodeのプロセスが実行されていない

    質問 を使用して複数ノードのHadoopクラスターをセットアップして設定しました。 このチュートリアル . start-all.shコマンドを入力すると、以下のようにすべてのプロセスが正しく初期化されていることがわかります。 starting namenode, logging to /usr/local/hadoop/libexec/../logs/hadoop-root-nam

    2022-02-12 13:32:51
  • [解決済み] Hive - 現在使用している実行エンジンを知る方法

    質問事項 <ブロッククオート hiveのETLワークフローを自動化したいのですが、どのようにすればいいですか? 実行エンジン(Tez)ごとにhiveのジョブを実行する必要があります。 またはMR)のメモリ制約のため。 ワークフロー全体の中で、現在どの実行エンジンを扱っているのかクロスチェックしたいので、教えてください。 よろしくお願いします。 どのように解決する

    2022-02-12 11:53:39
  • [解決済み] HbaseのcheckAndPutとcheckAndMutateの違いは何ですか?

    質問 Hbase 1.2.4では checkAndPut と checkAndMutate の違いは何ですか? どのように解決するのですか? checkAndPut - 渡された CompareOp に従って、hbase から値と現在の値を比較します。 CompareOp=EQUALS 期待される値が等しい場合、その値を put オブジェクトに追加します。 checkAndMut

    2022-02-12 08:39:06
  • [解決済み] HADOOPでワード数を値でソートする方法は?[重複している]。

    質問 <余談 この質問には、すでにここで回答があります : HARDOOP MAP RELEAD 二次ソート (5件) 閉店 8年前

    2022-02-12 07:53:31
  • [解決済み] 単一ファイルをコピーする際にhadoop discpの問題が発生する

    質問 (注:並列化するためにdistcpを使用する必要があります。) user/bhavesh フォルダに2つのファイルがあります。 user/bhavesh1 フォルダにファイルが1つあります。 user/bhavesh から /user/uday フォルダに2ファイルコピー (これは問題なく動作します) user/uda

    2022-02-08 17:08:36
  • [解決済み] コマンドプロンプトからHiveとHadoopのバージョンを知るには?

    質問 コマンド プロンプトから、使用している Hive のバージョンを確認するにはどうすればよいですか。以下はその詳細です。 私はハイブテーブルに接続し、テーブルのレコードにアクセスするためにPuttyを使用しています。私は何をしましたか - 私はPuttyを開き、ホスト名で私はタイプしました - 。 leo-ingesting.vip.name.com をクリックします。 Open

    2022-02-07 15:27:36
  • [解決済み】なぜHiveのFetchタスクはMapのみのタスクより速く動作するのですか?

    質問 単純なクエリのために、MapやMapReduceの代わりに、HiveでFetchタスクを有効にすることは可能ですか? hive.fetch.task.conversion パラメータを使用します。 Fetch タスクが Map よりもはるかに高速に実行される理由を説明してください。 select * from table limit 10; )? この場合、マップのみのタスクは何

    2022-02-04 16:37:55
  • [解決済み] Hadoop-Hiveからテーブルを削除/トランケートする方法は?

    質問内容 ハイブからテーブルを削除する方法を教えてください。また、ハイブのクエリに関する詳細な情報を入手できる場所を教えてください。 どのように解決するのですか? を使用することができます。 ドロップ コマンドを使用して、HDFSからメタデータと実データを削除します。 また、データを削除するだけで、テーブルの構造を維持したい場合は、truncateコマンドを使用します。

    2022-02-03 23:10:33
  • [解決済み] yarn.scheduler.maximum-allocation-mb` と `yarn.nodemanager.resource.memory-mb` の違いについて教えてください。

    質問 とはどのような違いがあるのでしょうか? yarn.scheduler.maximum-allocation-mb と yarn.nodemanager.resource.memory-mb ? の両方が表示されますね。 yarn-site.xml と説明されているのを見かけます。 ここで . yarn.scheduler.maximum-allocation-mb

    2022-02-03 19:56:33