[解決済み] NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities （s3データをsparkで読み込む際に発生します。

2022-02-18 03:28:44

質問

ローカルの開発マシンで（Intellijを通して）Amazon s3からデータを読み込む簡単なsparkジョブを実行したいのですが、どうすればいいですか？

私の build.sbt ファイルを作成します。

scalaVersion := "2.11.12"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % "2.3.1",
  "org.apache.spark" %% "spark-sql" % "2.3.1",
  "com.amazonaws" % "aws-java-sdk" % "1.11.407",
  "org.apache.hadoop" % "hadoop-aws" % "3.1.1"
)

私のコードスニペットです。

val spark = SparkSession
    .builder
    .appName("test")
    .master("local[2]")
    .getOrCreate()

  spark
    .sparkContext
    .hadoopConfiguration
    .set("fs.s3n.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")

  val schema_p = ...

  val df = spark
    .read
    .schema(schema_p)
    .parquet("s3a:///...")

そして、次のような例外が発生します。

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities
    at java.lang.ClassLoader.defineClass1(Native Method)
    at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
    at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
    at java.net.URLClassLoader.defineClass(URLClassLoader.java:467)
    at java.net.URLClassLoader.access$100(URLClassLoader.java:73)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:368)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:362)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:361)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.conf.Configuration.getClassByNameOrNull(Configuration.java:2093)
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2058)
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2152)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2580)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2593)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2632)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2614)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
    at org.apache.spark.sql.execution.streaming.FileStreamSink$.hasMetadata(FileStreamSink.scala:45)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:354)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:239)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:227)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:622)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:606)
    at Test$.delayedEndpoint$Test$1(Test.scala:27)
    at Test$delayedInit$body.apply(Test.scala:4)
    at scala.Function0$class.apply$mcV$sp(Function0.scala:34)
    at scala.runtime.AbstractFunction0.apply$mcV$sp(AbstractFunction0.scala:12)
    at scala.App$$anonfun$main$1.apply(App.scala:76)
    at scala.App$$anonfun$main$1.apply(App.scala:76)
    at scala.collection.immutable.List.foreach(List.scala:392)
    at scala.collection.generic.TraversableForwarder$class.foreach(TraversableForwarder.scala:35)
    at scala.App$class.main(App.scala:76)
    at Test$.main(Test.scala:4)
    at Test.main(Test.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.StreamCapabilities
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 41 more

を置き換える場合 s3a:/// を s3:/// またエラーが出る。 No FileSystem for scheme: s3

私はAWSの初心者なので、私は私が使用する必要があるかどうかはわかりません。 s3:/// , s3a:/// または s3n:/// . aws-cliでAWSの認証情報を設定済みです。

私のマシンには、Sparkはインストールされていません。

よろしくお願いします。

解決方法を教えてください。

私なら、まず S3Aトラブルシューティングドキュメント

Hadoopのバージョンよりも新しいバージョンのAWS SDKを "ドロップイン "しようとしないでくださいどんな問題があっても、AWS SDKのバージョンを変えても解決しません。

ローカルにインストールした spark にある hadoop- JAR のバージョンが何であろうと、次のものが必要です。 まさに のバージョンは同じです。 hadoop-aws と、hadoop-aws がビルドされた aws SDK のバージョンが全く同じであることが必要です。試す mvnrepository をご覧ください。

[解決済み] NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities （s3データをsparkで読み込む際に発生します。

質問

解決方法を教えてください。

関連

[解決済み] Sparkです。CoarseGrainedSchedulerが見つかりませんでした。

[解決済み] GSON JsonObject "Unsupported Operation Exception: null" getAsString

[解決済み] A の値をキーとして Seq[A] を Map[Int, A] に変換する方法は？

[解決済み] ScalaのDSLって何？[クローズド］

[解決済み] Scalaのオブジェクトとクラスの違い

[解決済み】Scalaでリスト内のアイテムを取得する？

[解決済み】Akka Kill vs. Stop vs. Poison Pill?

[解決済み] Build.scala、%および%%の記号の意味

[解決済み] Spark SQLでカラムの降順でソートするには？

[解決済み] データセットにカスタムオブジェクトを格納する方法は？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] Scalaで定数メンバを定義するには？

[解決済み] Spark Implicit $ for DataFrame（データフレーム用暗黙の$）。

[解決済み] TimeoutExceptionが発生した場合、どのような原因が考えられるでしょうか。Sparkで作業しているときに[n秒]後にFuturesがタイムアウトしました[重複]。

[解決済み] Scalaのリターン

[解決済み】Scala 2.8における<:<、<%<、=:=の意味と、それらのドキュメントはどこにあるのか？

[解決済み】ScalaのJavaConvertersとJavaConversionsの違いは何ですか？

[解決済み] 2つのマップをマージし、同じキーの値を合計するための最良の方法？

[解決済み] マクロから匿名クラスのメソッドを持つ構造型を取得する

[解決済み] Scalaの識別子 "implicitly "とは？

[解決済み] Scala：1ステートメントで文字列をファイルに書き込む