1. ホーム
  2. python

[解決済み] Python シェルで pyspark をインポートする

2022-07-23 01:40:35

質問

これは、他のフォーラムでの他の人の質問のコピーで、回答されなかったので、同じ問題があるので、ここで再質問しようと思いました。 (参照 http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 )

私のマシンには Spark が適切にインストールされており、python インタープリターとして ./bin/pyspark を使用した場合、エラーなしで pyspark モジュールを使用して python プログラムを実行することが可能です。

しかし、通常のPythonシェルを実行しようとすると、pysparkモジュールをインポートしようとしたときに、このエラーが発生します。

from pyspark import SparkContext

と書いてあり

"No module named pyspark".

どうすればこれを修正できますか? Pythonにpysparkのヘッダー/ライブラリなどを指し示すために設定する必要がある環境変数はありますか? 私のスパークのインストールが/spark/である場合、どのpysparkのパスを含める必要がありますか? または、pysparkプログラムはpysparkインタプリタからしか実行できないのでしょうか?

どのように解決するのですか?

pyspark binがpythonをロードし、自動的に正しいライブラリパスをロードしていることがわかりました。 チェックアウト $SPARK_HOME/bin/pyspark :

export SPARK_HOME=/some/path/to/apache-spark
# Add the PySpark classes to the Python path:
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH

この行を .bashrc ファイルに追加すると、モジュールが正しく検出されるようになりました!