1. ホーム
  2. python

[解決済み] Sagemakerノートブックインスタンスの推奨タイプ

2022-02-02 03:58:45

質問内容

私はかなり大きなデータセットでmlモデルを実行する予定です。約15GB、200カラム、430万行のデータセットです。AWS Sagemakerでこのようなデータセットに最適なNotebookインスタンスタイプは何でしょうか?

どのように解決しますか?

SageMaker ホスト型ノートブックタイプの選択について。

データの前処理をすべてノートブック上のインメモリで行う予定ですか、それとも外部サービスでETLをオーケストレーションする予定ですか?

データセットをノートブックインスタンスのメモリにロードして探索/前処理を行う場合、主なボトルネックは、インスタンスがデータセットに十分なメモリを持つかどうかです。この場合、少なくとも16GBのタイプ( .xlarge ) (MLインスタンスタイプの完全なリスト こちら ). さらに、前処理にどれだけ計算を要するか、また、前処理の完了時間をどうするかによって、計算を最適化したインスタンス ( c4, c5 を使用することで、高速化することができます。


研修の仕事について、具体的に。

Amazon SageMaker SDK を使用すると、トレーニングデータをロードしてトレーニングクラスタに配布し、トレーニングジョブをホストされたノートブックが実行されているインスタンスから完全に分離することが可能になります。

トレーニングに理想的なインスタンスタイプを見つけることは、選択したアルゴリズムやトレーニングジョブがメモリ、CPU、IOのどれに拘束されるかによります。データセットはS3からトレーニングクラスタにロードされるので、ホストされたノートブック用に選択したインスタンスはトレーニングジョブの速度に関係しません。


大きく分けて SageMakerノートブックに関しては、ノートブックを外部サービス(前処理にAWS GlueやAmazon EMR、学習にSageMaker、ストレージにS3など)に呼び出すパペッティアやオーケストレーターとして使用することがベストプラクティスです。これらは、実験パイプラインの構築やキックオフのための一時的な計算/ストレージとして扱うのがベストです。

これにより、計算機、ストレージ、ホスティングのリソースやサービスをワークロードの需要に合わせてより密接に組み合わせることができ、潜在的なリソースや未使用のリソースにお金を払う必要がなくなるため、最終的に最高の利益を得ることができます。