[解決済み] Sagemakerノートブックインスタンスの推奨タイプ
質問内容
私はかなり大きなデータセットでmlモデルを実行する予定です。約15GB、200カラム、430万行のデータセットです。AWS Sagemakerでこのようなデータセットに最適なNotebookインスタンスタイプは何でしょうか?
どのように解決しますか?
SageMaker ホスト型ノートブックタイプの選択について。
データの前処理をすべてノートブック上のインメモリで行う予定ですか、それとも外部サービスでETLをオーケストレーションする予定ですか?
データセットをノートブックインスタンスのメモリにロードして探索/前処理を行う場合、主なボトルネックは、インスタンスがデータセットに十分なメモリを持つかどうかです。この場合、少なくとも16GBのタイプ( .xlarge ) (MLインスタンスタイプの完全なリスト こちら ). さらに、前処理にどれだけ計算を要するか、また、前処理の完了時間をどうするかによって、計算を最適化したインスタンス ( c4, c5 を使用することで、高速化することができます。
研修の仕事について、具体的に。
Amazon SageMaker SDK を使用すると、トレーニングデータをロードしてトレーニングクラスタに配布し、トレーニングジョブをホストされたノートブックが実行されているインスタンスから完全に分離することが可能になります。
トレーニングに理想的なインスタンスタイプを見つけることは、選択したアルゴリズムやトレーニングジョブがメモリ、CPU、IOのどれに拘束されるかによります。データセットはS3からトレーニングクラスタにロードされるので、ホストされたノートブック用に選択したインスタンスはトレーニングジョブの速度に関係しません。
大きく分けて SageMakerノートブックに関しては、ノートブックを外部サービス(前処理にAWS GlueやAmazon EMR、学習にSageMaker、ストレージにS3など)に呼び出すパペッティアやオーケストレーターとして使用することがベストプラクティスです。これらは、実験パイプラインの構築やキックオフのための一時的な計算/ストレージとして扱うのがベストです。
これにより、計算機、ストレージ、ホスティングのリソースやサービスをワークロードの需要に合わせてより密接に組み合わせることができ、潜在的なリソースや未使用のリソースにお金を払う必要がなくなるため、最終的に最高の利益を得ることができます。
関連
-
Pythonコンテナのための組み込み汎用関数操作
-
[解決済み】ValueError: pickleプロトコルがサポートされていません。3、python2 pickleはpython3 pickleでダンプしたファイルを読み込むことができない?
-
[解決済み] モジュールの関数名(文字列)を使って、モジュールの関数を呼び出す。
-
[解決済み] オブジェクトの種類を決定しますか?
-
[解決済み] インスタンスのクラス名を取得する?
-
[解決済み] Pandas DataFrameの行数を取得する方法は?
-
[解決済み] 一行ずつ追加してPandas Dataframeを作成する
-
[解決済み] pandasを使った "大量データ "ワークフロー【終了しました
-
[解決済み] Python の open() はファイルが存在しない場合、ファイルを作成しない
-
[解決済み] SQLAlchemy: flush() と commit() の違いは何ですか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
PythonはWordの読み書きの変更操作を実装している
-
pythonサイクルタスクスケジューリングツール スケジュール詳解
-
パッケージングツールPyinstallerの使用と落とし穴の回避
-
任意波形を生成してtxtで保存するためのPython実装
-
風力制御におけるKS原理を深く理解するためのpythonアルゴリズム
-
Pythonの画像ファイル処理用ライブラリ「Pillow」(グラフィックの詳細)
-
[解決済み】「RuntimeError: dictionary changed size during iteration」エラーを回避する方法とは?
-
[解決済み】numpy: true_divide で無効な値に遭遇
-
[解決済み】IndexError: invalid index to scalar variableを修正する方法
-
[解決済み】SyntaxError: デフォルト以外の引数がデフォルトの引数に続く