1. ホーム
  2. テンソルフロー

tensorflow-GPUのグラフィックカードのメモリ不足の問題

2022-02-28 01:29:13

2020-03-02 10:12:59.069121: I tensorflow/core/platform/cpu_feature_guard.cc:141]. お使いの CPU は、この TensorFlow バイナリが使用するようにコンパイルされていない命令をサポートしています。AVX AVX2



2020-03-02 10:13:00.096254: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1433]. プロパティを持つデバイス0が見つかりました。



name: GeForce GTX 1050 Ti major: 6 minor: 1 memoryClockRate(GHz): 1.62



pciBusID: 0000:01:00.0



総メモリ量 4.00GiB freeMemory: 3.30GiB



2020-03-02 10:13:00.102577: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1512] を実行しました。表示可能な gpu デバイスを追加します。0



2020-03-02 10:13:00.527763: I tensorflow/core/common_runtime/gpu/gpu_device.cc:984] です。デバイス インターコネクト StreamExecutor、強度 1 のエッジ行列を使用します。



2020-03-02 10:13:00.531075: I tensorflow/core/common_runtime/gpu/gpu_device.cc:990]. 0



2020-03-02 10:13:00.532523: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1003]. 0: N



2020-03-02 10:13:00.534046: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1115] を実行しました。TensorFlowデバイスを作成しました (/job:localhost/replica:0/ task:0/device:GPU:0 with 3007 MB memory) -> physical GPU (device: 0, name: GeForce GTX 1050 Ti, pci bus id: 0000:01:00.0, compute capability: 6.1).



デバイスのマッピングです。



/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: GeForce GTX 1050 Ti, pci bus id: 0000:01:00.0, compute capability: 6.1



2020-03-02 10:13:00.541463: I tensorflow/core/common_runtime/direct_session.cc:317] です。デバイスマッピングを行いました。



/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: GeForce GTX 1050 Ti, pci bus id: 0000:01:00.0, compute capability: 6.1

random_uniform/RandomUniform: (RandomUniform)です。/job:localhost/replica:0/task:0/device:GPU:0となります。



2020-03-02 10:13:00.548548: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform/RandomUniform: (RandomUniform)/job:localhost/replica:0/task:0/device:GPU:0。



random_uniform/sub: (Sub)です。/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.552009: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform/sub: (サブ)/job:localhost/replica:0/task:0/device:GPU:0



random_uniform/mul: (Mul)です。/job:localhost/レプリカ:0/タスク:0/デバイス:GPU:0



2020-03-02 10:13:00.557408: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform/mul: (Mul)/job:localhost/replica:0/task:0/デバイス:GPU:0



random_uniformです。(追加)です。/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.572255: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform: (追加)/job:localhost/replica:0/task:0/デバイス:GPU:0



transpose:(トランスポーズ)。/job:localhost/replica:0/task:0/device:GPU:0となります。



2020-03-02 10:13:00.585283: I tensorflow/core/common_runtime/placer.cc:1059] transpose: (Transpose)/job:localhost/replica:0/task:0/ device:GPU:0。



MatMul: (MatMul)です。/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.601770: I tensorflow/core/common_runtime/placer.cc:1059]. MatMul: (MatMul)/job:localhost/replica:0/task:0/device:GPU :0



サム (Sum)です。/job:localhost/replica:0/task:0/device:GPU:0となります。



2020-03-02 10:13:00.608635: I tensorflow/core/common_runtime/placer.cc:1059]. Sumです。(Sum) /job:localhost/replica:0/task:0/device:GPU:0



random_uniform/shape。(Const)です。/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.622041: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform/shape: (Const)/job:localhost/replica:0/task :0/device:GPU:0を実行。



random_uniform/min:(Const)。/job:localhost/replica:0/task :0/device:GPU:0



2020-03-02 10:13:00.636870: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform/min: (Const)/job:localhost/replica:0/task:0/device:GPU:0。



random_uniform/max: (Const)です。/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.653088: I tensorflow/core/common_runtime/placer.cc:1059] random_uniform/maxです。(Const)/job:localhost/replica:0/task:0 /device:GPU:0



transpose/perm: (Const)です。/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.657859: I tensorflow/core/common_runtime/placer.cc:1059] transpose/perm: (Const)/job:localhost/replica:0/task:0/デバイス:GPU:0



Const: (Const)です。/job:localhost/replica:0/task:0/device:GPU:0となります。



2020-03-02 10:13:00.672797: I tensorflow/core/common_runtime/placer.cc:1059]. コンスタントです。(Const)/job:localhost/replica:0/task:0/device:GPU:0



2020-03-02 10:13:00.698245: I tensorflow/stream_executor/dso_loader.cc:152] CUDA library cublas64_100.dll をローカルに正常にオープンしました。



2020-03-02 10:13:11.070585: W tensorflow/core/common_runtime/bfc_allocator.cc:267]. Allocator (GPU_0_bfc) ran out of memory trying to allocate 現在のアロケーションサマリーは以下の通りです。



2020-03-02 10:13:11.081488: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. ビン(256)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.090922: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。ビン(512)です。総チャンク数: 0, 使用中のチャンク数: 0B はチャンクに割り当てられています。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.100314: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。ビン(1024)です。総チャンク数: 1, 使用中のチャンク数: 1.3KiB がチャンクに割り当てられています。ビンで使用中の1.3KiB。1.0KiB クライアント要求が bin で使用されています。



2020-03-02 10:13:11.111221: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. ビン(2048)です。総チャンク数: 0, 使用中のチャンク数: 0B 割り当て済み 0B 使用中のビン。0B クライアント要求が bin で使用中です。



2020-03-02 10:13:11.117813: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。ビン(4096)です。総チャンク数: 0, 使用中のチャンク数: 0B 割り当て済み 0B 使用中のビン。0B クライアント要求が bin で使用中です。



2020-03-02 10:13:11.124073: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. ビン(8192)。総チャンク数: 0, 使用中のチャンク数: 0B 割り当て済み 0B ビン内で使用中 0B クライアント要求が bin で使用中です。



2020-03-02 10:13:11.130266: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. ビン(16384)。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.138576: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。ビン(32768)。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.154680: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。Bin (65536)。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.171067: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。Bin (131072)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.186765: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。Bin (262144)です。総チャンク数: 0, 使用中のチャンク数: 0B 割り当て済み 0B bin で使用中。0B クライアント要求が bin で使用中です。



2020-03-02 10:13:11.203541: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. ビン(524288)。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。binで0Bのクライアント要求が使用中です。



2020-03-02 10:13:11.219648: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (1048576)。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.235084: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. ビン(2097152)。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.251084: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (4194304)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.266306: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (8388608)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.274447: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (16777216)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.290123: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (33554432)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられています。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.306677: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (67108864): 総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられました。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.322973: I tensorflow/core/common_runtime/bfc_allocator.cc:597] です。Bin (134217728)です。総チャンク数: 0, 使用中のチャンク数: 0B がチャンクに割り当てられています。ビンで使用中の0B。bin で 0B クライアント要求が使用中です。



2020-03-02 10:13:11.342718: I tensorflow/core/common_runtime/bfc_allocator.cc:597]. Bin (268435456)です。総チャンク数: 2, 使用中のチャンク数: 2.94GiB がチャンクに割り当てられています。binで1.49GiBが使用されています。1.49GiB クライアント要求が bin で使用中です。



2020-03-02 10:13:11.367066: I tensorflow/core/common_runtime/bfc_allocator.cc:613]. 1.49GiB の Bin は 256.00MiB, Chunk State でした。



2020-03-02 10:13:11.371126: I tensorflow/core/common_runtime/bfc_allocator.cc:619]. サイズ:1.45GiB|要求サイズ:0B|in_use: 0, prev: Size: 1.49GiB | Requested Size: 1.49GiB | in_use: 1



2020-03-02 10:13:11.383105: I tensorflow/core/common_runtime/bfc_allocator.cc:632]. サイズ1280の0000000902C00000のチャンク



2020-03-02 10:13:11.396344: I tensorflow/core/common_runtime/bfc_allocator.cc:632] です。0000000902C00500 のチャンクのサイズは 1600000000 です。



2020-03-02 10:13:11.401904: I tensorflow/core/common_runtime/bfc_allocator.cc:632] です。サイズ 1553695744 の 00000009621E1500 でフリーです。



2020-03-02 10:13:11.405850: I tensorflow/core/common_runtime/bfc_allocator.cc:638] です。使用中のチャンクをサイズ別にまとめました。



2020-03-02 10:13:11.416262: I tensorflow/core/common_runtime/bfc_allocator.cc:641]. 1 サイズ 1280 のチャンク、合計 1.3KiB



2020-03-02 10:13:11.419257: I tensorflow/core/common_runtime/bfc_allocator.cc:641] です。1 チャンク サイズ 1600000000 合計 1.49GiB



2020-03-02 10:13:11.429068: I tensorflow/core/common_runtime/bfc_allocator.cc:645] です。使用中のチャンクの合計: 1.49GiB



2020-03-02 10:13:11.437217: I tensorflow/core/common_runtime/bfc_allocator.cc:647] です。統計情報です。



リミット:3153697177



使用中: 1600001280



MaxInUse: 1600001280



NumAllocs: 2



MaxAllocSize: 1600000000

2020-03-02 10:13:11.478396: W tensorflow/core/common_runtime/bfc_allocator.cc:271] です。*************************************************** _________________________________________________



2020-03-02 10:13:11.486216: W tensorflow/core/framework/op_kernel.cc:1401] です。OP_REQUIRESはtranspose_op.cc:199で失敗しました。リソースを使い果たしました。OOM when allocating tensor with shape[20000,20000] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc(アロケータ GPU_0_bfc による shape[20000,20000] and type float のテンソル割り当て時



トレースバック (最も最近の呼び出し):



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow﹑ython﹑clientsession.py" line 1334, in _do﹑call



    return fn(*args)



  File "D:\ProgramFiles-Anaconda3╱envs╱tensorflow-gpu╱libsite-packagesⒸpythonⒸsession.py", line 1319, in _ run_fn



    オプション, feed_dict, fetch_list, target_list, run_metadata)



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow십session.py", line 1407, in _ call_tf_sessionrun



    run_metadata)



tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[20000,20000] and type float on /job: localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc



         [[{ <未定義 {ノードの転置}}]]。



ヒント:OOMが発生したときに、割り当てられたテンソルのリストを見たい場合は、RunOptionsにreport_tensor_allocations_upon_oomを追加して、現在の割り当て情報を表示させます。

         [[{ <未定義 {ノードサム}}]]。



ヒント:OOMが発生したときに、割り当てられたテンソルのリストを見たい場合は、RunOptionsにreport_tensor_allocations_upon_oomを追加して、現在の割り当て情報を表示させます。





上記例外処理中に、別の例外が発生しました。

トレースバック (最も最近の呼び出し):



  ファイル "untitled1.py", 行 27, in <module>



    result = session.run(sum_operation)



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow쇼session.py", line 929, in run



    run_metadata_ptr)



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow﹑ython﹑cientsession.py", line 1152, in _ run



    feed_dict_tensor, オプション, run_metadata)



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow﹑python﹑cientsession.py", line 1328, in _do﹑run



    run_metadata)



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow십python십session.py", 行 1348, in _do _call



    raise type(e)(node_def, op, message)



tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[20000,20000] and type float on /job: localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc



         [[node transpose (defined at untitled1.py:22)]].



ヒント:OOMが発生したときに、割り当てられたテンソルのリストを見たい場合は、RunOptionsにreport_tensor_allocations_upon_oomを追加して、現在の割り当て情報を表示します。

         [[node Sum (defined at untitled1.py:23)]].



ヒント:OOMが発生したときに、割り当てられたテンソルのリストを見たい場合は、RunOptionsにreport_tensor_allocations_upon_oomを追加して、現在の割り当て情報を表示します。





で定義されている op 'transpose' が原因です。



  ファイル "untitled1.py", 行 22, in <module>



    dot_operation = tf.matmul(random_matrix, tf.transpose(random_matrix))



  ファイル "D:D:ProgramFiles/Anaconda3/envs/tensorflow-gpu/libsite-packages/tensorflow/python_ops_array.py"、行 1666、in transpose



    ret = transpose_fn(a, perm, name=name)



  ファイル "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow﹑libsite-packages﹑python﹑gen_array_ops.py", line 10238, in transpose



    トランスポーズ", x=x, perm=perm, name=name)



  File "D:³ Files³ Anaconda3³ ³envs³tensorflow-gpu³libsite-packages³tensorflow³python³framework³op_def_library", line 788, in _apply_op_helper



    op_def=op_def)



  File "D:\ProgramFiles﹑Anaconda3﹑envs﹑tensorflow-gpu﹑libsite-packages﹑tensorflow﹑ python﹑util﹑deprecation.py", line 507, in new_func



    return func(*args, **kwargs)



  File "D:\ProgramFiles-Anaconda3╱envs╱tensorflow-gpu╱libsite-packagesⒸpythonⒸframework.ops", line 3300, in create_op



    op_def=op_def)



  File "D:\ProgramFiles-Anaconda3³³envs³³tensorflow-gpu³³libsite-packages³³tensorflow³³python³³framework.ops" line 1801, in __ init__



    self._traceback = tf_stack.extract_stack()

ResourceExhaustedError (トレースバックは上記を参照)。OOM when allocating tensor with shape[20000,20000] and type float on /job:localhost/replica:0/ task:0/device:GPU:0 by allocator GPU_0_bfc



         [[node transpose (defined at untitled1.py:22)]].



ヒント:OOMが発生したときに、割り当てられたテンソルのリストを見たい場合は、RunOptionsにreport_tensor_allocations_upon_oomを追加して、現在の割り当て情報を表示します。

         [[node Sum (defined at untitled1.py:23)]].



ヒント:OOMが発生したときに、割り当てられたテンソルのリストを見たい場合は、RunOptionsにreport_tensor_allocations_upon_oomを追加して、現在の割り当て情報を表示します。

GTX1050TIノートPCのグラフィックカードで4Gのメモリを持っていますが、tensorflow-GPUを実行すると、使用中のメモリは1.49Gしかないと表示されますが、なぜ実行時に3.3Gすべて使用されていないのでしょうか。10000*10000のデータは問題なく、正常に実行できるのですが、2000*20000のデータはエラーを報告します。ネットワークの神様に一か八かご指摘をお願いしたいところです どうもありがとうございました~~~~。