• GPUプログラミング、CUDAかOpenCLか?[クローズド]

    質問 終了 . この質問はもっと必要です を重視します。 . 現在、回答は受け付けていません。 この質問を改善したいですか? 質問を更新して、1つの問題だけに焦点を当てるようにします。 この投稿を編集する .

    2023-10-20 03:20:26
  • [解決済み] CUDAにおけるメモリ合体とは何ですか?

    質問 CUDAのグローバルメモリトランザクションで、quot;coalesced"とは何でしょうか。CUDAのガイドを読んでもよくわかりませんでした。どうすればいいのでしょうか?CUDAプログラミングガイドの行列の例で、行列の行ごとにアクセスすることを"coalesced"といい、col.ごとにアクセスすることをcoalescedといいますが、どちらが正しいのでしょうか? どちらが正しいです

    2023-06-26 07:11:04
  • [解決済み] nvidia-smi Volatile GPU-Utilization の説明?

    質問 私は、以下のことを知っています。 nvidia-smi -l 1 が1秒ごとにGPU使用率を出すことは知っています(以下同様)。しかし、私は何について説明することを感謝します。 Volatile GPU-Util の本当の意味について説明をお願いします。総SM数に対する使用SM数なのか、占有率なのか、それとも何か他のものなのでしょうか? +--------------------

    2023-05-06 12:49:45
  • [解決済み] ストリーミングマルチプロセッサ、ブロックとスレッド(CUDA)

    質問 CUDA コア、ストリーミング マルチプロセッサ、およびブロックとスレッドの CUDA モデルの関係はどうなっていますか。 何が何にマッピングされ、何がどのように並列化されるのか。また、ブロック数とスレッド数のどちらを最大化するのが効率的なのか。 私の現在の理解では、マルチプロセッサごとに 8 つの Cuda コアがあり、すべての Cuda コアは一度に 1 つの Cuda

    2023-04-19 10:25:36
  • [解決済み] NVIDIAとAMDの比較:GPGPUパフォーマンス

    質問 両方のコーディングの経験がある方にお聞きしたいです。私自身は、NVIDIA での経験しかありません。 NVIDIA CUDA は、競合他社よりもずっと人気があるようです。(このフォーラムの質問タグを数えただけで、「cuda」は「opencl」を 3:1 上回り、「nvidia」は「ati」を 15:1 上回り、「ati-stream」のタグはまったくありません)。 一方、Wik

    2022-12-21 03:47:20
  • [解決済み] グローバル機能とデバイス機能の違い

    質問 の違いを説明できる人はいますか? __global__ と __device__ ? どのような場合に __device__ を使うべきか、そしていつ __global__ ?. どのように解決するのですか? グローバル関数は、カーネルとも呼ばれます。これは、CUDA カーネル コールのセマンティクスを使用してホスト側から呼び出すことができる関数です ( <

    2022-07-03 13:23:54
  • [解決済み] CUDAのグリッド寸法、ブロック寸法、スレッド構成を理解する(簡単な説明)【終了しました。

    質問 閉店 . この質問はもっと必要です フォーカス . 現在、回答は受け付けておりません。 <パス この質問を改善したいですか? 問題を更新して、1つの問題だけに焦点を当てるようにします。 この投稿を編集する .

    2022-04-24 16:16:36
  • [解決済み] nvccとNVIDIA-smiが示す異なるCUDAのバージョン

    質問 を実行して表示されるCUDAのバージョンが異なるため、非常に混乱しています。 which nvcc と nvidia-smi . 私のubuntu 16.04には、cuda9.2とcuda10の両方がインストールされています。今、私はPATHがcuda9.2を指すように設定しました。そのため、以下を実行すると $ which nvcc /usr/local/cuda-9.2/bi

    2022-04-19 04:07:41
  • [解決済み】DockerコンテナからGPUを使用する?

    質問 dockerコンテナ内からGPUを使用する方法を探しています。 コンテナは任意のコードを実行するので、特権モードは使いたくありません。 何かヒントがあれば教えてください。 以前の調査から、私は以下のことを理解しました。 run -v および/またはLXC cgroup ということだったのですが、どうすればいいのかよくわかりません。 どのように解決するのですか?

    2022-04-16 05:52:14
  • CUDA (V) deviceQueryを使ったGPUのプロパティ

    <パス CUDAがインストールされた後、DeviceQueryを使用してGPU関連のプロパティを見ることで、GPUをある程度理解し、将来のCUDAプログラミングに役立てることができます。 #include "cuda_runtime.h" #include "device_launch_parameters.h" #include The code starts with c

    2022-03-15 06:58:51
  • [解決済み] CUDAバージョンの取得方法を教えてください。

    質問 インストールされているCUDAのバージョンを確認するための簡単なコマンドやスクリプトはありますか? インストールディレクトリの下に4.0のマニュアルがありましたが、実際にインストールされているバージョンなのかどうかわかりません。 解決方法は? Jaredがコメントで述べているように、コマンドラインからです。 nvcc --version (または /usr/loc

    2022-03-14 19:37:10
  • cudaMemcpyとcudaMemcpyAsyncの違い

    <スパン cudaMemcpyが同期で、cudaMemcpyAsyncが非同期であることは簡単に理解できます。具体的な理解には、以下の概念を明確にする必要があります。 1. CUDA ストリーム cudaにおけるストリームとは、ホストコードから発行されデバイス上で実行される一連の操作であり、順次実行を保証する必要があります。異なるストリーム内のオペレーションは、クロス実

    2022-03-01 23:19:26
  • CUDAアトミック操作

    <スパン CUDAのアトミック演算は、変数に対する"read-modify-write"の3つの演算の実行の最小単位と理解でき、より小さな部分に分解できず、その実行中に他の並列スレッドが変数に対して読み書きをすることを許さないものである。この仕組みに基づき、アトミック演算は複数のスレッドで共有される変数の相互排他的保護を実現し、変数に対するいかなる単一演算の結果も正しいことを保証する。

    2022-03-01 04:58:26
  • CUDA プログラミングのエラー処理

    <パス 転載先 CUDAプログラミングのエラー処理 エラー処理について CPUベースのプログラミングであれ、GPUベースのプログラミングであれ、APIを呼び出してプログラムを実行したときにエラーが発生すると、理論的な結果に反してプログラムが実行されたり、プログラムがクラッシュしたりすることがあります。そのため、プログラミングにおいて、エラーの検出とエラー処理は非常

    2022-03-01 04:31:57
  • MatlabからCUDAへの呼び出しの概要(Windows, Ubuntu)

    計算の高速化のために、matlabの計算の一部をCUDAで実装し、matlabで呼び出すプロジェクトが必要です 計算には多くのパラメータが必要なため、CUDAに転送するのは手間なので、Matlabでmatファイルに格納し、CUDAのc++コードでmatファイルを読み込んでいます。 最終的には,Matlabのコードの中でmexw64ファイル(基本的にはDLLで,Linuxプラットフォー

    2022-02-13 14:46:20
  • CUDAドライバのバージョンが、CUDAランタイムのバージョンに対して不足している問題

    1. After installing CUDA on Linux and running deviceQuery, I had the following problem, and I looked for answers on the Internet that gave multiple solutions, but nothing matched my problem deviceQue

    2022-02-12 13:16:10
  • CUDAのcudaMalloc()のパラメータを理解する方法

    ポインタやアドレスに慣れている子供たちは、この概念をより簡単に理解することができます。より多くの人にcudaMallocのパラメータを理解してもらうために、この記事は読者のために書かれたものです。 まずこのランタイム関数のプロトタイプを見ます。 cudaError_t cudaMalloc (void **devPtr, size_t size ); この関数の戻り値

    2022-02-12 10:44:57
  • cudaMallocとcudaMallocPitchの秘密を教えます。

     からの許可を得て転載しています。 http://blog.csdn.net/bendanban/article/details/7646306 タイトルにある2つの関数のテストに興味があったのですが、アライメントアクセスデータを満たすために、通常はcudamallocPitchを使うことが多く、その方が高い効率をもたらすと考えています。あ、ここに自分のマシンで実行できるテ

    2022-02-12 09:07:18