Cカーネル用のCUDAデバイスの処理トレードオフを定量化する方法は？

debugcn 投稿 Dev

Gearoidマーフィー：

最近、コアの数が3倍になったことでCUDAコードのパフォーマンスが大幅に向上することを期待して、GTX480からGTX680にアップグレードしました。恐ろしいことに、GTX680でメモリを集中的に使用するCUDAカーネルの実行速度が30〜50％遅いことがわかりました。

これは厳密にはプログラミングの問題ではありませんが、さまざまなデバイスでのCUDAカーネルのパフォーマンスに直接影響することを理解しています。誰でもCUDAデバイスの仕様と、それらを使用してCUDA Cカーネルでのパフォーマンスを推定する方法を理解できますか？

ロジャーダール：

質問に対する正確な回答ではありませんが、GK104（Kepler、GTX680）とGF110（Fermi、GTX580）のパフォーマンスを理解するのに役立つ可能性があるいくつかの情報：

フェルミでは、コアは残りのロジックの2倍の周波数で実行されます。ケプラーでは、同じ周波数で実行されます。フェルミと比較してリンゴ同士の比較をもっと行いたい場合、ケプラーのコア数は事実上半分になります。したがって、GK104（ケプラー）は1536/2 = 768の「Fermi相当のコア」となります。これは、GF110（Fermi）の512コアよりも50％多いだけです。

トランジスタ数を見ると、GF110には30億個、GK104には35億個のトランジスタがあります。したがって、Keplerのコア数は3倍ですが、トランジスタの数はわずかに多くなっています。したがって、Keplerの「Fermi相当コア」はFermiよりも50％だけ多いだけでなく、これらの各コアはFermiのコアよりもはるかに単純でなければなりません。

したがって、これらの2つの問題は、多くのプロジェクトがKeplerへの移植時に速度が低下する理由を説明していると考えられます。

さらに、GK104はグラフィックスカード用に作成されたKeplerのバージョンであり、スレッド間の連携がFermiよりも遅くなるように調整されています（そのような連携はグラフィックスにとってそれほど重要ではないため）。上記の事実を考慮した後の潜在的な潜在的なパフォーマンスの向上は、これによって打ち消される可能性があります。

また、倍精度浮動小数点のパフォーマンスの問題もあります。Teslaカードで使用されるGF110のバージョンは、単精度の1/2のパフォーマンスで倍精度浮動小数点を実行できます。チップがグラフィックスカードで使用される場合、倍精度のパフォーマンスは人工的に単精度の1/8に制限されますが、これはGK104の1/24倍精度のパフォーマンスよりもはるかに優れています。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-04-2

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Cカーネル用のCUDAデバイスの処理トレードオフを定量化する方法は？

Cカーネル用のCUDAデバイスの処理トレードオフを定量化する方法は？

Owinでデフォルトの未処理の例外出力をオーバーライドする方法は？

C ++ 98、C ++ 11のクロスコンパイル可能なコードでオーバーライドを処理するエレガントな方法は？

非同期を処理し、デフォルトのオーバーライドで待機する方法

バットファイルのスペースを処理する方法は？

datatablesサーバー処理を使用してテーブル列のデータをフォーマット/カスタマイズする方法は？

フェイルオーバートランスポートでActivemqの最大フレームサイズの例外を処理する方法

.MOVファイルのオーディオをバッチ処理する方法は？

オフライン時にローカルのmongodbデータベースを使用し、オンライン時にリモートのmongodbサーバーに同期するmeteorアプリを処理するにはどうすればよいですか？

モデルにフィードするためのIDの文字列を含むオブジェクトタイプデータを処理する方法は？

4.2.0Linuxカーネル用のBlackMagicドライバーをインストールする方法

Camelでフェイルオーバーロードバランサーの障害を処理する方法

ノードとドッカー-バベルまたはタイプスクリプトのビルドを処理する方法？

このテーブルオーバーフローを処理する方法は？

Rのデータフレームで文字タイプの空のレコードを処理する方法は？

Wagtail：デフォルトのImageEmbedHandlerをオーバーライドする方法は？

オブジェクトの破棄でネストされたデフォルトパラメータを処理する方法は？

バックエンドでPUT httpリクエストのオプションフィールドを処理する最良の方法は何ですか

カーネルアップデートでビデオドライバを再インストールする必要があるのはなぜですか？

カーネルアップデートでビデオドライバを再インストールする必要があるのはなぜですか？

課題：データベースからのデバイスユーザー/プロファイル/アカウントの削除を処理するための最良の方法は？

我々は、複数のスレッドが個々のファイルのデータを処理するために使用しながら、順次春のバッチを使用して複数のファイルを処理することができますか..？

「デフォルトパラメータのオーバーライド」を処理する小さなコードのリファクタリング

デフォルトのActiveRecordジェネレーターをオーバーライドする

Laravelコードカバレッジ:デフォルトのBroadcastServiceProviderをテストする方法は?

Bootstrapのデフォルトのcssスタイルルールをオーバーライドする方法

スタックドライバーログをローカル処理用のファイルにエクスポートするにはどうすればよいですか？

デフォルトのファイルマネージャー（nautilus）を有効にしてデスクトップアイコンを処理する方法

テンプレートカーネル関数のアドレスをCUDA関数に渡す方法は？

C＃でジェネリック型のプライベート静的フィールドを処理する良い方法はありますか？