なぜこのC++プログラムは信じられないほど速いのですか？

2023-09-02 20:36:54

疑問点

私は、Python、Ruby、JavaScript、および C++ の異なるインタプリタ/コンパイラのパフォーマンスを比較するために、小さなベンチマークを書きました。予想通り、(最適化された) C++ がスクリプト言語より優れていることが判明しましたが、その要因は非常に高いものでした。

結果は以下のとおりです。

sven@jet:~/tmp/js$ time node bla.js              # * JavaScript with node *
0

real    0m1.222s
user    0m1.190s
sys 0m0.015s
sven@jet:~/tmp/js$ time ruby foo.rb              # * Ruby *
0

real    0m52.428s
user    0m52.395s
sys 0m0.028s
sven@jet:~/tmp/js$ time python blub.py           # * Python with CPython *
0

real    1m16.480s
user    1m16.371s
sys 0m0.080s

sven@jet:~/tmp/js$ time pypy blub.py             # * Python with PyPy *
0

real    0m4.707s
user    0m4.579s
sys 0m0.028s

sven@jet:~/tmp/js$ time ./cpp_non_optimized 1000 1000000 # * C++ with -O0 (gcc) *
0

real    0m1.702s
user    0m1.699s
sys 0m0.002s
sven@jet:~/tmp/js$ time ./cpp_optimized 1000 1000000     # * C++ with -O3 (gcc) *
0

real    0m0.003s # (!!!) <---------------------------------- WHY?
user    0m0.002s
sys 0m0.002s

最適化された C++ コードが他のものよりも 3 桁以上速い理由を説明できる人がいたら教えてほしいのですが。

C++ベンチマークは、コンパイル時に結果が事前に計算されるのを防ぐために、コマンドラインパラメータを使用します。

以下に、意味的に同等であるべき、異なる言語ベンチマークのソースコードを配置しました。また、最適化された C++ コンパイラーの出力 (gcc を使用) のアセンブリコードも提供しました。最適化されたアセンブリを見ると、コンパイラーはベンチマーク内の 2 つのループを 1 つにマージしたように見えますが、それでもまだループがあります!

JavaScript。

var s = 0;
var outer = 1000;
var inner = 1000000;

for (var i = 0; i < outer; ++i) {
    for (var j = 0; j < inner; ++j) {
        ++s;
    }
    s -= inner;
}
console.log(s);

Pythonです。

s = 0
outer = 1000
inner = 1000000

for _ in xrange(outer):
    for _ in xrange(inner):
        s += 1
    s -= inner
print s

ルビーです。

s = 0
outer = 1000
inner = 1000000

outer_end = outer - 1
inner_end = inner - 1

for i in 0..outer_end
  for j in 0..inner_end
    s = s + 1
  end
  s = s - inner
end
puts s

C++:

#include <iostream>
#include <cstdlib>
#include <cstdint>

int main(int argc, char* argv[]) {
  uint32_t s = 0;
  uint32_t outer = atoi(argv[1]);
  uint32_t inner = atoi(argv[2]);
  for (uint32_t i = 0; i < outer; ++i) {
    for (uint32_t j = 0; j < inner; ++j)
      ++s;
    s -= inner;
  }
  std::cout << s << std::endl;
  return 0;
}

アセンブリ (上記の C++ コードを gcc -S -O3 -std=c++0x でコンパイルした場合)。

    .file   "bar.cpp"
    .section    .text.startup,"ax",@progbits
    .p2align 4,,15
    .globl  main
    .type   main, @function
main:
.LFB1266:
    .cfi_startproc
    pushq   %r12
    .cfi_def_cfa_offset 16
    .cfi_offset 12, -16
    movl    $10, %edx
    movq    %rsi, %r12
    pushq   %rbp
    .cfi_def_cfa_offset 24
    .cfi_offset 6, -24
    pushq   %rbx
    .cfi_def_cfa_offset 32
    .cfi_offset 3, -32
    movq    8(%rsi), %rdi
    xorl    %esi, %esi
    call    strtol
    movq    16(%r12), %rdi
    movq    %rax, %rbp
    xorl    %esi, %esi
    movl    $10, %edx
    call    strtol
    testl   %ebp, %ebp
    je  .L6
    movl    %ebp, %ebx
    xorl    %eax, %eax
    xorl    %edx, %edx
    .p2align 4,,10
    .p2align 3
.L3:                             # <--- Here is the loop
    addl    $1, %eax             # <---
    cmpl    %eax, %ebx           # <---
    ja  .L3                      # <---
.L2:
    movl    %edx, %esi
    movl    $_ZSt4cout, %edi
    call    _ZNSo9_M_insertImEERSoT_
    movq    %rax, %rdi
    call    _ZSt4endlIcSt11char_traitsIcEERSt13basic_ostreamIT_T0_ES6_
    popq    %rbx
    .cfi_remember_state
    .cfi_def_cfa_offset 24
    popq    %rbp
    .cfi_def_cfa_offset 16
    xorl    %eax, %eax
    popq    %r12
    .cfi_def_cfa_offset 8
    ret
.L6:
    .cfi_restore_state
    xorl    %edx, %edx
    jmp .L2
    .cfi_endproc
.LFE1266:
    .size   main, .-main
    .p2align 4,,15
    .type   _GLOBAL__sub_I_main, @function
_GLOBAL__sub_I_main:
.LFB1420:
    .cfi_startproc
    subq    $8, %rsp
    .cfi_def_cfa_offset 16
    movl    $_ZStL8__ioinit, %edi
    call    _ZNSt8ios_base4InitC1Ev
    movl    $__dso_handle, %edx
    movl    $_ZStL8__ioinit, %esi
    movl    $_ZNSt8ios_base4InitD1Ev, %edi
    addq    $8, %rsp
    .cfi_def_cfa_offset 8
    jmp __cxa_atexit
    .cfi_endproc
.LFE1420:
    .size   _GLOBAL__sub_I_main, .-_GLOBAL__sub_I_main
    .section    .init_array,"aw"
    .align 8
    .quad   _GLOBAL__sub_I_main
    .local  _ZStL8__ioinit
    .comm   _ZStL8__ioinit,1,1
    .hidden __dso_handle
    .ident  "GCC: (Ubuntu 4.8.2-19ubuntu1) 4.8.2"
    .section    .note.GNU-stack,"",@progbits

どのように解決するのですか？

オプティマイザは、内側のループとそれに続く行が無駄であることを突き止め、それを削除しました。しかし残念ながら、外側のループを削除することはできませんでした。

node.js の例は最適化されていない C++ の例より高速であることに注意してください。 V8 (node の JIT コンパイラ) がループの少なくとも 1 つを何とか除去したことを示しています。ただし、（他の JIT コンパイラーと同様に）最適化とプロファイルガイド付き再最適化の機会をコストに対してバランスさせる必要があるため、その最適化にはある程度のオーバーヘッドがあります。

なぜこのC++プログラムは信じられないほど速いのですか？

疑問点

どのように解決するのですか？

関連

[解決済み】エラー：不完全な型へのメンバーアクセス：前方宣言の

[解決済み] using namespace std;」はなぜバッドプラクティスだと言われるのですか？

[解決済み] B "の印刷が "#"の印刷より劇的に遅いのはなぜですか？

[解決済み] Python 3で「1000000000000000 in range(1000000000000001)」はなぜ速いのですか？

[解決済み] 要素ごとの加算は、結合ループよりも分離ループの方がはるかに高速なのはなぜですか？

[解決済み] なぜGCCはaaaaaを(aaa)(aa*a)に最適化しないのでしょうか？

[解決済み] なぜテンプレートはヘッダーファイルでしか実装できないのですか？

[解決済み] 0.1fを0にすると、なぜ10倍もパフォーマンスが落ちるのですか？

[解決済み] Collatz予想の検証を行うC++のコードは、なぜ手書きのアセンブリよりも高速に動作するのでしょうか？

[解決済み] 8192個の要素にループをかけると、プログラムが遅くなるのはなぜですか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] テスト

[解決済み】コンストラクターでのエラー：識別子を期待されますか？

[解決済み】getline()が何らかの入力の後に使用されると動作しない【重複あり

[解決済み】'cout'は型名ではない

[解決済み] 非常に基本的なC++プログラムの問題 - バイナリ式への無効なオペランド

[解決済み】#include<iostream>は存在するのですが、「識別子 "cout "は未定義です」というエラーが出ます。なぜですか？

[解決済み】ファイルから整数を読み込んで配列に格納する C++ 【クローズド

[解決済み] 非静的データメンバの無効な使用

[解決済み】エラー：不完全な型へのメンバーアクセス：前方宣言の

[解決済み】エラー：free(): 次のサイズが無効です(fast)。