Ideone.com

fork download

copy

#include <benchmark/benchmark.h>
#include <vector>
#include <random>
 
using namespace std;
 
const int MOD = 998'244'353;
int add (int a, int b) { return a + b - (a + b < MOD ? 0 : MOD); }
int sub (int a, int b) { return a - b + (a - b >= 0 ? 0 : MOD); }
int mul (int a, int b) { return 1LL * a * b % MOD; }
 
struct Matrix : vector<int> {
    // initialization
    int n, m;
    Matrix (int n, int m) :
        vector<int>(n * m), n(n), m(m) {}
    Matrix (initializer_list<int> init, int row) :
        n(row), m(init.size() / n), vector<int>(init.begin(), init.end()) {}
 
    // access operators for different scenarios
    int* operator[] (int i) { return data() + i * m; }
    const int* operator[] (int i) const { return const_cast<int*>(data()) + i * m; }
};
 
static void matMulOriginal (benchmark::State &state) {
    int n = state.range(0);
    Matrix a(n, n), b(n, n);
 
    mt19937 rng(21);
    for (int i = 0; i < n; i++)
        for (int j = 0; j < n; j++)
            a[i][j] = rng() % MOD, b[i][j] = rng() % MOD;
 
    for (auto _ : state) {
        Matrix c(n, n);
        for (int i = 0; i < n; i++)
            for (int j = 0; j < n; j++)
                for (int k = 0; k < n; k++)
                    c[i][j] = add(c[i][j], mul(a[i][k], b[k][j]));
 
        benchmark::DoNotOptimize(c.data());
        benchmark::ClobberMemory();
    }
}
BENCHMARK(matMulOriginal)
    ->RangeMultiplier(2)
    ->Range(1 << 1, 1 << 10);
 
static void matMulTranspose (benchmark::State &state) {
    int n = state.range(0);
    Matrix a(n, n), b(n, n);
 
    mt19937 rng(21);
    for (int i = 0; i < n; i++)
        for (int j = 0; j < n; j++)
            a[i][j] = rng() % MOD, b[i][j] = rng() % MOD;
 
    for (auto _ : state) {
        Matrix bT(n, n), c(n, n);
        for (int i = 0; i < n; i++)
            for (int j = 0; j < n; j++) bT[i][j] = b[j][i];
        for (int i = 0; i < n; i++)
            for (int j = 0; j < n; j++)
                for (int k = 0; k < n; k++)
                    c[i][j] = add(c[i][j], mul(a[i][k], bT[j][k]));
 
        benchmark::DoNotOptimize(c.data());
        benchmark::ClobberMemory();
    }
}
BENCHMARK(matMulTranspose)
    ->RangeMultiplier(2)
    ->Range(1 << 1, 1 << 10);
 
const int TILESIZE = 16;
int bCached[TILESIZE][TILESIZE];
 
static void matMulTiling (benchmark::State &state) {
    int n = state.range(0);
    Matrix a(n, n), b(n, n);
 
    mt19937 rng(21);
    for (int i = 0; i < n; i++)
        for (int j = 0; j < n; j++)
            a[i][j] = rng() % MOD, b[i][j] = rng() % MOD;
 
    for (auto _ : state) {
        Matrix c(a.n, b.m);
        for (int iTile = 0; iTile < a.n; iTile += TILESIZE) {
            int iSize = min(TILESIZE, a.n - iTile);
            for (int jTile = 0; jTile < b.m; jTile += TILESIZE) {
                int jSize = min(TILESIZE, b.m - jTile);
                for (int kTile = 0; kTile < a.m; kTile += TILESIZE) {
                    int kSize = min(TILESIZE, a.m - kTile);
                    // transfer data to be cached for b + in-place transpose
                    for (int k = 0; k < kSize; k++)
                        for (int j = 0; j < jSize; j++)
                            bCached[j][k] = b[k + kTile][j + jTile];
 
                    // perform matrix multiplication for current block
                    for (int i = 0; i < iSize; i++) {
                        // dot product between 2 cached rows
                        for (int j = 0; j < jSize; j++) {
                            unsigned long long hold = c[i + iTile][j + jTile];
                            for (int k = 0; k < kSize; k++)
                                hold += 1ULL * a[i + iTile][k + kTile] * bCached[j][k];
                            hold %= MOD, c[i + iTile][j + jTile] = hold;
                        }
                    }
                }
            }
        }
 
        benchmark::DoNotOptimize(c.data());
        benchmark::ClobberMemory();
    }
}
BENCHMARK(matMulTiling)
    ->RangeMultiplier(2)
    ->Range(1 << 1, 1 << 10);
 
BENCHMARK_MAIN();

I2luY2x1ZGUgPGJlbmNobWFyay9iZW5jaG1hcmsuaD4KI2luY2x1ZGUgPHZlY3Rvcj4KI2luY2x1ZGUgPHJhbmRvbT4KCnVzaW5nIG5hbWVzcGFjZSBzdGQ7Cgpjb25zdCBpbnQgTU9EID0gOTk4JzI0NCczNTM7CmludCBhZGQgKGludCBhLCBpbnQgYikgeyByZXR1cm4gYSArIGIgLSAoYSArIGIgPCBNT0QgPyAwIDogTU9EKTsgfQppbnQgc3ViIChpbnQgYSwgaW50IGIpIHsgcmV0dXJuIGEgLSBiICsgKGEgLSBiID49IDAgPyAwIDogTU9EKTsgfQppbnQgbXVsIChpbnQgYSwgaW50IGIpIHsgcmV0dXJuIDFMTCAqIGEgKiBiICUgTU9EOyB9CgpzdHJ1Y3QgTWF0cml4IDogdmVjdG9yPGludD4gewogICAgLy8gaW5pdGlhbGl6YXRpb24KICAgIGludCBuLCBtOwogICAgTWF0cml4IChpbnQgbiwgaW50IG0pIDoKICAgICAgICB2ZWN0b3I8aW50PihuICogbSksIG4obiksIG0obSkge30KICAgIE1hdHJpeCAoaW5pdGlhbGl6ZXJfbGlzdDxpbnQ+IGluaXQsIGludCByb3cpIDoKICAgICAgICBuKHJvdyksIG0oaW5pdC5zaXplKCkgLyBuKSwgdmVjdG9yPGludD4oaW5pdC5iZWdpbigpLCBpbml0LmVuZCgpKSB7fQoKICAgIC8vIGFjY2VzcyBvcGVyYXRvcnMgZm9yIGRpZmZlcmVudCBzY2VuYXJpb3MKICAgIGludCogb3BlcmF0b3JbXSAoaW50IGkpIHsgcmV0dXJuIGRhdGEoKSArIGkgKiBtOyB9CiAgICBjb25zdCBpbnQqIG9wZXJhdG9yW10gKGludCBpKSBjb25zdCB7IHJldHVybiBjb25zdF9jYXN0PGludCo+KGRhdGEoKSkgKyBpICogbTsgfQp9OwoKc3RhdGljIHZvaWQgbWF0TXVsT3JpZ2luYWwgKGJlbmNobWFyazo6U3RhdGUgJnN0YXRlKSB7CiAgICBpbnQgbiA9IHN0YXRlLnJhbmdlKDApOwogICAgTWF0cml4IGEobiwgbiksIGIobiwgbik7CgogICAgbXQxOTkzNyBybmcoMjEpOwogICAgZm9yIChpbnQgaSA9IDA7IGkgPCBuOyBpKyspCiAgICAgICAgZm9yIChpbnQgaiA9IDA7IGogPCBuOyBqKyspCiAgICAgICAgICAgIGFbaV1bal0gPSBybmcoKSAlIE1PRCwgYltpXVtqXSA9IHJuZygpICUgTU9EOwogICAgCiAgICBmb3IgKGF1dG8gXyA6IHN0YXRlKSB7CiAgICAgICAgTWF0cml4IGMobiwgbik7CiAgICAgICAgZm9yIChpbnQgaSA9IDA7IGkgPCBuOyBpKyspCiAgICAgICAgICAgIGZvciAoaW50IGogPSAwOyBqIDwgbjsgaisrKQogICAgICAgICAgICAgICAgZm9yIChpbnQgayA9IDA7IGsgPCBuOyBrKyspCiAgICAgICAgICAgICAgICAgICAgY1tpXVtqXSA9IGFkZChjW2ldW2pdLCBtdWwoYVtpXVtrXSwgYltrXVtqXSkpOwogICAgICAgIAogICAgICAgIGJlbmNobWFyazo6RG9Ob3RPcHRpbWl6ZShjLmRhdGEoKSk7CiAgICAgICAgYmVuY2htYXJrOjpDbG9iYmVyTWVtb3J5KCk7CiAgICB9Cn0KQkVOQ0hNQVJLKG1hdE11bE9yaWdpbmFsKQogICAgLT5SYW5nZU11bHRpcGxpZXIoMikKICAgIC0+UmFuZ2UoMSA8PCAxLCAxIDw8IDEwKTsKCnN0YXRpYyB2b2lkIG1hdE11bFRyYW5zcG9zZSAoYmVuY2htYXJrOjpTdGF0ZSAmc3RhdGUpIHsKICAgIGludCBuID0gc3RhdGUucmFuZ2UoMCk7CiAgICBNYXRyaXggYShuLCBuKSwgYihuLCBuKTsKCiAgICBtdDE5OTM3IHJuZygyMSk7CiAgICBmb3IgKGludCBpID0gMDsgaSA8IG47IGkrKykKICAgICAgICBmb3IgKGludCBqID0gMDsgaiA8IG47IGorKykKICAgICAgICAgICAgYVtpXVtqXSA9IHJuZygpICUgTU9ELCBiW2ldW2pdID0gcm5nKCkgJSBNT0Q7CiAgICAKICAgIGZvciAoYXV0byBfIDogc3RhdGUpIHsKICAgICAgICBNYXRyaXggYlQobiwgbiksIGMobiwgbik7CiAgICAgICAgZm9yIChpbnQgaSA9IDA7IGkgPCBuOyBpKyspCiAgICAgICAgICAgIGZvciAoaW50IGogPSAwOyBqIDwgbjsgaisrKSBiVFtpXVtqXSA9IGJbal1baV07CiAgICAgICAgZm9yIChpbnQgaSA9IDA7IGkgPCBuOyBpKyspCiAgICAgICAgICAgIGZvciAoaW50IGogPSAwOyBqIDwgbjsgaisrKQogICAgICAgICAgICAgICAgZm9yIChpbnQgayA9IDA7IGsgPCBuOyBrKyspCiAgICAgICAgICAgICAgICAgICAgY1tpXVtqXSA9IGFkZChjW2ldW2pdLCBtdWwoYVtpXVtrXSwgYlRbal1ba10pKTsKICAgICAgICAgICAgICAgIAogICAgICAgIGJlbmNobWFyazo6RG9Ob3RPcHRpbWl6ZShjLmRhdGEoKSk7CiAgICAgICAgYmVuY2htYXJrOjpDbG9iYmVyTWVtb3J5KCk7CiAgICB9Cn0KQkVOQ0hNQVJLKG1hdE11bFRyYW5zcG9zZSkKICAgIC0+UmFuZ2VNdWx0aXBsaWVyKDIpCiAgICAtPlJhbmdlKDEgPDwgMSwgMSA8PCAxMCk7Cgpjb25zdCBpbnQgVElMRVNJWkUgPSAxNjsKaW50IGJDYWNoZWRbVElMRVNJWkVdW1RJTEVTSVpFXTsKCnN0YXRpYyB2b2lkIG1hdE11bFRpbGluZyAoYmVuY2htYXJrOjpTdGF0ZSAmc3RhdGUpIHsKICAgIGludCBuID0gc3RhdGUucmFuZ2UoMCk7CiAgICBNYXRyaXggYShuLCBuKSwgYihuLCBuKTsKCiAgICBtdDE5OTM3IHJuZygyMSk7CiAgICBmb3IgKGludCBpID0gMDsgaSA8IG47IGkrKykKICAgICAgICBmb3IgKGludCBqID0gMDsgaiA8IG47IGorKykKICAgICAgICAgICAgYVtpXVtqXSA9IHJuZygpICUgTU9ELCBiW2ldW2pdID0gcm5nKCkgJSBNT0Q7CiAgICAKICAgIGZvciAoYXV0byBfIDogc3RhdGUpIHsKICAgICAgICBNYXRyaXggYyhhLm4sIGIubSk7CiAgICAgICAgZm9yIChpbnQgaVRpbGUgPSAwOyBpVGlsZSA8IGEubjsgaVRpbGUgKz0gVElMRVNJWkUpIHsKICAgICAgICAgICAgaW50IGlTaXplID0gbWluKFRJTEVTSVpFLCBhLm4gLSBpVGlsZSk7CiAgICAgICAgICAgIGZvciAoaW50IGpUaWxlID0gMDsgalRpbGUgPCBiLm07IGpUaWxlICs9IFRJTEVTSVpFKSB7CiAgICAgICAgICAgICAgICBpbnQgalNpemUgPSBtaW4oVElMRVNJWkUsIGIubSAtIGpUaWxlKTsKICAgICAgICAgICAgICAgIGZvciAoaW50IGtUaWxlID0gMDsga1RpbGUgPCBhLm07IGtUaWxlICs9IFRJTEVTSVpFKSB7CiAgICAgICAgICAgICAgICAgICAgaW50IGtTaXplID0gbWluKFRJTEVTSVpFLCBhLm0gLSBrVGlsZSk7CiAgICAgICAgICAgICAgICAgICAgLy8gdHJhbnNmZXIgZGF0YSB0byBiZSBjYWNoZWQgZm9yIGIgKyBpbi1wbGFjZSB0cmFuc3Bvc2UKICAgICAgICAgICAgICAgICAgICBmb3IgKGludCBrID0gMDsgayA8IGtTaXplOyBrKyspCiAgICAgICAgICAgICAgICAgICAgICAgIGZvciAoaW50IGogPSAwOyBqIDwgalNpemU7IGorKykKICAgICAgICAgICAgICAgICAgICAgICAgICAgIGJDYWNoZWRbal1ba10gPSBiW2sgKyBrVGlsZV1baiArIGpUaWxlXTsKICAgICAgICAgICAgICAgICAgICAKICAgICAgICAgICAgICAgICAgICAvLyBwZXJmb3JtIG1hdHJpeCBtdWx0aXBsaWNhdGlvbiBmb3IgY3VycmVudCBibG9jawogICAgICAgICAgICAgICAgICAgIGZvciAoaW50IGkgPSAwOyBpIDwgaVNpemU7IGkrKykgewogICAgICAgICAgICAgICAgICAgICAgICAvLyBkb3QgcHJvZHVjdCBiZXR3ZWVuIDIgY2FjaGVkIHJvd3MKICAgICAgICAgICAgICAgICAgICAgICAgZm9yIChpbnQgaiA9IDA7IGogPCBqU2l6ZTsgaisrKSB7CiAgICAgICAgICAgICAgICAgICAgICAgICAgICB1bnNpZ25lZCBsb25nIGxvbmcgaG9sZCA9IGNbaSArIGlUaWxlXVtqICsgalRpbGVdOwogICAgICAgICAgICAgICAgICAgICAgICAgICAgZm9yIChpbnQgayA9IDA7IGsgPCBrU2l6ZTsgaysrKQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGhvbGQgKz0gMVVMTCAqIGFbaSArIGlUaWxlXVtrICsga1RpbGVdICogYkNhY2hlZFtqXVtrXTsKICAgICAgICAgICAgICAgICAgICAgICAgICAgIGhvbGQgJT0gTU9ELCBjW2kgKyBpVGlsZV1baiArIGpUaWxlXSA9IGhvbGQ7CiAgICAgICAgICAgICAgICAgICAgICAgIH0KICAgICAgICAgICAgICAgICAgICB9CiAgICAgICAgICAgICAgICB9CiAgICAgICAgICAgIH0KICAgICAgICB9CiAgICAgICAgCiAgICAgICAgYmVuY2htYXJrOjpEb05vdE9wdGltaXplKGMuZGF0YSgpKTsKICAgICAgICBiZW5jaG1hcms6OkNsb2JiZXJNZW1vcnkoKTsKICAgIH0KfQpCRU5DSE1BUksobWF0TXVsVGlsaW5nKQogICAgLT5SYW5nZU11bHRpcGxpZXIoMikKICAgIC0+UmFuZ2UoMSA8PCAxLCAxIDw8IDEwKTsKCkJFTkNITUFSS19NQUlOKCk7

Compilation error #stdin compilation error #stdout 0s 0KB

stdin

copy

Standard input is empty

compilation info

prog.cpp:1:10: fatal error: benchmark/benchmark.h: No such file or directory
 #include <benchmark/benchmark.h>
          ^~~~~~~~~~~~~~~~~~~~~~~
compilation terminated.

stdout

copy

Standard output is empty

https://ideone.com/AUiptT

language:

C++ (gcc 8.3)

created:

visibility:

secret

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language