srupのメモ帳

競プロで解いた問題や勉強したことを記録していくメモ帳

store to load forwarding

あるメモリアドレスに書き込む命令の後に同じアドレスから読み込む命令が続くとき, store forwarding が行われる.

mov DWORD [esi], edi
mov eax, DWORD [esi] 

上の例だと1行の書き込みが実際にL1$に書き込む前に, Store Bufferに書き込まれ, 読み込む命令はL1$にアクセスせずに, Store Bufferにあるデータを利用して処理を行う.

mov WORD [esi], di   ; small write
mov eax, DWORD [esi] ; big read (stall)

上のような読み込むサイズが書き込みサイズより大きい場合は, forwardingは行われない.

Ref

Store forwarding by example. | Denis Bakhvalov | C++ compiler dev.

main()の前後で関数を呼び出す

GCC拡張機能を使って行っています.

#include <stdio.h>

__attribute__((constructor))
void foo() {
    printf("hello, before main\n");
}

__attribute__((destructor))
void bar() {
    printf("hello, after main\n");
}

int main(int argc, char const *argv[]) {
    printf("hello, world\n");
    return 0;
}
$ gcc test.c
$ ./a.out
hello, before main
hello, world
hello, after main

CPUキャッシュの最適化について

Non-blocking Cache

キャッシュメモリの構成法の一つであり, キャッシュミスが起こり, それが処理されている最中でも, cache アクセスを可能にする. さらにメモリレベルの並列性(Memory-level parallelism) を使用することで, 同時に複数のキャッシュミスを処理することできる.
Non-blocking Cacheが必要な理由を説明する. 現在のCPUは Out of Order で実行されているため, ある命令によりキャッシュミスが発生しても, 次の命令を実行することができる. その命令がメモリアクセスが必要ならば, キャシュにアクセスする必要があるが, Blocking Cache であればそこで命令の実行が止まってしまう. しかし, Non-blocking Cache であれば命令を完了することができたり, Cacheでデータがヒットしなかった場合でも, 前のキャッシュミスと並列にミスを処理することを可能にするため, メモリアクセスのレイテンシを小さくすることができる.

https://www.fujitsu.com/jp/Images/nonblockingcache01_tcm102-1951020.gif

Miss-Status Holding Registers (MSHR)

miss bufferと呼ばれており, 未処理のキャッシュミスを追跡するためのハードウェアである. キャッシュミスが起きたとき, MSHRはその要求されたキャッシュラインがすでにメモリからキャッシュへフェッチしようとしている最中かどうかを判断するのに使われる. (Non-blocking Cacheであればキャッシュミスの処理最中に後続の命令で同じメモリアドレスを要求してくることがあり得る.) もしすでに同じアドレスのミスを処理中であれば, この要求がMSHRのおなじエントリに併合され, 新しい要求を生成しないようにする. (する必要がない.) そうでなければ, 新しいMSHRのエントリをアロケートして, キャッシュラインの要求が予約される. 空きのMSHRがない場合は, ストールする.

https://www.cse.iitk.ac.in/users/biswap/CS422/L18-CO.pdf

Victim Cache

従来のものは, コアからのメモリアクセス要求に対しては, 1, 2, 3次と順にキャッシュをチェックし, それでもミスした場合は, メモリからデータを読み込む. メモリから読み込まれたデータは 3, 2, 1次キャッシュと順に格納され, コアにデータが送られることになる. これに対して, 1,2,3次と順にチェックするが, データを3,2次に書き込まずに, 直接1次にデータを書き込み, 書き込みによって追い出されるデータを2次に書き込む方式を victim cache という.

https://news.mynavi.jp/article/architecture-177/images/011.jpg

従来のキャッシュであれば, L1のデータはL2に存在し, L2のデータはL3に存在するという包含関係が存在した. これを Inclusion Cache という. 一方で, Victim Cache の場合そのような包含関係は存在しないので, Non Inclusion Cache という.

https://news.mynavi.jp/article/architecture-177/images/012.jpg

コンピュータアーキテクチャの話(177) ビクティムキャッシュとインクルージョンキャッシュ | マイナビニュース

自己書き換えコード(self-modifying code)

自己書き換えコードとは, 実行時に自分自身の命令を書き換えるコードのことである.
以下のコードでは, foo() 関数の i++ の命令を i += 2に自己書き換えしている.
順に説明していくと, まず mprotect() 関数でfoo関数の命令が書かれているページに読み, 書き, 実行の権限を与える. foo() 関数を書き換えるので, 書き換え権限を与えなければならない. 通常セキュリティーの観点から関数などのコードが書かれている領域は書き込み権限がない.
次に, 普通に foo() を呼び出した後, foo() 関数の先頭から 18 byte進んだ位置のbyteに 0x2 を書き込んでいる. これは foo()アセンブラを見ればわかるように, 18 byteのところが add DWORD PTR [rbp-0x4],0x10x1 に対応しているので, そこを 0x2 に書き換えている.
これで自己書き換えができたので, その後に foo を呼び出すと出力結果が変わる.

プログラム

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>

void foo() {
    int i = 0;
    i++;
    printf("i: %d\n", i);
}

/*
000000000000072a <foo>:
 72a:  55                      push   rbp
 72b:  48 89 e5                mov    rbp,rsp
 72e:  48 83 ec 10             sub    rsp,0x10
 732:  c7 45 fc 00 00 00 00    mov    DWORD PTR [rbp-0x4],0x0
 739:  83 45 fc 01             add    DWORD PTR [rbp-0x4],0x1
 73d:  8b 45 fc                mov    eax,DWORD PTR [rbp-0x4]
 740:  89 c6                   mov    esi,eax
 742:  48 8d 3d 4b 01 00 00    lea    rdi,[rip+0x14b]        # 894 <_IO_stdin_used+0x4>
 749:  b8 00 00 00 00          mov    eax,0x0
 74e:  e8 8d fe ff ff          call   5e0 <printf@plt>
 753:  90                      nop
 754:  c9                      leave  
 755:  c3                      ret    
*/

int main() {
    int page_size = getpagesize();
    void *foo_addr = (void*)foo;
    printf("foo_addr:  %p\n", foo_addr);
    void* page_addr = (void*)((unsigned long)(foo_addr) & ~(page_size - 1));
    printf("page_addr: %p\n", page_addr);

    mprotect(page_addr, page_size, PROT_READ|PROT_WRITE|PROT_EXEC);

    printf("Call original foo()\n");
    foo();

    // Change code
    // add    DWORD PTR [rbp-0x4],0x1 => add    DWORD PTR [rbp-0x4],0x2
    ((unsigned char*)foo_addr)[18] = 0x2;

    printf("Call modified foo()\n");
    foo();

    return 0;
}

出力結果

foo_addr:  0x555992c1672a
page_addr: 0x555992c16000
Call original foo()
i: 1
Call modified foo()
i: 2

Intel Pin の使い方

Dynamic Binary Instrumentation (DBI) は実行時にバイナリに命令を挿入することによって, プログラムの実行トレースから情報を取り出す技術であり, それを用いたツールの一つである Intel Pin を使っていく. 以下で簡単に使っていく手順をメモしていく.
公式のUser Guide もある. User Guid

1. インストール

OSにあったものを, url からダウンロードし, 以下のコマンドで解凍する.

$ tar zxf pin-3.7-97619-g0d0c92f4f-gcc-linux.tar.gz

回答したフォルダにサンプルが入っているので, それを移管コマンドでコンパイルする.

$ cd pin-3.7-97619-g0d0c92f4f-gcc-linux/source/tools/SimpleExamples
$ make all TARGET=intel64

コンパイルが終わると, obj_intel64 フォルダのしたに, サンプル例を実際の動かすための共有ライブラリ(.so) が出来上がる.

2. 実行方法

pin の実行方法は Usage: pin [OPTION] [-t <tool> [<toolargs>]] -- <command line> である.

例えば, 実行した命令数をカウントしたい場合以下のようにすれば良い. 下の例では, /bin/ls を実行したときの命令数をカウントしている.

$ ../../../pin -t obj-intel64/inscount0.so -- /bin/ls
buffer_linux.cpp       follow_child_app2.cpp  inscount_tls.cpp  nonstatica.cpp               stack-debugger.cpp
buffer_windows.cpp     follow_child_tool.cpp  invocation.cpp    obj-intel64              statica.cpp
countreps.cpp          fork_app.cpp       isampling.cpp pinatrace.cpp                staticcount.cpp
detach.cpp         fork_jit_tool.cpp      itrace.cpp    proccount.cpp                strace.cpp
divide_by_zero_unix.c  imageload.cpp          little_malloc.c   replacesigprobed.cpp             w_malloctrace.cpp
divide_by_zero_win.c   inscount.out       makefile      safecopy.cpp
emudiv.cpp         inscount0.cpp          makefile.rules    stack-debugger-tutorial.sln
fibonacci.cpp          inscount1.cpp          malloc_mt.cpp stack-debugger-tutorial.vcxproj
follow_child_app1.cpp  inscount2.cpp          malloctrace.cpp   stack-debugger-tutorial.vcxproj.filters

実際の結果は, inscount.out に吐き出されているので, 確認してみる実行命令数が以下のように記載されている.

$ cat inscount.out
Count 729204

参考文献

  • [intel Pinを使ってみる]

inaz2.hatenablog.com

next_permutation の逆 辞書順の大きい順番

comp を指定する

https://cpprefjp.github.io/reference/algorithm/next_permutation.html
上のサイトを見ると, 第三引数に比較関数を取れるので, 比較関数を作れば辞書順の逆でやることも可能.

プログラムは以下の通りになる.

#include <bits/stdc++.h>
using namespace std;

bool comp(int i, int j) {
    return i > j;
}

int main(void) {
    vector<int> v{1, 2, 3};
    sort(v.begin(), v.end(), comp);
    
    do {
        for(auto u : v) cout << u << " ";
        cout << endl;
    }while( next_permutation(v.begin(), v.end(), comp) );
   
    return 0;
}

出力は以下の通りになる.

3 2 1 
3 1 2 
2 3 1 
2 1 3 
1 3 2 
1 2 3 

prev_permutation がありました.

#include <bits/stdc++.h>
using namespace std;

int main(void) {
    vector<int> v{1, 2, 3};
    sort(v.begin(), v.end());
    reverse(v.begin(), v.end());
                
    do {
        for(auto u : v) cout << u << " ";
        cout << endl;
    }while( prev_permutation(v.begin(), v.end()) );
   
    return 0;
}

上のプルグラムの出力はcompのと一致します.

aoj 2827 凸多角形柱工業都市

問題

問題概要

スタートからゴールまで最短距離で移動したい. 影を通れば距離には加算されない.
(2017 ICPC国内模擬 E)

解法

建物とその影を考えて多角形を作り, N個の多角形どうしの距離を計算して辺を作り, ダイクストラで最短距離を計算すれば良い.
建物の内部を通れないという制約があるが, 建物の端を通ることはできるので, 建物自体もいれて多角形を作れば良い. また, 建物の座標とその影の座標から多角形の座標を得るには, 凸法を使えば楽かも.

ミス

startとgoalの辺を追加していなくて, バグらせた.

コード

#include <bits/stdc++.h>
using namespace std;
typedef long long ll;
typedef vector<int> vint;
typedef pair<int,int> pint;
typedef vector<pint> vpint;
#define rep(i,n) for(int i=0;i<(n);i++)
#define REP(i,n) for(int i=n-1;i>=(0);i--)
#define reps(i,f,n) for(int i=(f);i<(n);i++)
#define each(it,v) for(__typeof((v).begin()) it=(v).begin();it!=(v).end();it++)
#define all(v) (v).begin(),(v).end()
#define eall(v) unique(all(v), v.end())
#define pb push_back
#define mp make_pair
#define fi first
#define se second
#define chmax(a, b) a = (((a)<(b)) ? (b) : (a))
#define chmin(a, b) a = (((a)>(b)) ? (b) : (a))
const int MOD = 1e9 + 7;
const int INF = 1e9;
const ll INFF = 1e18;

const double EPS = 1e-10;
const double PI = 3.141592653589793;
template<class T> bool eq(T a, T b){ return abs(a - b) < EPS; }

class Point { // 点
public:
    double x, y;
    Point(double x = 0, double y = 0):x(x), y(y){}
    Point operator + (Point p) const { return Point(x + p.x, y + p.y); }
    Point operator - (Point p) const { return Point(x - p.x, y - p.y); }
    Point operator * (double a) const { return Point(a * x, a * y); }
    Point operator / (double a) const { return Point(x / a, y / a); }
    double abs() const { return sqrt(norm()); }
    double norm() const { return x * x + y * y; }
    // bool operator < (const Point &p) const { return x != p.x ? x < p.x : y < p.y; }
    bool operator < (const Point &p) const { // 誤差を許容して比較
        return x + EPS < p.x || (eq<double>(x, p.x) && y + EPS < p.y);
    }
    bool operator == (const Point &p) const { return (eq<double>(x, p.x) && eq<double>(y, p.y)); }
};
using Vector = Point;
using Polygon = vector<Point>; // 多角形

double dot(const Vector& a, const Vector& b) { return a.x * b.x + a.y * b.y; } // ベクトルaとbの内積
double cross(const Vector& a, const Vector& b) { return a.x * b.y - a.y * b.x; } // ベクトルaとbの外積
double length2(const Point& a) { return a.norm(); } // 通常の長さの2乗
double length(const Point& a) { return a.abs(); } // 通常の長さ
Point rotationalTransfer(Point c, double r, double deg) { // cを中心として半径rの円周上のdeg度の位置座標
    double rad = PI * deg / 180.0; return c + Point(cos(rad), sin(rad)) * r;
}
// (x, y, z) の点を光源(xy座標での角度がtheta度, xy平面からz方向への角度がphi度の時の)からてらした時の影のxy座標
Point Shadow(double x, double y, double z, double theta, double phi) {
    theta = PI * theta / 180.0, phi = PI * phi / 180.0;
    return Point(x - z / tan(phi) * cos(theta), y - z / tan(phi) * sin(theta));
}

enum ccw_t {
    COUNTER_CLOCKWISE = 1, // p0->p1 反時計回りの方向にp2
    CLOCKWISE = -1, // p0->p1 時計回りの方向にp2
    ONLINE_BACK = 2, // p2->p0->p1 の順で直線上でp2
    ONLINE_FRONT = -2, // p0->p1->p2 の順で直線上p2
    ON_SEGMENT = 0, // p0->p2->p1 の順で線分p0p1上にp2
};
ccw_t ccw(Point p0, Point p1, Point p2) {
    Vector a = p1 - p0, b = p2 - p0;
    if ( cross(a, b) > EPS  )  return COUNTER_CLOCKWISE;
    if ( cross(a, b) < -EPS )  return CLOCKWISE;
    if ( dot(a, b) < -EPS )    return ONLINE_BACK;
    if ( a.norm() < b.norm() ) return ONLINE_FRONT;
    return ON_SEGMENT;
}

class Segment { //線分
public:
    Point p1, p2;
    Segment(){}
    Segment(Point p1, Point p2):p1(p1), p2(p2){}
};
using Line = Segment;

// *** 多角形 ***
// IN := 2, ON := 1, OUT := 0
vector<Segment> getPolygonSegument(const Polygon& p) { //多角形の点から多角形の辺を求める
    vector<Segment> ret;
    rep(i, p.size() - 1) ret.push_back(Segment(p[i], p[i + 1]));
    ret.push_back(Segment(p[p.size() - 1], p[0]));
    return ret;
}
int contains(const Polygon& g, const Point& p){ // 多角形gの中に点pが含まれているか
    int n = g.size(); bool x = false;
    for (int i = 0; i < n; ++i) {
        Point a = g[i] - p, b = g[(i + 1) % n] - p;
        if ( abs(cross(a, b)) < EPS && dot(a, b) < EPS ) return 1;
        if (a.y > b.y) swap(a, b);
        if (a.y < EPS && EPS < b.y && cross(a, b) > EPS ) x = !x;
    }
    return (x ? 2 : 0);
}
Polygon andrewScan(Polygon s) { // 凸包(最も左にある頂点から)
    Polygon u, l;
    if (s.size() < 3) return s;
    sort(s.begin(), s.end()); // x, yを基準に昇順ソート
    // xが小さいものから2つ u に追加
    u.push_back(s[0]), u.push_back(s[1]);
    // x が大きいものから2つ1に追加
    l.push_back(s[s.size() - 1]), l.push_back(s[s.size() - 2]);
    // 凸包の上部を生成
    for (int i = 2; i < s.size(); i++) {
        for (int n = u.size(); n >= 2 && ccw(u[n - 2], u[n - 1], s[i]) != CLOCKWISE; n--){
            u.pop_back();
        }
        u.push_back(s[i]);
    }
    // 凸包の下部を生成
    for (int i = s.size() - 3; i >= 0; i--) {
        for (int n = l.size(); n >= 2 && ccw(l[n - 2], l[n - 1], s[i]) != CLOCKWISE; n--){
            l.pop_back();
        }
        l.push_back(s[i]);
    }
    // 時計回りになるように凸包の点の列を生成
    reverse(l.begin(), l.end());
    for (int i = u.size() - 2; i >= 1; i--) l.push_back(u[i]);
    return l;
}


// *** 線分の交差判定 ***
bool intersect(const Point& p1, const Point& p2, const Point& p3, const Point& p4) {
    return ( ccw(p1, p2, p3) * ccw(p1, p2, p4) <= 0 && 
             ccw(p3, p4, p1) * ccw(p3, p4, p2) <= 0 );
}
bool intersect(const Segment& s1, const Segment& s2) { // 交差していたらtrue
    return intersect(s1.p1, s1.p2, s2.p1, s2.p2);
}
//*** 線分の交点 ***
Point getCrossPoint(Segment s1, Segment s2) { // 線分の交点が存在するから調べた後つかうこと
    Vector base = s2.p2 - s2.p1;
    double d1 = abs(cross(base, s1.p1 - s2.p1)), d2 = abs(cross(base, s1.p2 - s2.p1));
    double t  = d1 / (d1 + d2);
    return s1.p1 + (s1.p2 - s1.p1) * t;
}
// *** 距離 ***
double getDistance(Point& a, Point& b) { // 点aと点bの距離
    return length(a - b);
}
double getDistanceLP(Line& l, Point& p) { // 直線sと点pの距離
    return length(cross(l.p2 - l.p1, p - l.p1) / length(l.p2 - l.p1));
}
double getDistanceSP(Segment s, Point p) { // 線分sと点pの距離
    if( dot(s.p2 - s.p1, p - s.p1) < EPS ) return length(p - s.p1);
    if( dot(s.p1 - s.p2, p - s.p2) < EPS ) return length(p - s.p2);
    return getDistanceLP(s, p);
}
double getDistanceSS(const Segment& s1, const Segment& s2) { // 線分s1と線分s2の交点
    if( intersect(s1, s2) ) return 0.0; //交わっているとき
    return min(min(getDistanceSP(s1, s2.p1), getDistanceSP(s1, s2.p2)),
               min(getDistanceSP(s2, s1.p1), getDistanceSP(s2, s1.p2)));
}
double getDistancePolP(const Polygon& pol, const Point& p) { // 多角形polと点pの距離
    if(contains(pol, p) != 0) return 0.0; // 点が多角形の内部に含まれている
    double ret = 1e9;
    for(Segment& u : getPolygonSegument(pol)) ret = min(ret, getDistanceSP(u, p));
    return ret;
}
double getDistancePolPol(const Polygon& p1, const Polygon& p2) { // 多角形p1とp2の距離
    for(const Point& p : p1) if(contains(p2, p) != 0) return 0.0; // p1の点が多角形p2の中に含まれている
    for(const Point& p : p2) if(contains(p1, p) != 0) return 0.0; // p2の点が多角形p1の中に含まれている
    double ret = 1e9;
    for(const Segment& u : getPolygonSegument(p1))for(const Segment& v : getPolygonSegument(p2)) {
        ret = min(ret, getDistanceSS(u, v));
    }
    return ret;
}


class Rectangle { // 長方形
public:
    // 3 2
    // 0 1 (反時計回りに長方形の頂点をいれること)
    vector<Point> p; // 点を順番にいれること
    Rectangle(vector<Point>&p):p(p) {
        rep(i, 3) reps(j, i + 1, 4) { //適当な順番にいれても大丈夫なように?
            int cnt = 0;
            rep(k, 4) if(k != i && k != j) {
                cnt += ccw(p[i], p[j], p[k]) == COUNTER_CLOCKWISE;
            }
            if(cnt == 2) {
                swap(p[i + 1], p[j]);
                break;
            }
        }
    }
    bool intersect(const Segment& s) { // 線分sと長方形の少なくとも1辺が交差していればtrue
        bool flag = false;
        rep(i, 4) flag |= ::intersect(s, Segment(p[i], p[(i + 1) % 4]));
        return flag;
    }
    bool contain(const Point& pp) { // 点ppが長方形内に含まれれば(辺を含まない)true
        bool flag = true;
        rep(i, 4) flag &= ccw(p[i], p[(i + 1) % 4], pp) == COUNTER_CLOCKWISE;
        return flag;
    }
    bool contain(const Segment& s) { // 線分sが長方形内に含まれれば(辺を含まない)true
        return contain(s.p1) && contain(s.p2);
    }
};


const int MAX_N = 210;
using TYPE = double; // 距離の型を入れる
vector<pair<int, TYPE> > G[MAX_N];
vector<TYPE> dijkstra(int start){
    vector<TYPE> dist(MAX_N, INFF);
    dist[start] = 0;//dist[i] := start->iまでの最短距離
    priority_queue<pair<TYPE, int>, vector<pair<TYPE, int> >, greater<pair<TYPE, int> > >  que;
    que.push(make_pair(0, start));
    while(!que.empty()){
        TYPE cost; int u;//今までにかかった時間 現在の頂点
        cost = que.top().first, u = que.top().second;
        que.pop();
        if(dist[u] < cost) continue;
        for (auto tmp : G[u]){
            int v = tmp.first; TYPE time = tmp.second;//隣接する頂点 その頂点まで行く時間
            if(dist[v] > dist[u] + time){//u->v
                dist[v] = dist[u] + time;
                que.push(make_pair(dist[v], v));
            }
        }
    }
    return dist;
}


int main(void) {
    

    while(1) {
        int N; scanf("%d", &N);
        if(N == 0) break;
        int NV[110], H[110];
        vector<vector<pair<double, double>>> p;
        rep(i, N){
            scanf("%d %d", &NV[i], &H[i]);
            vector<pair<double, double>> tmp;
            rep(j, NV[i]){
                double x, y; scanf("%lf %lf", &x, &y);
                tmp.pb(mp(x, y));
            }
            p.pb(tmp);
        }
        double theta, phi; scanf("%lf %lf", &theta, &phi);
        double Sx, Sy, Tx, Ty; scanf("%lf %lf %lf %lf", &Sx, &Sy, &Tx, &Ty);
        Point start(Sx, Sy), goal(Tx, Ty);

        vector<Polygon> v;
        rep(i, N){
            Polygon t;
            for(auto u : p[i]) t.pb(Shadow(u.fi, u.se, H[i], theta, phi));
            for(auto u : p[i]) t.pb(Point(u.fi, u.se));
            Polygon tt = andrewScan(t);
            v.pb(tt);
        }

        /*
        for(auto u : v) {
            for(auto k : u) printf("%f %f, ", k.x, k.y);
            printf("\n");
        }
        */  

        rep(i, MAX_N) G[i].clear();

        rep(i, v.size())rep(j, v.size()){
            if(i == j) continue;
            int s = i + 1, t = j + 1;
            auto dis = getDistancePolPol(v[i], v[j]);
            G[s].pb(mp(t, dis)), G[t].pb(mp(s, dis));
        }

        rep(i, v.size()){
            auto dis = getDistancePolP(v[i], start);
            G[0].pb(mp(i + 1, dis)), G[i + 1].pb(mp(0, dis));
        }
        rep(i, v.size()){
            auto dis = getDistancePolP(v[i], goal);
            G[N + 1].pb(mp(i + 1, dis)), G[i + 1].pb(mp(N + 1, dis));
        }

        G[0].pb(mp(N + 1, getDistance(start, goal))), G[N + 1].pb(mp(0, getDistance(start, goal)));

        auto ret = dijkstra(0);
        printf("%.9f\n", ret[N + 1]);
    }


    return 0;
}