按列的位高斯消元（以3个变量为例）：

使用python生成的代码，通过include嵌入。

uint32_t rmask = ~0x0U;
{
    uint32_t tmp = lsys0 & rmask;
    uint32_t sf = (!tmp) ? 0x0U : ~0x0U;
    uint32_t piv = ctz(tmp);
    rmask ^= (0x1U << piv) & sf;
    uint32_t mask = (lsys0 ^ (0x1U << piv) ) & sf;
    lsys0 ^= mask;
        lsys1 ^= mask & (((lsys1 >> piv) & 0x1U) ? ~0x0U : 0x0U);
        lsys2 ^= mask & (((lsys2 >> piv) & 0x1U) ? ~0x0U : 0x0U);
        lsys3 ^= mask & (((lsys3 >> piv) & 0x1U) ? ~0x0U : 0x0U);
}
{
    uint32_t tmp = lsys1 & rmask;
    uint32_t sf = (!tmp) ? 0x0U : ~0x0U;
    uint32_t piv = ctz(tmp);
    rmask ^= (0x1U << piv) & sf;
    uint32_t mask = (lsys1 ^ (0x1U << piv) ) & sf;
    lsys1 ^= mask;
        lsys2 ^= mask & (((lsys2 >> piv) & 0x1U) ? ~0x0U : 0x0U);
        lsys3 ^= mask & (((lsys3 >> piv) & 0x1U) ? ~0x0U : 0x0U);
}
{
    uint32_t tmp = lsys2 & rmask;
    uint32_t sf = (!tmp) ? 0x0U : ~0x0U;
    uint32_t piv = ctz(tmp);
    rmask ^= (0x1U << piv) & sf;
    uint32_t mask = (lsys2 ^ (0x1U << piv) ) & sf;
    lsys2 ^= mask;
        lsys3 ^= mask & (((lsys3 >> piv) & 0x1U) ? ~0x0U : 0x0U);
}
solvable = !(lsys3 & rmask);

Code Review

基本流程

rmac.cu/rmac_elim_cpu

rmac.cu/rmac_elim_gpu

mqsolver.cu/bf_subsys