Grid/lib/qcd/action/fermion/DomainWallEOFAFermionvec.cc

/*************************************************************************************

Grid physics library, www.github.com/paboyle/Grid

Source file: ./lib/qcd/action/fermion/DomainWallEOFAFermionvec.cc

Copyright (C) 2017

Author: Peter Boyle <pabobyle@ph.ed.ac.uk>
Author: Peter Boyle <paboyle@ph.ed.ac.uk>
Author: Peter Boyle <peterboyle@Peters-MacBook-Pro-2.local>
Author: paboyle <paboyle@ph.ed.ac.uk>
Author: David Murphy <dmurphy@phys.columbia.edu>

This program is free software; you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation; either version 2 of the License, or
(at your option) any later version.

This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
GNU General Public License for more details.

You should have received a copy of the GNU General Public License along
with this program; if not, write to the Free Software Foundation, Inc.,
51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.

See the full license in the file "LICENSE" in the top level distribution directory
*************************************************************************************/
/*  END LEGAL */

#include <Grid/qcd/action/fermion/FermionCore.h>
#include <Grid/qcd/action/fermion/DomainWallEOFAFermion.h>

namespace Grid {
namespace QCD {

    /*
    * Dense matrix versions of routines
    */
    template<class Impl>
    void DomainWallEOFAFermion<Impl>::MooeeInvDag(const FermionField& psi, FermionField& chi)
    {
        this->MooeeInternal(psi, chi, DaggerYes, InverseYes);
    }

    template<class Impl>
    void DomainWallEOFAFermion<Impl>::MooeeInv(const FermionField& psi, FermionField& chi)
    {
        this->MooeeInternal(psi, chi, DaggerNo, InverseYes);
    }

    template<class Impl>
    void DomainWallEOFAFermion<Impl>::M5D(const FermionField& psi, const FermionField& phi,
        FermionField& chi, std::vector<Coeff_t>& lower, std::vector<Coeff_t>& diag, std::vector<Coeff_t>& upper)
    {
        GridBase* grid = psi._grid;
        int Ls  = this->Ls;
        int LLs = grid->_rdimensions[0];
        const int nsimd = Simd::Nsimd();

        Vector<iSinglet<Simd> > u(LLs);
        Vector<iSinglet<Simd> > l(LLs);
        Vector<iSinglet<Simd> > d(LLs);

        assert(Ls/LLs == nsimd);
        assert(phi.checkerboard == psi.checkerboard);

        chi.checkerboard = psi.checkerboard;

        // just directly address via type pun
        typedef typename Simd::scalar_type scalar_type;
        scalar_type* u_p = (scalar_type*) &u[0];
        scalar_type* l_p = (scalar_type*) &l[0];
        scalar_type* d_p = (scalar_type*) &d[0];

        for(int o=0;o<LLs;o++){ // outer
        for(int i=0;i<nsimd;i++){ //inner
            int s  = o + i*LLs;
            int ss = o*nsimd + i;
            u_p[ss] = upper[s];
            l_p[ss] = lower[s];
            d_p[ss] = diag[s];
        }}

        this->M5Dcalls++;
        this->M5Dtime -= usecond();

        assert(Nc == 3);

        parallel_for(int ss=0; ss<grid->oSites(); ss+=LLs){ // adds LLs

            #if 0

                alignas(64) SiteHalfSpinor hp;
                alignas(64) SiteHalfSpinor hm;
                alignas(64) SiteSpinor fp;
                alignas(64) SiteSpinor fm;

                for(int v=0; v<LLs; v++){

                    int vp = (v+1)%LLs;
                    int vm = (v+LLs-1)%LLs;

                    spProj5m(hp, psi[ss+vp]);
                    spProj5p(hm, psi[ss+vm]);

                    if (vp <= v){ rotate(hp, hp, 1); }
                    if (vm >= v){ rotate(hm, hm, nsimd-1); }

                    hp = 0.5*hp;
                    hm = 0.5*hm;

                    spRecon5m(fp, hp);
                    spRecon5p(fm, hm);

                    chi[ss+v] = d[v]*phi[ss+v];
                    chi[ss+v] = chi[ss+v] + u[v]*fp;
                    chi[ss+v] = chi[ss+v] + l[v]*fm;

                }

            #else

                for(int v=0; v<LLs; v++){

                    vprefetch(psi[ss+v+LLs]);

                    int vp = (v==LLs-1) ? 0     : v+1;
                    int vm = (v==0)     ? LLs-1 : v-1;

                    Simd hp_00 = psi[ss+vp]()(2)(0);
                    Simd hp_01 = psi[ss+vp]()(2)(1);
                    Simd hp_02 = psi[ss+vp]()(2)(2);
                    Simd hp_10 = psi[ss+vp]()(3)(0);
                    Simd hp_11 = psi[ss+vp]()(3)(1);
                    Simd hp_12 = psi[ss+vp]()(3)(2);

                    Simd hm_00 = psi[ss+vm]()(0)(0);
                    Simd hm_01 = psi[ss+vm]()(0)(1);
                    Simd hm_02 = psi[ss+vm]()(0)(2);
                    Simd hm_10 = psi[ss+vm]()(1)(0);
                    Simd hm_11 = psi[ss+vm]()(1)(1);
                    Simd hm_12 = psi[ss+vm]()(1)(2);

                    if(vp <= v){
                        hp_00.v = Optimization::Rotate::tRotate<2>(hp_00.v);
                        hp_01.v = Optimization::Rotate::tRotate<2>(hp_01.v);
                        hp_02.v = Optimization::Rotate::tRotate<2>(hp_02.v);
                        hp_10.v = Optimization::Rotate::tRotate<2>(hp_10.v);
                        hp_11.v = Optimization::Rotate::tRotate<2>(hp_11.v);
                        hp_12.v = Optimization::Rotate::tRotate<2>(hp_12.v);
                    }

                    if(vm >= v){
                        hm_00.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_00.v);
                        hm_01.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_01.v);
                        hm_02.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_02.v);
                        hm_10.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_10.v);
                        hm_11.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_11.v);
                        hm_12.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_12.v);
                    }

                    // Can force these to real arithmetic and save 2x.
                    Simd p_00 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_00);
                    Simd p_01 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_01);
                    Simd p_02 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_02);
                    Simd p_10 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_10);
                    Simd p_11 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_11);
                    Simd p_12 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_12);
                    Simd p_20 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_00);
                    Simd p_21 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_01);
                    Simd p_22 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_02);
                    Simd p_30 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_10);
                    Simd p_31 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_11);
                    Simd p_32 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_12);

                    vstream(chi[ss+v]()(0)(0), p_00);
                    vstream(chi[ss+v]()(0)(1), p_01);
                    vstream(chi[ss+v]()(0)(2), p_02);
                    vstream(chi[ss+v]()(1)(0), p_10);
                    vstream(chi[ss+v]()(1)(1), p_11);
                    vstream(chi[ss+v]()(1)(2), p_12);
                    vstream(chi[ss+v]()(2)(0), p_20);
                    vstream(chi[ss+v]()(2)(1), p_21);
                    vstream(chi[ss+v]()(2)(2), p_22);
                    vstream(chi[ss+v]()(3)(0), p_30);
                    vstream(chi[ss+v]()(3)(1), p_31);
                    vstream(chi[ss+v]()(3)(2), p_32);
                }

            #endif
        }

        this->M5Dtime += usecond();
    }

    template<class Impl>
    void DomainWallEOFAFermion<Impl>::M5Ddag(const FermionField& psi, const FermionField& phi,
        FermionField& chi, std::vector<Coeff_t>& lower, std::vector<Coeff_t>& diag, std::vector<Coeff_t>& upper)
    {
        GridBase* grid = psi._grid;
        int Ls  = this->Ls;
        int LLs = grid->_rdimensions[0];
        int nsimd = Simd::Nsimd();

        Vector<iSinglet<Simd> > u(LLs);
        Vector<iSinglet<Simd> > l(LLs);
        Vector<iSinglet<Simd> > d(LLs);

        assert(Ls/LLs == nsimd);
        assert(phi.checkerboard == psi.checkerboard);

        chi.checkerboard = psi.checkerboard;

        // just directly address via type pun
        typedef typename Simd::scalar_type scalar_type;
        scalar_type* u_p = (scalar_type*) &u[0];
        scalar_type* l_p = (scalar_type*) &l[0];
        scalar_type* d_p = (scalar_type*) &d[0];

        for(int o=0; o<LLs; o++){ // outer
        for(int i=0; i<nsimd; i++){ //inner
            int s  = o + i*LLs;
            int ss = o*nsimd + i;
            u_p[ss] = upper[s];
            l_p[ss] = lower[s];
            d_p[ss] = diag[s];
        }}

        this->M5Dcalls++;
        this->M5Dtime -= usecond();

        parallel_for(int ss=0; ss<grid->oSites(); ss+=LLs){ // adds LLs

        #if 0

            alignas(64) SiteHalfSpinor hp;
            alignas(64) SiteHalfSpinor hm;
            alignas(64) SiteSpinor fp;
            alignas(64) SiteSpinor fm;

            for(int v=0; v<LLs; v++){

                int vp = (v+1)%LLs;
                int vm = (v+LLs-1)%LLs;

                spProj5p(hp, psi[ss+vp]);
                spProj5m(hm, psi[ss+vm]);

                if(vp <= v){ rotate(hp, hp, 1); }
                if(vm >= v){ rotate(hm, hm, nsimd-1); }

                hp = hp*0.5;
                hm = hm*0.5;
                spRecon5p(fp, hp);
                spRecon5m(fm, hm);

                chi[ss+v] = d[v]*phi[ss+v]+u[v]*fp;
                chi[ss+v] = chi[ss+v]     +l[v]*fm;
            }

        #else

            for(int v=0; v<LLs; v++){

                vprefetch(psi[ss+v+LLs]);

                int vp = (v == LLs-1) ? 0     : v+1;
                int vm = (v == 0    ) ? LLs-1 : v-1;

                Simd hp_00 = psi[ss+vp]()(0)(0);
                Simd hp_01 = psi[ss+vp]()(0)(1);
                Simd hp_02 = psi[ss+vp]()(0)(2);
                Simd hp_10 = psi[ss+vp]()(1)(0);
                Simd hp_11 = psi[ss+vp]()(1)(1);
                Simd hp_12 = psi[ss+vp]()(1)(2);

                Simd hm_00 = psi[ss+vm]()(2)(0);
                Simd hm_01 = psi[ss+vm]()(2)(1);
                Simd hm_02 = psi[ss+vm]()(2)(2);
                Simd hm_10 = psi[ss+vm]()(3)(0);
                Simd hm_11 = psi[ss+vm]()(3)(1);
                Simd hm_12 = psi[ss+vm]()(3)(2);

                if (vp <= v){
                    hp_00.v = Optimization::Rotate::tRotate<2>(hp_00.v);
                    hp_01.v = Optimization::Rotate::tRotate<2>(hp_01.v);
                    hp_02.v = Optimization::Rotate::tRotate<2>(hp_02.v);
                    hp_10.v = Optimization::Rotate::tRotate<2>(hp_10.v);
                    hp_11.v = Optimization::Rotate::tRotate<2>(hp_11.v);
                    hp_12.v = Optimization::Rotate::tRotate<2>(hp_12.v);
                }

                if(vm >= v){
                    hm_00.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_00.v);
                    hm_01.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_01.v);
                    hm_02.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_02.v);
                    hm_10.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_10.v);
                    hm_11.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_11.v);
                    hm_12.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_12.v);
                }

                Simd p_00 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_00);
                Simd p_01 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_01);
                Simd p_02 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_02);
                Simd p_10 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_10);
                Simd p_11 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_11);
                Simd p_12 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_12);
                Simd p_20 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_00);
                Simd p_21 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_01);
                Simd p_22 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_02);
                Simd p_30 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_10);
                Simd p_31 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_11);
                Simd p_32 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_12);

                vstream(chi[ss+v]()(0)(0), p_00);
                vstream(chi[ss+v]()(0)(1), p_01);
                vstream(chi[ss+v]()(0)(2), p_02);
                vstream(chi[ss+v]()(1)(0), p_10);
                vstream(chi[ss+v]()(1)(1), p_11);
                vstream(chi[ss+v]()(1)(2), p_12);
                vstream(chi[ss+v]()(2)(0), p_20);
                vstream(chi[ss+v]()(2)(1), p_21);
                vstream(chi[ss+v]()(2)(2), p_22);
                vstream(chi[ss+v]()(3)(0), p_30);
                vstream(chi[ss+v]()(3)(1), p_31);
                vstream(chi[ss+v]()(3)(2), p_32);
            }
        #endif

        }

        this->M5Dtime += usecond();
    }

    #ifdef AVX512
        #include<simd/Intel512common.h>
        #include<simd/Intel512avx.h>
        #include<simd/Intel512single.h>
    #endif

    template<class Impl>
    void DomainWallEOFAFermion<Impl>::MooeeInternalAsm(const FermionField& psi, FermionField& chi,
        int LLs, int site, Vector<iSinglet<Simd> >& Matp, Vector<iSinglet<Simd> >& Matm)
    {
        #ifndef AVX512
        {
            SiteHalfSpinor BcastP;
            SiteHalfSpinor BcastM;
            SiteHalfSpinor SiteChiP;
            SiteHalfSpinor SiteChiM;

            // Ls*Ls * 2 * 12 * vol flops
            for(int s1=0; s1<LLs; s1++){

                for(int s2=0; s2<LLs; s2++){
                for(int l=0; l < Simd::Nsimd(); l++){ // simd lane

                    int s = s2 + l*LLs;
                    int lex = s2 + LLs*site;

                    if( s2==0 && l==0 ){
                        SiteChiP=zero;
                        SiteChiM=zero;
                    }

                    for(int sp=0; sp<2;  sp++){
                    for(int co=0; co<Nc; co++){
                        vbroadcast(BcastP()(sp)(co), psi[lex]()(sp)(co), l);
                    }}

                    for(int sp=0; sp<2;  sp++){
                    for(int co=0; co<Nc; co++){
                        vbroadcast(BcastM()(sp)(co), psi[lex]()(sp+2)(co), l);
                    }}

                    for(int sp=0; sp<2;  sp++){
                    for(int co=0; co<Nc; co++){
                        SiteChiP()(sp)(co) = real_madd(Matp[LLs*s+s1]()()(), BcastP()(sp)(co), SiteChiP()(sp)(co)); // 1100 us.
                        SiteChiM()(sp)(co) = real_madd(Matm[LLs*s+s1]()()(), BcastM()(sp)(co), SiteChiM()(sp)(co)); // each found by commenting out
                    }}
                }}

                {
                    int lex = s1 + LLs*site;
                    for(int sp=0; sp<2;  sp++){
                    for(int co=0; co<Nc; co++){
                        vstream(chi[lex]()(sp)(co),   SiteChiP()(sp)(co));
                        vstream(chi[lex]()(sp+2)(co), SiteChiM()(sp)(co));
                    }}
                }
            }

        }
        #else
        {
            // pointers
            //  MASK_REGS;
            #define Chi_00 %%zmm1
            #define Chi_01 %%zmm2
            #define Chi_02 %%zmm3
            #define Chi_10 %%zmm4
            #define Chi_11 %%zmm5
            #define Chi_12 %%zmm6
            #define Chi_20 %%zmm7
            #define Chi_21 %%zmm8
            #define Chi_22 %%zmm9
            #define Chi_30 %%zmm10
            #define Chi_31 %%zmm11
            #define Chi_32 %%zmm12

            #define BCAST0  %%zmm13
            #define BCAST1  %%zmm14
            #define BCAST2  %%zmm15
            #define BCAST3  %%zmm16
            #define BCAST4  %%zmm17
            #define BCAST5  %%zmm18
            #define BCAST6  %%zmm19
            #define BCAST7  %%zmm20
            #define BCAST8  %%zmm21
            #define BCAST9  %%zmm22
            #define BCAST10 %%zmm23
            #define BCAST11 %%zmm24

            int incr = LLs*LLs*sizeof(iSinglet<Simd>);
            for(int s1=0; s1<LLs; s1++){

                for(int s2=0; s2<LLs; s2++){

                    int lex = s2 + LLs*site;
                    uint64_t a0 = (uint64_t) &Matp[LLs*s2+s1]; // should be cacheable
                    uint64_t a1 = (uint64_t) &Matm[LLs*s2+s1];
                    uint64_t a2 = (uint64_t) &psi[lex];

                    for(int l=0; l<Simd::Nsimd(); l++){ // simd lane
                        if((s2+l)==0) {
                            asm(
                                    VPREFETCH1(0,%2)              VPREFETCH1(0,%1)
                                    VPREFETCH1(12,%2)  	          VPREFETCH1(13,%2)
                                    VPREFETCH1(14,%2)  	          VPREFETCH1(15,%2)
                                    VBCASTCDUP(0,%2,BCAST0)
                                    VBCASTCDUP(1,%2,BCAST1)
                                    VBCASTCDUP(2,%2,BCAST2)
                                    VBCASTCDUP(3,%2,BCAST3)
                                    VBCASTCDUP(4,%2,BCAST4)       VMULMEM(0,%0,BCAST0,Chi_00)
                                    VBCASTCDUP(5,%2,BCAST5)       VMULMEM(0,%0,BCAST1,Chi_01)
                                    VBCASTCDUP(6,%2,BCAST6)       VMULMEM(0,%0,BCAST2,Chi_02)
                                    VBCASTCDUP(7,%2,BCAST7)       VMULMEM(0,%0,BCAST3,Chi_10)
                                    VBCASTCDUP(8,%2,BCAST8)       VMULMEM(0,%0,BCAST4,Chi_11)
                                    VBCASTCDUP(9,%2,BCAST9)       VMULMEM(0,%0,BCAST5,Chi_12)
                                    VBCASTCDUP(10,%2,BCAST10)     VMULMEM(0,%1,BCAST6,Chi_20)
                                    VBCASTCDUP(11,%2,BCAST11)     VMULMEM(0,%1,BCAST7,Chi_21)
                                    VMULMEM(0,%1,BCAST8,Chi_22)
                                    VMULMEM(0,%1,BCAST9,Chi_30)
                                    VMULMEM(0,%1,BCAST10,Chi_31)
                                    VMULMEM(0,%1,BCAST11,Chi_32)
                                    : : "r" (a0), "r" (a1), "r" (a2)                            );
                        } else {
                            asm(
                                    VBCASTCDUP(0,%2,BCAST0)   VMADDMEM(0,%0,BCAST0,Chi_00)
                                    VBCASTCDUP(1,%2,BCAST1)   VMADDMEM(0,%0,BCAST1,Chi_01)
                                    VBCASTCDUP(2,%2,BCAST2)   VMADDMEM(0,%0,BCAST2,Chi_02)
                                    VBCASTCDUP(3,%2,BCAST3)   VMADDMEM(0,%0,BCAST3,Chi_10)
                                    VBCASTCDUP(4,%2,BCAST4)   VMADDMEM(0,%0,BCAST4,Chi_11)
                                    VBCASTCDUP(5,%2,BCAST5)   VMADDMEM(0,%0,BCAST5,Chi_12)
                                    VBCASTCDUP(6,%2,BCAST6)   VMADDMEM(0,%1,BCAST6,Chi_20)
                                    VBCASTCDUP(7,%2,BCAST7)   VMADDMEM(0,%1,BCAST7,Chi_21)
                                    VBCASTCDUP(8,%2,BCAST8)   VMADDMEM(0,%1,BCAST8,Chi_22)
                                    VBCASTCDUP(9,%2,BCAST9)   VMADDMEM(0,%1,BCAST9,Chi_30)
                                    VBCASTCDUP(10,%2,BCAST10) VMADDMEM(0,%1,BCAST10,Chi_31)
                                    VBCASTCDUP(11,%2,BCAST11) VMADDMEM(0,%1,BCAST11,Chi_32)
                                    : : "r" (a0), "r" (a1), "r" (a2)                            );
                        }
                        a0 = a0 + incr;
                        a1 = a1 + incr;
                        a2 = a2 + sizeof(typename Simd::scalar_type);
                    }
                }

                {
                  int lexa = s1+LLs*site;
                  asm (
                     VSTORE(0,%0,Chi_00) VSTORE(1 ,%0,Chi_01)  VSTORE(2 ,%0,Chi_02)
                     VSTORE(3,%0,Chi_10) VSTORE(4 ,%0,Chi_11)  VSTORE(5 ,%0,Chi_12)
                     VSTORE(6,%0,Chi_20) VSTORE(7 ,%0,Chi_21)  VSTORE(8 ,%0,Chi_22)
                     VSTORE(9,%0,Chi_30) VSTORE(10,%0,Chi_31)  VSTORE(11,%0,Chi_32)
                     : : "r" ((uint64_t)&chi[lexa]) : "memory" );

                }
            }
        }

        #undef Chi_00
        #undef Chi_01
        #undef Chi_02
        #undef Chi_10
        #undef Chi_11
        #undef Chi_12
        #undef Chi_20
        #undef Chi_21
        #undef Chi_22
        #undef Chi_30
        #undef Chi_31
        #undef Chi_32

        #undef BCAST0
        #undef BCAST1
        #undef BCAST2
        #undef BCAST3
        #undef BCAST4
        #undef BCAST5
        #undef BCAST6
        #undef BCAST7
        #undef BCAST8
        #undef BCAST9
        #undef BCAST10
        #undef BCAST11
        #endif
    };

    // Z-mobius version
    template<class Impl>
    void DomainWallEOFAFermion<Impl>::MooeeInternalZAsm(const FermionField& psi, FermionField& chi,
        int LLs, int site, Vector<iSinglet<Simd> >& Matp, Vector<iSinglet<Simd> >& Matm)
    {
        std::cout << "Error: zMobius not implemented for EOFA" << std::endl;
        exit(-1);
    };

    template<class Impl>
    void DomainWallEOFAFermion<Impl>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv)
    {
        int Ls  = this->Ls;
        int LLs = psi._grid->_rdimensions[0];
        int vol = psi._grid->oSites()/LLs;

        chi.checkerboard = psi.checkerboard;

        Vector<iSinglet<Simd> > Matp;
        Vector<iSinglet<Simd> > Matm;
        Vector<iSinglet<Simd> > *_Matp;
        Vector<iSinglet<Simd> > *_Matm;

        //  MooeeInternalCompute(dag,inv,Matp,Matm);
        if(inv && dag){
            _Matp = &this->MatpInvDag;
            _Matm = &this->MatmInvDag;
        }

        if(inv && (!dag)){
            _Matp = &this->MatpInv;
            _Matm = &this->MatmInv;
        }

        if(!inv){
            MooeeInternalCompute(dag, inv, Matp, Matm);
            _Matp = &Matp;
            _Matm = &Matm;
        }

        assert(_Matp->size() == Ls*LLs);

        this->MooeeInvCalls++;
        this->MooeeInvTime -= usecond();

        if(switcheroo<Coeff_t>::iscomplex()){
            parallel_for(auto site=0; site<vol; site++){
                MooeeInternalZAsm(psi, chi, LLs, site, *_Matp, *_Matm);
            }
        } else {
            parallel_for(auto site=0; site<vol; site++){
                MooeeInternalAsm(psi, chi, LLs, site, *_Matp, *_Matm);
            }
        }

        this->MooeeInvTime += usecond();
    }

    #ifdef DOMAIN_WALL_EOFA_DPERP_VEC

        INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplD);
        INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplF);
        INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplD);
        INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplF);

        INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplDF);
        INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplFH);
        INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplDF);
        INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplFH);

        template void DomainWallEOFAFermion<DomainWallVec5dImplF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);
        template void DomainWallEOFAFermion<DomainWallVec5dImplD>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);
        template void DomainWallEOFAFermion<ZDomainWallVec5dImplF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);
        template void DomainWallEOFAFermion<ZDomainWallVec5dImplD>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);

        template void DomainWallEOFAFermion<DomainWallVec5dImplFH>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);
        template void DomainWallEOFAFermion<DomainWallVec5dImplDF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);
        template void DomainWallEOFAFermion<ZDomainWallVec5dImplFH>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);
        template void DomainWallEOFAFermion<ZDomainWallVec5dImplDF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);

    #endif

}}
Re-import DWF and abstract base EOFA fermion classes and tests 2017-08-15 18:36:08 +01:00			`/*************************************************************************************`

			`Grid physics library, www.github.com/paboyle/Grid`

			`Source file: ./lib/qcd/action/fermion/DomainWallEOFAFermionvec.cc`

			`Copyright (C) 2017`

			`Author: Peter Boyle <pabobyle@ph.ed.ac.uk>`
			`Author: Peter Boyle <paboyle@ph.ed.ac.uk>`
			`Author: Peter Boyle <peterboyle@Peters-MacBook-Pro-2.local>`
			`Author: paboyle <paboyle@ph.ed.ac.uk>`
			`Author: David Murphy <dmurphy@phys.columbia.edu>`

			`This program is free software; you can redistribute it and/or modify`
			`it under the terms of the GNU General Public License as published by`
			`the Free Software Foundation; either version 2 of the License, or`
			`(at your option) any later version.`

			`This program is distributed in the hope that it will be useful,`
			`but WITHOUT ANY WARRANTY; without even the implied warranty of`
			`MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the`
			`GNU General Public License for more details.`

			`You should have received a copy of the GNU General Public License along`
			`with this program; if not, write to the Free Software Foundation, Inc.,`
			`51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.`

			`See the full license in the file "LICENSE" in the top level distribution directory`
			`*************************************************************************************/`
			`/* END LEGAL */`

			`#include <Grid/qcd/action/fermion/FermionCore.h>`
			`#include <Grid/qcd/action/fermion/DomainWallEOFAFermion.h>`

			`namespace Grid {`
			`namespace QCD {`

			`/*`
			`* Dense matrix versions of routines`
			`*/`
			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::MooeeInvDag(const FermionField& psi, FermionField& chi)`
			`{`
			`this->MooeeInternal(psi, chi, DaggerYes, InverseYes);`
			`}`

			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::MooeeInv(const FermionField& psi, FermionField& chi)`
			`{`
			`this->MooeeInternal(psi, chi, DaggerNo, InverseYes);`
			`}`

			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::M5D(const FermionField& psi, const FermionField& phi,`
			`FermionField& chi, std::vector<Coeff_t>& lower, std::vector<Coeff_t>& diag, std::vector<Coeff_t>& upper)`
			`{`
			`GridBase* grid = psi._grid;`
			`int Ls = this->Ls;`
			`int LLs = grid->_rdimensions[0];`
			`const int nsimd = Simd::Nsimd();`

			`Vector<iSinglet<Simd> > u(LLs);`
			`Vector<iSinglet<Simd> > l(LLs);`
			`Vector<iSinglet<Simd> > d(LLs);`

			`assert(Ls/LLs == nsimd);`
			`assert(phi.checkerboard == psi.checkerboard);`

			`chi.checkerboard = psi.checkerboard;`

			`// just directly address via type pun`
			`typedef typename Simd::scalar_type scalar_type;`
			`scalar_type* u_p = (scalar_type*) &u[0];`
			`scalar_type* l_p = (scalar_type*) &l[0];`
			`scalar_type* d_p = (scalar_type*) &d[0];`

			`for(int o=0;o<LLs;o++){ // outer`
			`for(int i=0;i<nsimd;i++){ //inner`
			`int s = o + i*LLs;`
			`int ss = o*nsimd + i;`
			`u_p[ss] = upper[s];`
			`l_p[ss] = lower[s];`
			`d_p[ss] = diag[s];`
			`}}`

			`this->M5Dcalls++;`
			`this->M5Dtime -= usecond();`

			`assert(Nc == 3);`

			`parallel_for(int ss=0; ss<grid->oSites(); ss+=LLs){ // adds LLs`

			`#if 0`

			`alignas(64) SiteHalfSpinor hp;`
			`alignas(64) SiteHalfSpinor hm;`
			`alignas(64) SiteSpinor fp;`
			`alignas(64) SiteSpinor fm;`

			`for(int v=0; v<LLs; v++){`

			`int vp = (v+1)%LLs;`
			`int vm = (v+LLs-1)%LLs;`

			`spProj5m(hp, psi[ss+vp]);`
			`spProj5p(hm, psi[ss+vm]);`

			`if (vp <= v){ rotate(hp, hp, 1); }`
			`if (vm >= v){ rotate(hm, hm, nsimd-1); }`

			`hp = 0.5*hp;`
			`hm = 0.5*hm;`

			`spRecon5m(fp, hp);`
			`spRecon5p(fm, hm);`

			`chi[ss+v] = d[v]*phi[ss+v];`
			`chi[ss+v] = chi[ss+v] + u[v]*fp;`
			`chi[ss+v] = chi[ss+v] + l[v]*fm;`

			`}`

			`#else`

			`for(int v=0; v<LLs; v++){`

			`vprefetch(psi[ss+v+LLs]);`

			`int vp = (v==LLs-1) ? 0 : v+1;`
			`int vm = (v==0) ? LLs-1 : v-1;`

			`Simd hp_00 = psi[ss+vp]()(2)(0);`
			`Simd hp_01 = psi[ss+vp]()(2)(1);`
			`Simd hp_02 = psi[ss+vp]()(2)(2);`
			`Simd hp_10 = psi[ss+vp]()(3)(0);`
			`Simd hp_11 = psi[ss+vp]()(3)(1);`
			`Simd hp_12 = psi[ss+vp]()(3)(2);`

			`Simd hm_00 = psi[ss+vm]()(0)(0);`
			`Simd hm_01 = psi[ss+vm]()(0)(1);`
			`Simd hm_02 = psi[ss+vm]()(0)(2);`
			`Simd hm_10 = psi[ss+vm]()(1)(0);`
			`Simd hm_11 = psi[ss+vm]()(1)(1);`
			`Simd hm_12 = psi[ss+vm]()(1)(2);`

			`if(vp <= v){`
			`hp_00.v = Optimization::Rotate::tRotate<2>(hp_00.v);`
			`hp_01.v = Optimization::Rotate::tRotate<2>(hp_01.v);`
			`hp_02.v = Optimization::Rotate::tRotate<2>(hp_02.v);`
			`hp_10.v = Optimization::Rotate::tRotate<2>(hp_10.v);`
			`hp_11.v = Optimization::Rotate::tRotate<2>(hp_11.v);`
			`hp_12.v = Optimization::Rotate::tRotate<2>(hp_12.v);`
			`}`

			`if(vm >= v){`
			`hm_00.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_00.v);`
			`hm_01.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_01.v);`
			`hm_02.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_02.v);`
			`hm_10.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_10.v);`
			`hm_11.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_11.v);`
			`hm_12.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_12.v);`
			`}`

			`// Can force these to real arithmetic and save 2x.`
			`Simd p_00 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_00);`
			`Simd p_01 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_01);`
			`Simd p_02 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_02);`
			`Simd p_10 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_10);`
			`Simd p_11 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_11);`
			`Simd p_12 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_12);`
			`Simd p_20 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_00);`
			`Simd p_21 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_01);`
			`Simd p_22 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_02);`
			`Simd p_30 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_10);`
			`Simd p_31 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_11);`
			`Simd p_32 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_12);`

			`vstream(chi[ss+v]()(0)(0), p_00);`
			`vstream(chi[ss+v]()(0)(1), p_01);`
			`vstream(chi[ss+v]()(0)(2), p_02);`
			`vstream(chi[ss+v]()(1)(0), p_10);`
			`vstream(chi[ss+v]()(1)(1), p_11);`
			`vstream(chi[ss+v]()(1)(2), p_12);`
			`vstream(chi[ss+v]()(2)(0), p_20);`
			`vstream(chi[ss+v]()(2)(1), p_21);`
			`vstream(chi[ss+v]()(2)(2), p_22);`
			`vstream(chi[ss+v]()(3)(0), p_30);`
			`vstream(chi[ss+v]()(3)(1), p_31);`
			`vstream(chi[ss+v]()(3)(2), p_32);`
			`}`

			`#endif`
			`}`

			`this->M5Dtime += usecond();`
			`}`

			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::M5Ddag(const FermionField& psi, const FermionField& phi,`
			`FermionField& chi, std::vector<Coeff_t>& lower, std::vector<Coeff_t>& diag, std::vector<Coeff_t>& upper)`
			`{`
			`GridBase* grid = psi._grid;`
			`int Ls = this->Ls;`
			`int LLs = grid->_rdimensions[0];`
			`int nsimd = Simd::Nsimd();`

			`Vector<iSinglet<Simd> > u(LLs);`
			`Vector<iSinglet<Simd> > l(LLs);`
			`Vector<iSinglet<Simd> > d(LLs);`

			`assert(Ls/LLs == nsimd);`
			`assert(phi.checkerboard == psi.checkerboard);`

			`chi.checkerboard = psi.checkerboard;`

			`// just directly address via type pun`
			`typedef typename Simd::scalar_type scalar_type;`
			`scalar_type* u_p = (scalar_type*) &u[0];`
			`scalar_type* l_p = (scalar_type*) &l[0];`
			`scalar_type* d_p = (scalar_type*) &d[0];`

			`for(int o=0; o<LLs; o++){ // outer`
			`for(int i=0; i<nsimd; i++){ //inner`
			`int s = o + i*LLs;`
			`int ss = o*nsimd + i;`
			`u_p[ss] = upper[s];`
			`l_p[ss] = lower[s];`
			`d_p[ss] = diag[s];`
			`}}`

			`this->M5Dcalls++;`
			`this->M5Dtime -= usecond();`

			`parallel_for(int ss=0; ss<grid->oSites(); ss+=LLs){ // adds LLs`

			`#if 0`

			`alignas(64) SiteHalfSpinor hp;`
			`alignas(64) SiteHalfSpinor hm;`
			`alignas(64) SiteSpinor fp;`
			`alignas(64) SiteSpinor fm;`

			`for(int v=0; v<LLs; v++){`

			`int vp = (v+1)%LLs;`
			`int vm = (v+LLs-1)%LLs;`

			`spProj5p(hp, psi[ss+vp]);`
			`spProj5m(hm, psi[ss+vm]);`

			`if(vp <= v){ rotate(hp, hp, 1); }`
			`if(vm >= v){ rotate(hm, hm, nsimd-1); }`

			`hp = hp*0.5;`
			`hm = hm*0.5;`
			`spRecon5p(fp, hp);`
			`spRecon5m(fm, hm);`

			`chi[ss+v] = d[v]phi[ss+v]+u[v]fp;`
			`chi[ss+v] = chi[ss+v] +l[v]*fm;`
			`}`

			`#else`

			`for(int v=0; v<LLs; v++){`

			`vprefetch(psi[ss+v+LLs]);`

			`int vp = (v == LLs-1) ? 0 : v+1;`
			`int vm = (v == 0 ) ? LLs-1 : v-1;`

			`Simd hp_00 = psi[ss+vp]()(0)(0);`
			`Simd hp_01 = psi[ss+vp]()(0)(1);`
			`Simd hp_02 = psi[ss+vp]()(0)(2);`
			`Simd hp_10 = psi[ss+vp]()(1)(0);`
			`Simd hp_11 = psi[ss+vp]()(1)(1);`
			`Simd hp_12 = psi[ss+vp]()(1)(2);`

			`Simd hm_00 = psi[ss+vm]()(2)(0);`
			`Simd hm_01 = psi[ss+vm]()(2)(1);`
			`Simd hm_02 = psi[ss+vm]()(2)(2);`
			`Simd hm_10 = psi[ss+vm]()(3)(0);`
			`Simd hm_11 = psi[ss+vm]()(3)(1);`
			`Simd hm_12 = psi[ss+vm]()(3)(2);`

			`if (vp <= v){`
			`hp_00.v = Optimization::Rotate::tRotate<2>(hp_00.v);`
			`hp_01.v = Optimization::Rotate::tRotate<2>(hp_01.v);`
			`hp_02.v = Optimization::Rotate::tRotate<2>(hp_02.v);`
			`hp_10.v = Optimization::Rotate::tRotate<2>(hp_10.v);`
			`hp_11.v = Optimization::Rotate::tRotate<2>(hp_11.v);`
			`hp_12.v = Optimization::Rotate::tRotate<2>(hp_12.v);`
			`}`

			`if(vm >= v){`
			`hm_00.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_00.v);`
			`hm_01.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_01.v);`
			`hm_02.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_02.v);`
			`hm_10.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_10.v);`
			`hm_11.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_11.v);`
			`hm_12.v = Optimization::Rotate::tRotate<2*Simd::Nsimd()-2>(hm_12.v);`
			`}`

			`Simd p_00 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_00);`
			`Simd p_01 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_01);`
			`Simd p_02 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(0)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_02);`
			`Simd p_10 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(0)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_10);`
			`Simd p_11 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(1)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_11);`
			`Simd p_12 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(1)(2)) + switcheroo<Coeff_t>::mult(u[v]()()(), hp_12);`
			`Simd p_20 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_00);`
			`Simd p_21 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_01);`
			`Simd p_22 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(2)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_02);`
			`Simd p_30 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(0)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_10);`
			`Simd p_31 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(1)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_11);`
			`Simd p_32 = switcheroo<Coeff_t>::mult(d[v]()()(), phi[ss+v]()(3)(2)) + switcheroo<Coeff_t>::mult(l[v]()()(), hm_12);`

			`vstream(chi[ss+v]()(0)(0), p_00);`
			`vstream(chi[ss+v]()(0)(1), p_01);`
			`vstream(chi[ss+v]()(0)(2), p_02);`
			`vstream(chi[ss+v]()(1)(0), p_10);`
			`vstream(chi[ss+v]()(1)(1), p_11);`
			`vstream(chi[ss+v]()(1)(2), p_12);`
			`vstream(chi[ss+v]()(2)(0), p_20);`
			`vstream(chi[ss+v]()(2)(1), p_21);`
			`vstream(chi[ss+v]()(2)(2), p_22);`
			`vstream(chi[ss+v]()(3)(0), p_30);`
			`vstream(chi[ss+v]()(3)(1), p_31);`
			`vstream(chi[ss+v]()(3)(2), p_32);`
			`}`
			`#endif`

			`}`

			`this->M5Dtime += usecond();`
			`}`

			`#ifdef AVX512`
			`#include<simd/Intel512common.h>`
			`#include<simd/Intel512avx.h>`
			`#include<simd/Intel512single.h>`
			`#endif`

			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::MooeeInternalAsm(const FermionField& psi, FermionField& chi,`
			`int LLs, int site, Vector<iSinglet<Simd> >& Matp, Vector<iSinglet<Simd> >& Matm)`
			`{`
			`#ifndef AVX512`
			`{`
			`SiteHalfSpinor BcastP;`
			`SiteHalfSpinor BcastM;`
			`SiteHalfSpinor SiteChiP;`
			`SiteHalfSpinor SiteChiM;`

			`// LsLs 2 * 12 * vol flops`
			`for(int s1=0; s1<LLs; s1++){`

			`for(int s2=0; s2<LLs; s2++){`
			`for(int l=0; l < Simd::Nsimd(); l++){ // simd lane`

			`int s = s2 + l*LLs;`
			`int lex = s2 + LLs*site;`

			`if( s2==0 && l==0 ){`
			`SiteChiP=zero;`
			`SiteChiM=zero;`
			`}`

			`for(int sp=0; sp<2; sp++){`
			`for(int co=0; co<Nc; co++){`
			`vbroadcast(BcastP()(sp)(co), psi[lex]()(sp)(co), l);`
			`}}`

			`for(int sp=0; sp<2; sp++){`
			`for(int co=0; co<Nc; co++){`
			`vbroadcast(BcastM()(sp)(co), psi[lex]()(sp+2)(co), l);`
			`}}`

			`for(int sp=0; sp<2; sp++){`
			`for(int co=0; co<Nc; co++){`
			`SiteChiP()(sp)(co) = real_madd(Matp[LLs*s+s1]()()(), BcastP()(sp)(co), SiteChiP()(sp)(co)); // 1100 us.`
			`SiteChiM()(sp)(co) = real_madd(Matm[LLs*s+s1]()()(), BcastM()(sp)(co), SiteChiM()(sp)(co)); // each found by commenting out`
			`}}`
			`}}`

			`{`
			`int lex = s1 + LLs*site;`
			`for(int sp=0; sp<2; sp++){`
			`for(int co=0; co<Nc; co++){`
			`vstream(chi[lex]()(sp)(co), SiteChiP()(sp)(co));`
			`vstream(chi[lex]()(sp+2)(co), SiteChiM()(sp)(co));`
			`}}`
			`}`
			`}`

			`}`
			`#else`
			`{`
			`// pointers`
			`// MASK_REGS;`
			`#define Chi_00 %%zmm1`
			`#define Chi_01 %%zmm2`
			`#define Chi_02 %%zmm3`
			`#define Chi_10 %%zmm4`
			`#define Chi_11 %%zmm5`
			`#define Chi_12 %%zmm6`
			`#define Chi_20 %%zmm7`
			`#define Chi_21 %%zmm8`
			`#define Chi_22 %%zmm9`
			`#define Chi_30 %%zmm10`
			`#define Chi_31 %%zmm11`
			`#define Chi_32 %%zmm12`

			`#define BCAST0 %%zmm13`
			`#define BCAST1 %%zmm14`
			`#define BCAST2 %%zmm15`
			`#define BCAST3 %%zmm16`
			`#define BCAST4 %%zmm17`
			`#define BCAST5 %%zmm18`
			`#define BCAST6 %%zmm19`
			`#define BCAST7 %%zmm20`
			`#define BCAST8 %%zmm21`
			`#define BCAST9 %%zmm22`
			`#define BCAST10 %%zmm23`
			`#define BCAST11 %%zmm24`

			`int incr = LLsLLssizeof(iSinglet<Simd>);`
			`for(int s1=0; s1<LLs; s1++){`

			`for(int s2=0; s2<LLs; s2++){`

			`int lex = s2 + LLs*site;`
			`uint64_t a0 = (uint64_t) &Matp[LLs*s2+s1]; // should be cacheable`
			`uint64_t a1 = (uint64_t) &Matm[LLs*s2+s1];`
			`uint64_t a2 = (uint64_t) &psi[lex];`

			`for(int l=0; l<Simd::Nsimd(); l++){ // simd lane`
			`if((s2+l)==0) {`
			`asm(`
			`VPREFETCH1(0,%2) VPREFETCH1(0,%1)`
			`VPREFETCH1(12,%2) VPREFETCH1(13,%2)`
			`VPREFETCH1(14,%2) VPREFETCH1(15,%2)`
			`VBCASTCDUP(0,%2,BCAST0)`
			`VBCASTCDUP(1,%2,BCAST1)`
			`VBCASTCDUP(2,%2,BCAST2)`
			`VBCASTCDUP(3,%2,BCAST3)`
			`VBCASTCDUP(4,%2,BCAST4) VMULMEM(0,%0,BCAST0,Chi_00)`
			`VBCASTCDUP(5,%2,BCAST5) VMULMEM(0,%0,BCAST1,Chi_01)`
			`VBCASTCDUP(6,%2,BCAST6) VMULMEM(0,%0,BCAST2,Chi_02)`
			`VBCASTCDUP(7,%2,BCAST7) VMULMEM(0,%0,BCAST3,Chi_10)`
			`VBCASTCDUP(8,%2,BCAST8) VMULMEM(0,%0,BCAST4,Chi_11)`
			`VBCASTCDUP(9,%2,BCAST9) VMULMEM(0,%0,BCAST5,Chi_12)`
			`VBCASTCDUP(10,%2,BCAST10) VMULMEM(0,%1,BCAST6,Chi_20)`
			`VBCASTCDUP(11,%2,BCAST11) VMULMEM(0,%1,BCAST7,Chi_21)`
			`VMULMEM(0,%1,BCAST8,Chi_22)`
			`VMULMEM(0,%1,BCAST9,Chi_30)`
			`VMULMEM(0,%1,BCAST10,Chi_31)`
			`VMULMEM(0,%1,BCAST11,Chi_32)`
			`: : "r" (a0), "r" (a1), "r" (a2) );`
			`} else {`
			`asm(`
			`VBCASTCDUP(0,%2,BCAST0) VMADDMEM(0,%0,BCAST0,Chi_00)`
			`VBCASTCDUP(1,%2,BCAST1) VMADDMEM(0,%0,BCAST1,Chi_01)`
			`VBCASTCDUP(2,%2,BCAST2) VMADDMEM(0,%0,BCAST2,Chi_02)`
			`VBCASTCDUP(3,%2,BCAST3) VMADDMEM(0,%0,BCAST3,Chi_10)`
			`VBCASTCDUP(4,%2,BCAST4) VMADDMEM(0,%0,BCAST4,Chi_11)`
			`VBCASTCDUP(5,%2,BCAST5) VMADDMEM(0,%0,BCAST5,Chi_12)`
			`VBCASTCDUP(6,%2,BCAST6) VMADDMEM(0,%1,BCAST6,Chi_20)`
			`VBCASTCDUP(7,%2,BCAST7) VMADDMEM(0,%1,BCAST7,Chi_21)`
			`VBCASTCDUP(8,%2,BCAST8) VMADDMEM(0,%1,BCAST8,Chi_22)`
			`VBCASTCDUP(9,%2,BCAST9) VMADDMEM(0,%1,BCAST9,Chi_30)`
			`VBCASTCDUP(10,%2,BCAST10) VMADDMEM(0,%1,BCAST10,Chi_31)`
			`VBCASTCDUP(11,%2,BCAST11) VMADDMEM(0,%1,BCAST11,Chi_32)`
			`: : "r" (a0), "r" (a1), "r" (a2) );`
			`}`
			`a0 = a0 + incr;`
			`a1 = a1 + incr;`
Added support for GCC compilation for Skylake AVX512 2018-01-28 16:02:46 +00:00			`a2 = a2 + sizeof(typename Simd::scalar_type);`
Re-import DWF and abstract base EOFA fermion classes and tests 2017-08-15 18:36:08 +01:00			`}`
			`}`

			`{`
			`int lexa = s1+LLs*site;`
			`asm (`
			`VSTORE(0,%0,Chi_00) VSTORE(1 ,%0,Chi_01) VSTORE(2 ,%0,Chi_02)`
			`VSTORE(3,%0,Chi_10) VSTORE(4 ,%0,Chi_11) VSTORE(5 ,%0,Chi_12)`
			`VSTORE(6,%0,Chi_20) VSTORE(7 ,%0,Chi_21) VSTORE(8 ,%0,Chi_22)`
			`VSTORE(9,%0,Chi_30) VSTORE(10,%0,Chi_31) VSTORE(11,%0,Chi_32)`
			`: : "r" ((uint64_t)&chi[lexa]) : "memory" );`

			`}`
			`}`
			`}`

			`#undef Chi_00`
			`#undef Chi_01`
			`#undef Chi_02`
			`#undef Chi_10`
			`#undef Chi_11`
			`#undef Chi_12`
			`#undef Chi_20`
			`#undef Chi_21`
			`#undef Chi_22`
			`#undef Chi_30`
			`#undef Chi_31`
			`#undef Chi_32`

			`#undef BCAST0`
			`#undef BCAST1`
			`#undef BCAST2`
			`#undef BCAST3`
			`#undef BCAST4`
			`#undef BCAST5`
			`#undef BCAST6`
			`#undef BCAST7`
			`#undef BCAST8`
			`#undef BCAST9`
			`#undef BCAST10`
			`#undef BCAST11`
			`#endif`
			`};`

			`// Z-mobius version`
			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::MooeeInternalZAsm(const FermionField& psi, FermionField& chi,`
			`int LLs, int site, Vector<iSinglet<Simd> >& Matp, Vector<iSinglet<Simd> >& Matm)`
			`{`
			`std::cout << "Error: zMobius not implemented for EOFA" << std::endl;`
			`exit(-1);`
			`};`

			`template<class Impl>`
			`void DomainWallEOFAFermion<Impl>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv)`
			`{`
			`int Ls = this->Ls;`
			`int LLs = psi._grid->_rdimensions[0];`
			`int vol = psi._grid->oSites()/LLs;`

			`chi.checkerboard = psi.checkerboard;`

			`Vector<iSinglet<Simd> > Matp;`
			`Vector<iSinglet<Simd> > Matm;`
			`Vector<iSinglet<Simd> > *_Matp;`
			`Vector<iSinglet<Simd> > *_Matm;`

			`// MooeeInternalCompute(dag,inv,Matp,Matm);`
			`if(inv && dag){`
			`_Matp = &this->MatpInvDag;`
			`_Matm = &this->MatmInvDag;`
			`}`

			`if(inv && (!dag)){`
			`_Matp = &this->MatpInv;`
			`_Matm = &this->MatmInv;`
			`}`

			`if(!inv){`
			`MooeeInternalCompute(dag, inv, Matp, Matm);`
			`_Matp = &Matp;`
			`_Matm = &Matm;`
			`}`

			`assert(_Matp->size() == Ls*LLs);`

			`this->MooeeInvCalls++;`
			`this->MooeeInvTime -= usecond();`

			`if(switcheroo<Coeff_t>::iscomplex()){`
			`parallel_for(auto site=0; site<vol; site++){`
			`MooeeInternalZAsm(psi, chi, LLs, site, _Matp, _Matm);`
			`}`
			`} else {`
			`parallel_for(auto site=0; site<vol; site++){`
			`MooeeInternalAsm(psi, chi, LLs, site, _Matp, _Matm);`
			`}`
			`}`

			`this->MooeeInvTime += usecond();`
			`}`

			`#ifdef DOMAIN_WALL_EOFA_DPERP_VEC`

			`INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplD);`
			`INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplF);`
			`INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplD);`
			`INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplF);`

			`INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplDF);`
			`INSTANTIATE_DPERP_DWF_EOFA(DomainWallVec5dImplFH);`
			`INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplDF);`
			`INSTANTIATE_DPERP_DWF_EOFA(ZDomainWallVec5dImplFH);`

			`template void DomainWallEOFAFermion<DomainWallVec5dImplF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`
			`template void DomainWallEOFAFermion<DomainWallVec5dImplD>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`
			`template void DomainWallEOFAFermion<ZDomainWallVec5dImplF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`
			`template void DomainWallEOFAFermion<ZDomainWallVec5dImplD>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`

			`template void DomainWallEOFAFermion<DomainWallVec5dImplFH>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`
			`template void DomainWallEOFAFermion<DomainWallVec5dImplDF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`
			`template void DomainWallEOFAFermion<ZDomainWallVec5dImplFH>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`
			`template void DomainWallEOFAFermion<ZDomainWallVec5dImplDF>::MooeeInternal(const FermionField& psi, FermionField& chi, int dag, int inv);`

			`#endif`

			`}}`