Merge branch 'develop' into feature/baryon

2026-01-05 01:21:59 +00:00 · 2020-06-25 16:24:07 +01:00
parent a65f66d2db 936c5ecf69
commit 39cea8b5a7
139 changed files with 6115 additions and 2632 deletions
--- a/Grid/qcd/utils/A2Autils.h
+++ b/Grid/qcd/utils/A2Autils.h
@@ -185,13 +185,14 @@ void A2Autils<FImpl>::MesonField(TensorType &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto lhs_v = lhs_wi[i].View();
+	  // Recreate view potentially expensive outside fo UVM mode
+	  autoView(lhs_v,lhs_wi[i],CpuRead);
 	  auto left = conjugate(lhs_v[ss]);
-
 	  for(int j=0;j<Rblock;j++){

 	    SpinMatrix_v vv;
-	    auto rhs_v = rhs_vj[j].View();
+	    // Recreate view potentially expensive outside fo UVM mode
+	    autoView(rhs_v,rhs_vj[j],CpuRead);
 	    auto right = rhs_v[ss];
 	    for(int s1=0;s1<Ns;s1++){
 	    for(int s2=0;s2<Ns;s2++){
@@ -204,11 +205,10 @@ void A2Autils<FImpl>::MesonField(TensorType &mat,
 	    int base = Nmom*i+Nmom*Lblock*j+Nmom*Lblock*Rblock*r;
 	    for ( int m=0;m<Nmom;m++){
 	      int idx = m+base;
-	      auto mom_v = mom[m].View();
+	      autoView(mom_v,mom[m],CpuRead);
 	      auto phase = mom_v[ss];
 	      mac(&lvSum[idx],&vv,&phase);
 	    }
-	  
 	  }
 	}
      }
@@ -371,7 +371,7 @@ void A2Autils<FImpl>::PionFieldXX(Eigen::Tensor<ComplexD,3> &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto wi_v = wi[i].View();
+	  autoView(wi_v,wi[i],CpuRead);
 	  auto w = conjugate(wi_v[ss]);
 	  if (g5) {
 	    w()(2)(0) = - w()(2)(0);
@@ -383,7 +383,7 @@ void A2Autils<FImpl>::PionFieldXX(Eigen::Tensor<ComplexD,3> &mat,
 	  }
 	  for(int j=0;j<Rblock;j++){
 	    
-	    auto vj_v=vj[j].View();
+	    autoView(vj_v,vj[j],CpuRead);
 	    auto v  = vj_v[ss];
 	    auto vv = v()(0)(0);

@@ -518,12 +518,12 @@ void A2Autils<FImpl>::PionFieldWVmom(Eigen::Tensor<ComplexD,4> &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto wi_v = wi[i].View();
+	  autoView(wi_v,wi[i],CpuRead);
 	  auto w = conjugate(wi_v[ss]);

 	  for(int j=0;j<Rblock;j++){
-	    
-	    auto vj_v = vj[j].View();
+
+	    autoView(vj_v,vj[j],CpuRead);
 	    auto v = vj_v[ss];

 	    auto vv = w()(0)(0) * v()(0)(0)// Gamma5 Dirac basis explicitly written out
@@ -544,7 +544,7 @@ void A2Autils<FImpl>::PionFieldWVmom(Eigen::Tensor<ComplexD,4> &mat,
 	    int base = Nmom*i+Nmom*Lblock*j+Nmom*Lblock*Rblock*r;
 	    for ( int m=0;m<Nmom;m++){
 	      int idx = m+base;
-	      auto mom_v = mom[m].View();
+	      autoView(mom_v,mom[m],CpuRead);
 	      auto phase = mom_v[ss];
 	      mac(&lvSum[idx],&vv,&phase()()());
 	    }
@@ -730,13 +730,13 @@ void A2Autils<FImpl>::AslashField(TensorType &mat,

            for(int i=0;i<Lblock;i++)
            {
-  	        auto wi_v = lhs_wi[i].View();
+  	        autoView(wi_v,lhs_wi[i],CpuRead);
                auto left = conjugate(wi_v[ss]);

                for(int j=0;j<Rblock;j++)
                {
                    SpinMatrix_v vv;
-		    auto vj_v  = rhs_vj[j].View();
+		    autoView(vj_v,rhs_vj[j],CpuRead);
                    auto right = vj_v[ss];

                    for(int s1=0;s1<Ns;s1++)
@@ -752,8 +752,8 @@ void A2Autils<FImpl>::AslashField(TensorType &mat,

                    for ( int m=0;m<Nem;m++)
                    {
-  		        auto emB0_v = emB0[m].View();
-  		        auto emB1_v = emB1[m].View();
+  		        autoView(emB0_v,emB0[m],CpuRead);
+		        autoView(emB1_v,emB1[m],CpuRead);
                        int idx  = m+base;
                        auto b0  = emB0_v[ss];
                        auto b1  = emB1_v[ss];
@@ -1014,21 +1014,21 @@ A2Autils<FImpl>::ContractWWVV(std::vector<PropagatorField> &WWVV,
    for(int d_o=0;d_o<N_d;d_o+=d_unroll){
      for(int t=0;t<N_t;t++){
      for(int s=0;s<N_s;s++){
-  auto vs_v = vs[s].View();
-  auto tmp1 = vs_v[ss];
-  vobj tmp2 = Zero();
-  vobj tmp3 = Zero();
-  for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
-    auto vd_v = vd[d].View();
-    Scalar_v coeff = WW_sd(t,s,d);
-    tmp3 = conjugate(vd_v[ss]);
-    mac(&tmp2, &coeff, &tmp3);
-  }
+	autoView(vs_v,vs[s],CpuRead);
+	auto tmp1 = vs_v[ss];
+	vobj tmp2 = Zero();
+	vobj tmp3 = Zero();
+	for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
+	  autoView(vd_v,vd[d],CpuRead);
+	  Scalar_v coeff = WW_sd(t,s,d);
+	  tmp3 = conjugate(vd_v[ss]);
+	  mac(&tmp2, &coeff, &tmp3);
+	}

-  //////////////////////////
-  // Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
-  //////////////////////////
-  OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);
+	//////////////////////////
+	// Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
+	//////////////////////////
+	OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);

      }}
    }
@@ -1067,21 +1067,20 @@ A2Autils<FImpl>::ContractWWVV(std::vector<PropagatorField> &WWVV,
    thread_for(ss,grid->oSites(),{
      for(int d_o=0;d_o<N_d;d_o+=d_unroll){
        for(int s=0;s<N_s;s++){
-    auto vs_v = vs[s].View();
-    auto tmp1 = vs_v[ss];
-    vobj tmp2 = Zero();
-    vobj tmp3 = Zero();
-    for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
-      auto vd_v = vd[d].View();
-      Scalar_v coeff = buf(s,d);
-      tmp3 = conjugate(vd_v[ss]);
-      mac(&tmp2, &coeff, &tmp3);
-    }
-
-    //////////////////////////
-    // Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
-    //////////////////////////
-    OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);
+	  autoView(vs_v,vs[s],CpuRead);
+	  auto tmp1 = vs_v[ss];
+	  vobj tmp2 = Zero();
+	  vobj tmp3 = Zero();
+	  for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
+	    autoView(vd_v,vd[d],CpuRead);
+	    Scalar_v coeff = buf(s,d);
+	    tmp3 = conjugate(vd_v[ss]);
+	    mac(&tmp2, &coeff, &tmp3);
+	  }
+	  //////////////////////////
+	  // Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
+	  //////////////////////////
+	  OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);
      }}
    });
  }
@@ -1093,7 +1092,7 @@ inline void A2Autils<FImpl>::OuterProductWWVV(PropagatorField &WWVV,
                                             const vobj &rhs,
                                             const int Ns, const int ss)
 {
-  auto WWVV_v = WWVV.View();
+  autoView(WWVV_v,WWVV,CpuWrite);
  for (int s1 = 0; s1 < Ns; s1++){
    for (int s2 = 0; s2 < Ns; s2++){
      WWVV_v[ss]()(s1,s2)(0, 0) += lhs()(s1)(0) * rhs()(s2)(0);
@@ -1122,10 +1121,10 @@ void A2Autils<FImpl>::ContractFourQuarkColourDiagonal(const PropagatorField &WWV

  GridBase *grid = WWVV0.Grid();

-  auto WWVV0_v = WWVV0.View();
-  auto WWVV1_v = WWVV1.View();
-  auto O_trtr_v= O_trtr.View();
-  auto O_fig8_v= O_fig8.View();
+  autoView(WWVV0_v , WWVV0,CpuRead);
+  autoView(WWVV1_v , WWVV1,CpuRead);
+  autoView(O_trtr_v, O_trtr,CpuWrite);
+  autoView(O_fig8_v, O_fig8,CpuWrite);
  thread_for(ss,grid->oSites(),{

    typedef typename ComplexField::vector_object vobj;
@@ -1166,10 +1165,10 @@ void A2Autils<FImpl>::ContractFourQuarkColourMix(const PropagatorField &WWVV0,

  GridBase *grid = WWVV0.Grid();

-  auto WWVV0_v = WWVV0.View();
-  auto WWVV1_v = WWVV1.View();
-  auto O_trtr_v= O_trtr.View();
-  auto O_fig8_v= O_fig8.View();
+  autoView( WWVV0_v , WWVV0,CpuRead);
+  autoView( WWVV1_v , WWVV1,CpuRead);
+  autoView( O_trtr_v, O_trtr,CpuWrite);
+  autoView( O_fig8_v, O_fig8,CpuWrite);

  thread_for(ss,grid->oSites(),{

--- a/Grid/qcd/utils/BaryonUtils.h
+++ b/Grid/qcd/utils/BaryonUtils.h
@@ -350,11 +350,11 @@ void BaryonUtils<FImpl>::ContractBaryons(const PropagatorField &q1_left,
  assert(parity==1 || parity == -1 && "Parity must be +1 or -1");

  GridBase *grid = q1_left.Grid();
-
-  auto vbaryon_corr= baryon_corr.View();
-  auto v1 = q1_left.View();
-  auto v2 = q2_left.View();
-  auto v3 = q3_left.View();
+  
+  autoView(vbaryon_corr, baryon_corr,CpuWrite);
+  autoView( v1 , q1_left, CpuRead);
+  autoView( v2 , q2_left, CpuRead);
+  autoView( v3 , q3_left, CpuRead);

  Real bytes =0.;
  bytes += grid->oSites() * (432.*sizeof(vComplex) + 126.*sizeof(int) + 36.*sizeof(Real));
@@ -989,10 +989,10 @@ void BaryonUtils<FImpl>::Sigma_to_Nucleon_Eye(const PropagatorField &qq_loop,

  GridBase *grid = qs_ti.Grid();

-  auto vcorr= stn_corr.View();
-  auto vq_loop = qq_loop.View();
-  auto vd_tf = qd_tf.View();
-  auto vs_ti = qs_ti.View();
+  autoView( vcorr, stn_corr, CpuWrite);
+  autoView( vq_loop , qq_loop, CpuRead);
+  autoView( vd_tf , qd_tf, CpuRead);
+  autoView( vs_ti , qs_ti, CpuRead);

  accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
    auto Dq_loop = vq_loop[ss];
@@ -1029,13 +1029,13 @@ void BaryonUtils<FImpl>::Sigma_to_Nucleon_NonEye(const PropagatorField &qq_ti,

  GridBase *grid = qs_ti.Grid();

-  auto vcorr= stn_corr.View();
-  auto vq_ti = qq_ti.View();
-  auto vq_tf = qq_tf.View();
-  auto vd_tf = qd_tf.View();
-  auto vs_ti = qs_ti.View();
-
-  accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
+  autoView( vcorr , stn_corr, CpuWrite);
+  autoView( vq_ti , qq_ti, CpuRead);
+  autoView( vq_tf , qq_tf, CpuRead);
+  autoView( vd_tf , qd_tf, CpuRead);
+  autoView( vs_ti , qs_ti, CpuRead);
+ // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
+  thread_for(ss,grid->oSites(),{
    auto Dq_ti = vq_ti[ss];
    auto Dq_tf = vq_tf[ss];
    auto Dd_tf = vd_tf[ss];
--- a/Grid/qcd/utils/LinalgUtils.h
+++ b/Grid/qcd/utils/LinalgUtils.h
@@ -47,8 +47,8 @@ void axpibg5x(Lattice<vobj> &z,const Lattice<vobj> &x,Coeff a,Coeff b)
  GridBase *grid=x.Grid();

  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View();
-  auto z_v = z.View();
+  autoView(x_v, x, AcceleratorRead);
+  autoView(z_v, z, AcceleratorWrite);
  accelerator_for( ss, x_v.size(),vobj::Nsimd(), {
    auto tmp = a*x_v(ss) + G5*(b*timesI(x_v(ss)));
    coalescedWrite(z_v[ss],tmp);
@@ -63,9 +63,9 @@ void axpby_ssp(Lattice<vobj> &z, Coeff a,const Lattice<vobj> &x,Coeff b,const La
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  // FIXME -- need a new class of accelerator_loop to implement this
  //
  uint64_t nloop = grid->oSites()/Ls;
@@ -85,9 +85,9 @@ void ag5xpby_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const L
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -104,9 +104,9 @@ void axpbg5y_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const L
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  Gamma G5(Gamma::Algebra::Gamma5);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
@@ -125,9 +125,9 @@ void ag5xpbg5y_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];

-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  Gamma G5(Gamma::Algebra::Gamma5);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
@@ -147,9 +147,9 @@ void axpby_ssp_pminus(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,co
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];

-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -168,9 +168,9 @@ void axpby_ssp_pplus(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,con
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -189,8 +189,8 @@ void G5R5(Lattice<vobj> &z,const Lattice<vobj> &x)
  conformable(x,z);
  int Ls = grid->_rdimensions[0];
  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View();
-  auto z_v = z.View();
+  autoView( x_v, x, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -222,8 +222,8 @@ void G5C(Lattice<iVector<CComplex, nbasis>> &z, const Lattice<iVector<CComplex,
  static_assert(nbasis % 2 == 0, "");
  int nb = nbasis / 2;

-  auto z_v = z.View();
-  auto x_v = x.View();
+  autoView( z_v, z, AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
  accelerator_for(ss,grid->oSites(),CComplex::Nsimd(),
  {
    for(int n = 0; n < nb; ++n) {
--- a/Grid/qcd/utils/SUn.h
+++ b/Grid/qcd/utils/SUn.h
@@ -222,11 +222,11 @@ public:
    conformable(subgroup, Determinant);
    int i0, i1;
    su2SubGroupIndex(i0, i1, su2_index);
-    auto subgroup_v = subgroup.View();
-    auto source_v   = source.View();
-    auto Determinant_v = Determinant.View();

-    thread_for(ss, grid->oSites(), {
+    autoView( subgroup_v , subgroup,AcceleratorWrite);
+    autoView( source_v   , source,AcceleratorRead);
+    autoView( Determinant_v , Determinant,AcceleratorWrite);
+    accelerator_for(ss, grid->oSites(), 1, {

      subgroup_v[ss]()()(0, 0) = source_v[ss]()()(i0, i0);
      subgroup_v[ss]()()(0, 1) = source_v[ss]()()(i0, i1);
@@ -257,15 +257,16 @@ public:
    su2SubGroupIndex(i0, i1, su2_index);

    dest = 1.0;  // start out with identity
-    auto dest_v = dest.View();
-    auto subgroup_v = subgroup.View();
-    thread_for(ss, grid->oSites(),
+    autoView( dest_v , dest, AcceleratorWrite);
+    autoView( subgroup_v, subgroup, AcceleratorRead);
+    accelerator_for(ss, grid->oSites(),1,
    {
      dest_v[ss]()()(i0, i0) = subgroup_v[ss]()()(0, 0);
      dest_v[ss]()()(i0, i1) = subgroup_v[ss]()()(0, 1);
      dest_v[ss]()()(i1, i0) = subgroup_v[ss]()()(1, 0);
      dest_v[ss]()()(i1, i1) = subgroup_v[ss]()()(1, 1);
    });
+
  }

  ///////////////////////////////////////////////
@@ -608,8 +609,8 @@ public:

  // reunitarise??
  template <typename LatticeMatrixType>
-  static void LieRandomize(GridParallelRNG &pRNG, LatticeMatrixType &out,
-                           double scale = 1.0) {
+  static void LieRandomize(GridParallelRNG &pRNG, LatticeMatrixType &out, double scale = 1.0) 
+  {
    GridBase *grid = out.Grid();

    typedef typename LatticeMatrixType::vector_type vector_type;
@@ -618,8 +619,7 @@ public:
    typedef iSinglet<vector_type> vTComplexType;

    typedef Lattice<vTComplexType> LatticeComplexType;
-    typedef typename GridTypeMapper<
-      typename LatticeMatrixType::vector_object>::scalar_object MatrixType;
+    typedef typename GridTypeMapper<typename LatticeMatrixType::vector_object>::scalar_object MatrixType;

    LatticeComplexType ca(grid);
    LatticeMatrixType lie(grid);
@@ -629,6 +629,7 @@ public:
    MatrixType ta;

    lie = Zero();
+
    for (int a = 0; a < AdjointDimension; a++) {
      random(pRNG, ca);

@@ -640,6 +641,7 @@ public:
      la = ci * ca * ta;

      lie = lie + la;  // e^{i la ta}
+
    }
    taExp(lie, out);
  }