Make view specify where and drive data motion - first cut.

This is a compile tiime option --enable-unified=yes/no
2025-06-19 16:27:05 +01:00 · 2020-05-21 16:13:16 -04:00
parent ebb60330c9
commit 7860a50f70
48 changed files with 688 additions and 718 deletions
--- a/Grid/qcd/utils/A2Autils.h
+++ b/Grid/qcd/utils/A2Autils.h
@ -185,13 +185,13 @@ void A2Autils<FImpl>::MesonField(TensorType &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto lhs_v = lhs_wi[i].View();
+	  auto lhs_v = lhs_wi[i].View(CpuRead);
 	  auto left = conjugate(lhs_v[ss]);

 	  for(int j=0;j<Rblock;j++){

 	    SpinMatrix_v vv;
-	    auto rhs_v = rhs_vj[j].View();
+	    auto rhs_v = rhs_vj[j].View(CpuRead);
 	    auto right = rhs_v[ss];
 	    for(int s1=0;s1<Ns;s1++){
 	    for(int s2=0;s2<Ns;s2++){
@ -204,7 +204,7 @@ void A2Autils<FImpl>::MesonField(TensorType &mat,
 	    int base = Nmom*i+Nmom*Lblock*j+Nmom*Lblock*Rblock*r;
 	    for ( int m=0;m<Nmom;m++){
 	      int idx = m+base;
-	      auto mom_v = mom[m].View();
+	      auto mom_v = mom[m].View(CpuRead);
 	      auto phase = mom_v[ss];
 	      mac(&lvSum[idx],&vv,&phase);
 	    }
@ -371,7 +371,7 @@ void A2Autils<FImpl>::PionFieldXX(Eigen::Tensor<ComplexD,3> &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto wi_v = wi[i].View();
+	  auto wi_v = wi[i].View(CpuRead);
 	  auto w = conjugate(wi_v[ss]);
 	  if (g5) {
 	    w()(2)(0) = - w()(2)(0);
@ -383,7 +383,7 @@ void A2Autils<FImpl>::PionFieldXX(Eigen::Tensor<ComplexD,3> &mat,
 	  }
 	  for(int j=0;j<Rblock;j++){
 	    
-	    auto vj_v=vj[j].View();
+	    auto vj_v=vj[j].View(CpuRead);
 	    auto v  = vj_v[ss];
 	    auto vv = v()(0)(0);

@ -518,12 +518,12 @@ void A2Autils<FImpl>::PionFieldWVmom(Eigen::Tensor<ComplexD,4> &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto wi_v = wi[i].View();
+	  auto wi_v = wi[i].View(CpuRead);
 	  auto w = conjugate(wi_v[ss]);

 	  for(int j=0;j<Rblock;j++){
 	    
-	    auto vj_v = vj[j].View();
+	    auto vj_v = vj[j].View(CpuRead);
 	    auto v = vj_v[ss];

 	    auto vv = w()(0)(0) * v()(0)(0)// Gamma5 Dirac basis explicitly written out
@ -544,7 +544,7 @@ void A2Autils<FImpl>::PionFieldWVmom(Eigen::Tensor<ComplexD,4> &mat,
 	    int base = Nmom*i+Nmom*Lblock*j+Nmom*Lblock*Rblock*r;
 	    for ( int m=0;m<Nmom;m++){
 	      int idx = m+base;
-	      auto mom_v = mom[m].View();
+	      auto mom_v = mom[m].View(CpuRead);
 	      auto phase = mom_v[ss];
 	      mac(&lvSum[idx],&vv,&phase()()());
 	    }
@ -730,13 +730,13 @@ void A2Autils<FImpl>::AslashField(TensorType &mat,

            for(int i=0;i<Lblock;i++)
            {
-  	        auto wi_v = lhs_wi[i].View();
+  	        auto wi_v = lhs_wi[i].View(CpuRead);
                auto left = conjugate(wi_v[ss]);

                for(int j=0;j<Rblock;j++)
                {
                    SpinMatrix_v vv;
-		    auto vj_v  = rhs_vj[j].View();
+		    auto vj_v  = rhs_vj[j].View(CpuRead);
                    auto right = vj_v[ss];

                    for(int s1=0;s1<Ns;s1++)
@ -752,8 +752,8 @@ void A2Autils<FImpl>::AslashField(TensorType &mat,

                    for ( int m=0;m<Nem;m++)
                    {
-  		        auto emB0_v = emB0[m].View();
-  		        auto emB1_v = emB1[m].View();
+  		        auto emB0_v = emB0[m].View(CpuRead);
+  		        auto emB1_v = emB1[m].View(CpuRead);
                        int idx  = m+base;
                        auto b0  = emB0_v[ss];
                        auto b1  = emB1_v[ss];
@ -1014,12 +1014,12 @@ A2Autils<FImpl>::ContractWWVV(std::vector<PropagatorField> &WWVV,
    for(int d_o=0;d_o<N_d;d_o+=d_unroll){
      for(int t=0;t<N_t;t++){
      for(int s=0;s<N_s;s++){
-  auto vs_v = vs[s].View();
+  auto vs_v = vs[s].View(CpuRead);
  auto tmp1 = vs_v[ss];
  vobj tmp2 = Zero();
  vobj tmp3 = Zero();
  for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
-    auto vd_v = vd[d].View();
+    auto vd_v = vd[d].View(CpuRead);
    Scalar_v coeff = WW_sd(t,s,d);
    tmp3 = conjugate(vd_v[ss]);
    mac(&tmp2, &coeff, &tmp3);
@ -1067,12 +1067,12 @@ A2Autils<FImpl>::ContractWWVV(std::vector<PropagatorField> &WWVV,
    thread_for(ss,grid->oSites(),{
      for(int d_o=0;d_o<N_d;d_o+=d_unroll){
        for(int s=0;s<N_s;s++){
-    auto vs_v = vs[s].View();
+    auto vs_v = vs[s].View(CpuRead);
    auto tmp1 = vs_v[ss];
    vobj tmp2 = Zero();
    vobj tmp3 = Zero();
    for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
-      auto vd_v = vd[d].View();
+      auto vd_v = vd[d].View(CpuRead);
      Scalar_v coeff = buf(s,d);
      tmp3 = conjugate(vd_v[ss]);
      mac(&tmp2, &coeff, &tmp3);
@ -1093,7 +1093,7 @@ inline void A2Autils<FImpl>::OuterProductWWVV(PropagatorField &WWVV,
                                             const vobj &rhs,
                                             const int Ns, const int ss)
 {
-  auto WWVV_v = WWVV.View();
+  auto WWVV_v = WWVV.View(CpuWrite);
  for (int s1 = 0; s1 < Ns; s1++){
    for (int s2 = 0; s2 < Ns; s2++){
      WWVV_v[ss]()(s1,s2)(0, 0) += lhs()(s1)(0) * rhs()(s2)(0);
@ -1122,10 +1122,10 @@ void A2Autils<FImpl>::ContractFourQuarkColourDiagonal(const PropagatorField &WWV

  GridBase *grid = WWVV0.Grid();

-  auto WWVV0_v = WWVV0.View();
-  auto WWVV1_v = WWVV1.View();
-  auto O_trtr_v= O_trtr.View();
-  auto O_fig8_v= O_fig8.View();
+  auto WWVV0_v = WWVV0.View(CpuRead);
+  auto WWVV1_v = WWVV1.View(CpuRead);
+  auto O_trtr_v= O_trtr.View(CpuWrite);
+  auto O_fig8_v= O_fig8.View(CpuWrite);
  thread_for(ss,grid->oSites(),{

    typedef typename ComplexField::vector_object vobj;
@ -1166,10 +1166,10 @@ void A2Autils<FImpl>::ContractFourQuarkColourMix(const PropagatorField &WWVV0,

  GridBase *grid = WWVV0.Grid();

-  auto WWVV0_v = WWVV0.View();
-  auto WWVV1_v = WWVV1.View();
-  auto O_trtr_v= O_trtr.View();
-  auto O_fig8_v= O_fig8.View();
+  auto WWVV0_v = WWVV0.View(CpuRead);
+  auto WWVV1_v = WWVV1.View(CpuRead);
+  auto O_trtr_v= O_trtr.View(CpuWrite);
+  auto O_fig8_v= O_fig8.View(CpuWrite);

  thread_for(ss,grid->oSites(),{

--- a/Grid/qcd/utils/BaryonUtils.h
+++ b/Grid/qcd/utils/BaryonUtils.h
@ -273,10 +273,10 @@ void BaryonUtils<FImpl>::ContractBaryons(const PropagatorField &q1_left,
  for (int ie=0; ie < 6 ; ie++)
    wick_contraction[ie] = (quarks_left[0] == quarks_right[epsilon[ie][0]] && quarks_left[1] == quarks_right[epsilon[ie][1]] && quarks_left[2] == quarks_right[epsilon[ie][2]]) ? 1 : 0;

-  auto vbaryon_corr= baryon_corr.View();
-  auto v1 = q1_left.View();
-  auto v2 = q2_left.View();
-  auto v3 = q3_left.View();
+  auto vbaryon_corr= baryon_corr.View(CpuWrite);
+  auto v1 = q1_left.View(CpuRead);
+  auto v2 = q2_left.View(CpuRead);
+  auto v3 = q3_left.View(CpuRead);

 // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
  thread_for(ss,grid->oSites(),{
@ -560,10 +560,10 @@ void BaryonUtils<FImpl>::Sigma_to_Nucleon_Eye(const PropagatorField &qq_loop,
 {
  GridBase *grid = qs_ti.Grid();

-  auto vcorr= stn_corr.View();
-  auto vq_loop = qq_loop.View();
-  auto vd_tf = qd_tf.View();
-  auto vs_ti = qs_ti.View();
+  auto vcorr= stn_corr.View(CpuWrite);
+  auto vq_loop = qq_loop.View(CpuRead);
+  auto vd_tf = qd_tf.View(CpuRead);
+  auto vs_ti = qs_ti.View(CpuRead);

 // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
  thread_for(ss,grid->oSites(),{
@ -597,11 +597,11 @@ void BaryonUtils<FImpl>::Sigma_to_Nucleon_NonEye(const PropagatorField &qq_ti,
 {
  GridBase *grid = qs_ti.Grid();

-  auto vcorr= stn_corr.View();
-  auto vq_ti = qq_ti.View();
-  auto vq_tf = qq_tf.View();
-  auto vd_tf = qd_tf.View();
-  auto vs_ti = qs_ti.View();
+  auto vcorr= stn_corr.View(CpuWrite);
+  auto vq_ti = qq_ti.View(CpuRead);
+  auto vq_tf = qq_tf.View(CpuRead);
+  auto vd_tf = qd_tf.View(CpuRead);
+  auto vs_ti = qs_ti.View(CpuRead);

 // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
  thread_for(ss,grid->oSites(),{
--- a/Grid/qcd/utils/LinalgUtils.h
+++ b/Grid/qcd/utils/LinalgUtils.h
@ -47,8 +47,8 @@ void axpibg5x(Lattice<vobj> &z,const Lattice<vobj> &x,Coeff a,Coeff b)
  GridBase *grid=x.Grid();

  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  accelerator_for( ss, x_v.size(),vobj::Nsimd(), {
    auto tmp = a*x_v(ss) + G5*(b*timesI(x_v(ss)));
    coalescedWrite(z_v[ss],tmp);
@ -63,9 +63,9 @@ void axpby_ssp(Lattice<vobj> &z, Coeff a,const Lattice<vobj> &x,Coeff b,const La
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto y_v = y.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  // FIXME -- need a new class of accelerator_loop to implement this
  //
  uint64_t nloop = grid->oSites()/Ls;
@ -85,9 +85,9 @@ void ag5xpby_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const L
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto y_v = y.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@ -104,9 +104,9 @@ void axpbg5y_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const L
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto y_v = y.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  Gamma G5(Gamma::Algebra::Gamma5);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
@ -125,9 +125,9 @@ void ag5xpbg5y_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];

-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto y_v = y.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  Gamma G5(Gamma::Algebra::Gamma5);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
@ -147,9 +147,9 @@ void axpby_ssp_pminus(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,co
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];

-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto y_v = y.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@ -168,9 +168,9 @@ void axpby_ssp_pplus(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,con
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View();
-  auto y_v = y.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto y_v = y.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@ -189,8 +189,8 @@ void G5R5(Lattice<vobj> &z,const Lattice<vobj> &x)
  conformable(x,z);
  int Ls = grid->_rdimensions[0];
  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View();
-  auto z_v = z.View();
+  auto x_v = x.View(AcceleratorRead);
+  auto z_v = z.View(AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@ -222,8 +222,8 @@ void G5C(Lattice<iVector<CComplex, nbasis>> &z, const Lattice<iVector<CComplex,
  static_assert(nbasis % 2 == 0, "");
  int nb = nbasis / 2;

-  auto z_v = z.View();
-  auto x_v = x.View();
+  auto z_v = z.View(AcceleratorWrite);
+  auto x_v = x.View(AcceleratorRead);
  accelerator_for(ss,grid->oSites(),CComplex::Nsimd(),
  {
    for(int n = 0; n < nb; ++n) {
--- a/Grid/qcd/utils/SUn.h
+++ b/Grid/qcd/utils/SUn.h
@ -222,9 +222,9 @@ public:
    conformable(subgroup, Determinant);
    int i0, i1;
    su2SubGroupIndex(i0, i1, su2_index);
-    auto subgroup_v = subgroup.View();
-    auto source_v   = source.View();
-    auto Determinant_v = Determinant.View();
+    auto subgroup_v = subgroup.View(CpuWrite);
+    auto source_v   = source.View(CpuRead);
+    auto Determinant_v = Determinant.View(CpuWrite);

    thread_for(ss, grid->oSites(), {

@ -257,8 +257,8 @@ public:
    su2SubGroupIndex(i0, i1, su2_index);

    dest = 1.0;  // start out with identity
-    auto dest_v = dest.View();
-    auto subgroup_v = subgroup.View();
+    auto dest_v = dest.View(CpuWrite);
+    auto subgroup_v = subgroup.View(CpuRead);
    thread_for(ss, grid->oSites(),
    {
      dest_v[ss]()()(i0, i0) = subgroup_v[ss]()()(0, 0);