Make view specify where and drive data motion - first cut.

This is a compile tiime option --enable-unified=yes/no
2026-06-21 19:23:17 +01:00 · 2020-05-21 16:13:16 -04:00
parent ebb60330c9
commit 7860a50f70
48 changed files with 688 additions and 718 deletions
@@ -186,10 +186,10 @@ public:
 	
 	hermop.HermOp(*Tn,y);

-	auto y_v = y.View();
-	auto Tn_v = Tn->View();
-	auto Tnp_v = Tnp->View();
-	auto Tnm_v = Tnm->View();
+	auto y_v = y.View(AcceleratorWrite);
+	auto Tn_v = Tn->View(AcceleratorWrite);
+	auto Tnp_v = Tnp->View(AcceleratorWrite);
+	auto Tnm_v = Tnm->View(AcceleratorWrite);
 	const int Nsimd = CComplex::Nsimd();
 	accelerator_forNB(ss, FineGrid->oSites(), Nsimd, {
 	  coalescedWrite(y_v[ss],xscale*y_v(ss)+mscale*Tn_v(ss));
@@ -264,12 +264,12 @@ public:
    Stencil.HaloExchange(in,compressor);
    comms_usec += usecond();

-    auto in_v = in.View();
-    auto out_v = out.View();
+    auto in_v = in.View(AcceleratorRead);
+    auto out_v = out.View(AcceleratorWrite);
    typedef LatticeView<Cobj> Aview;

    Vector<Aview> AcceleratorViewContainer;
-    for(int p=0;p<geom.npoint;p++) AcceleratorViewContainer.push_back(A[p].View());
+    for(int p=0;p<geom.npoint;p++) AcceleratorViewContainer.push_back(A[p].View(AcceleratorRead));
    Aview *Aview_p = & AcceleratorViewContainer[0];

    const int Nsimd = CComplex::Nsimd();
@@ -343,11 +343,11 @@ public:

    typedef LatticeView<Cobj> Aview;
    Vector<Aview> AcceleratorViewContainer;
-    for(int p=0;p<geom.npoint;p++) AcceleratorViewContainer.push_back(A[p].View());
+    for(int p=0;p<geom.npoint;p++) AcceleratorViewContainer.push_back(A[p].View(AcceleratorRead));
    Aview *Aview_p = & AcceleratorViewContainer[0];

-    auto out_v = out.View();
-    auto in_v  = in.View();
+    auto out_v = out.View(AcceleratorWrite);
+    auto in_v  = in.View(AcceleratorRead);

    const int Nsimd = CComplex::Nsimd();
    typedef decltype(coalescedRead(in_v[0])) calcVector;
@@ -542,10 +542,10 @@ public:
 	    
 	    blockMaskedInnerProduct(oZProj,omask,Subspace.subspace[j],Mphi);
 	    
-	    auto iZProj_v = iZProj.View() ;
-	    auto oZProj_v = oZProj.View() ;
-	    auto A_p     =  A[p].View();
-	    auto A_self  = A[self_stencil].View();
+	    auto iZProj_v = iZProj.View(AcceleratorRead) ;
+	    auto oZProj_v = oZProj.View(AcceleratorRead) ;
+	    auto A_p     =  A[p].View(AcceleratorWrite);
+	    auto A_self  = A[self_stencil].View(AcceleratorWrite);

 	    accelerator_for(ss, Grid()->oSites(), Fobj::Nsimd(),{ coalescedWrite(A_p[ss](j,i),oZProj_v(ss)); });
 	    //      if( disp!= 0 ) { accelerator_for(ss, Grid()->oSites(), Fobj::Nsimd(),{ coalescedWrite(A_p[ss](j,i),oZProj_v(ss)); });}
@@ -563,11 +563,11 @@ public:
 	mult(tmp,phi,oddmask );  linop.Op(tmp,Mphio);

 	{
-	  auto tmp_      = tmp.View();
-	  auto evenmask_ = evenmask.View();
-	  auto oddmask_  =  oddmask.View();
-	  auto Mphie_    =  Mphie.View();
-	  auto Mphio_    =  Mphio.View();
+	  auto tmp_      = tmp.View(AcceleratorWrite);
+	  auto evenmask_ = evenmask.View(AcceleratorRead);
+	  auto oddmask_  =  oddmask.View(AcceleratorRead);
+	  auto Mphie_    =  Mphie.View(AcceleratorRead);
+	  auto Mphio_    =  Mphio.View(AcceleratorRead);
 	  accelerator_for(ss, FineGrid->oSites(), Fobj::Nsimd(),{ 
 	      coalescedWrite(tmp_[ss],evenmask_(ss)*Mphie_(ss) + oddmask_(ss)*Mphio_(ss));
 	    });
@@ -575,8 +575,8 @@ public:

 	blockProject(SelfProj,tmp,Subspace.subspace);

-	auto SelfProj_ = SelfProj.View();
-	auto A_self  = A[self_stencil].View();
+	auto SelfProj_ = SelfProj.View(AcceleratorRead);
+	auto A_self  = A[self_stencil].View(AcceleratorWrite);

 	accelerator_for(ss, Grid()->oSites(), Fobj::Nsimd(),{
 	  for(int j=0;j<nbasis;j++){
@@ -1,4 +1,3 @@
-
 /*************************************************************************************

    Grid physics library, www.github.com/paboyle/Grid 
@@ -191,7 +190,7 @@ public:
    typedef typename sobj::scalar_type   scalar;
      
    Lattice<sobj> pgbuf(&pencil_g);
-    auto pgbuf_v = pgbuf.View();
+    auto pgbuf_v = pgbuf.View(CpuWrite);

    typedef typename FFTW<scalar>::FFTW_scalar FFTW_scalar;
    typedef typename FFTW<scalar>::FFTW_plan   FFTW_plan;
@@ -122,9 +122,9 @@ class BiCGSTAB : public OperatorFunction<Field>

        LinearCombTimer.Start();
        bo = beta * omega;
-        auto p_v = p.View();
-        auto r_v = r.View();
-        auto v_v = v.View();
+        auto p_v = p.View(AcceleratorWrite);
+        auto r_v = r.View(AcceleratorWrite);
+        auto v_v = v.View(AcceleratorWrite);
        accelerator_for(ss, p_v.size(), Field::vector_object::Nsimd(),{
          coalescedWrite(p_v[ss], beta*p_v(ss) - bo*v_v(ss) + r_v(ss));
        });
@@ -142,13 +142,13 @@ class BiCGSTAB : public OperatorFunction<Field>
        alpha = rho / Calpha.real();

        LinearCombTimer.Start();
-        auto h_v = h.View();
-        auto psi_v = psi.View();
+        auto h_v = h.View(AcceleratorWrite);
+        auto psi_v = psi.View(AcceleratorWrite);
        accelerator_for(ss, h_v.size(), Field::vector_object::Nsimd(),{
          coalescedWrite(h_v[ss], alpha*p_v(ss) + psi_v(ss));
        });
        
-        auto s_v = s.View();
+        auto s_v = s.View(AcceleratorWrite);
        accelerator_for(ss, s_v.size(), Field::vector_object::Nsimd(),{
          coalescedWrite(s_v[ss], -alpha*v_v(ss) + r_v(ss));
        });
@@ -166,7 +166,7 @@ class BiCGSTAB : public OperatorFunction<Field>
        omega = Comega.real() / norm2(t);

        LinearCombTimer.Start();
-        auto t_v = t.View();
+        auto t_v = t.View(AcceleratorWrite);
        accelerator_for(ss, psi_v.size(), Field::vector_object::Nsimd(),{
          coalescedWrite(psi_v[ss], h_v(ss) + omega * s_v(ss));
          coalescedWrite(r_v[ss], -omega * t_v(ss) + s_v(ss));
@@ -140,9 +140,9 @@ public:
      b = cp / c;

      LinearCombTimer.Start();
-      auto psi_v = psi.View();
-      auto p_v   = p.View();
-      auto r_v   = r.View();
+      auto psi_v = psi.View(AcceleratorWrite);
+      auto p_v   = p.View(AcceleratorWrite);
+      auto r_v   = r.View(AcceleratorWrite);
      accelerator_for(ss,p_v.size(), Field::vector_object::Nsimd(),{
 	  coalescedWrite(psi_v[ss], a      *  p_v(ss) + psi_v(ss));
 	  coalescedWrite(p_v[ss]  , b      *  p_v(ss) + r_v  (ss));
@@ -57,17 +57,17 @@ void basisOrthogonalize(std::vector<Field> &basis,Field &w,int k)
 template<class Field>
 void basisRotate(std::vector<Field> &basis,Eigen::MatrixXd& Qt,int j0, int j1, int k0,int k1,int Nm) 
 {
-  typedef decltype(basis[0].View()) View;
-  auto tmp_v = basis[0].View();
+  typedef decltype(basis[0].View(CpuWrite)) View;
+  auto tmp_v = basis[0].View(CpuWrite);
  Vector<View> basis_v(basis.size(),tmp_v);
  View *basis_vp = &basis_v[0];
  typedef typename Field::vector_object vobj;
  GridBase* grid = basis[0].Grid();

  for(int k=0;k<basis.size();k++){
-    basis_v[k] = basis[k].View();
+    basis_v[k] = basis[k].View(CpuWrite);
  }
-#if 0
+#if 1
  std::vector < vobj , commAllocator<vobj> > Bt(thread_max() * Nm); // Thread private
  thread_region
  {
@@ -149,16 +149,16 @@ void basisRotate(std::vector<Field> &basis,Eigen::MatrixXd& Qt,int j0, int j1, i
 template<class Field>
 void basisRotateJ(Field &result,std::vector<Field> &basis,Eigen::MatrixXd& Qt,int j, int k0,int k1,int Nm) 
 {
-  typedef decltype(basis[0].View()) View;
+  typedef decltype(basis[0].View(AcceleratorWrite)) View;
  typedef typename Field::vector_object vobj;
  GridBase* grid = basis[0].Grid();

  result.Checkerboard() = basis[0].Checkerboard();
-  auto result_v=result.View();
+  auto result_v=result.View(AcceleratorWrite);
  Vector<View> basis_v(basis.size(),result_v);
  View * basis_vp = &basis_v[0];
  for(int k=0;k<basis.size();k++){
-    basis_v[k] = basis[k].View();
+    basis_v[k] = basis[k].View(AcceleratorRead);
  }
  Vector<double> Qt_jv(Nm);
  double * Qt_j = & Qt_jv[0];