Global edit with change to View usage. autoView() creates a wrapper object that closes the view when scope closes.

2025-10-25 02:04:48 +01:00 · 2020-06-05 18:52:35 -04:00
parent f39c2a240b
commit 1a4c8c3387
78 changed files with 773 additions and 778 deletions
--- a/Grid/qcd/action/fermion/GparityWilsonImpl.h
+++ b/Grid/qcd/action/fermion/GparityWilsonImpl.h
@@ -232,15 +232,17 @@ public:
      if ( Params.twists[mu] ) { 
 	Uconj = where(coor==neglink,-Uconj,Uconj);
      }
-	  
-      auto U_v = U.View(CpuRead);
-      auto Uds_v = Uds.View(CpuWrite);
-      auto Uconj_v = Uconj.View(CpuRead);
-      auto Utmp_v= Utmp.View(CpuWrite);
-      thread_foreach(ss,U_v,{
-	Uds_v[ss](0)(mu) = U_v[ss]();
-	Uds_v[ss](1)(mu) = Uconj_v[ss]();
-      });
+
+      {
+	autoView( U_v , U, CpuRead);
+	autoView( Uconj_v , Uconj, CpuRead);
+	autoView( Uds_v , Uds, CpuWrite);
+	autoView( Utmp_v, Utmp, CpuWrite);
+	thread_foreach(ss,U_v,{
+	    Uds_v[ss](0)(mu) = U_v[ss]();
+	    Uds_v[ss](1)(mu) = Uconj_v[ss]();
+	  });
+      }
          
      U     = adj(Cshift(U    ,mu,-1));      // correct except for spanning the boundary
      Uconj = adj(Cshift(Uconj,mu,-1));
@@ -250,19 +252,25 @@ public:
 	Utmp = where(coor==0,Uconj,Utmp);
      }

-      thread_foreach(ss,Utmp_v,{
-	Uds_v[ss](0)(mu+4) = Utmp_v[ss]();
-      });
-          
+      {
+	autoView( Uds_v , Uds, CpuWrite);
+	autoView( Utmp_v, Utmp, CpuWrite);
+	thread_foreach(ss,Utmp_v,{
+	    Uds_v[ss](0)(mu+4) = Utmp_v[ss]();
+	  });
+      }
      Utmp = Uconj;
      if ( Params.twists[mu] ) { 
 	Utmp = where(coor==0,U,Utmp);
      }
-	  
-      thread_foreach(ss,Utmp_v,{
-        Uds_v[ss](1)(mu+4) = Utmp_v[ss]();
-      });
-          
+
+      {	  
+	autoView( Uds_v , Uds, CpuWrite);
+	autoView( Utmp_v, Utmp, CpuWrite);
+	thread_foreach(ss,Utmp_v,{
+	    Uds_v[ss](1)(mu+4) = Utmp_v[ss]();
+        });
+      }
    }
  }
      
@@ -272,11 +280,14 @@ public:
    GaugeLinkField link(mat.Grid());
    // use lorentz for flavour as hack.
    auto tmp = TraceIndex<SpinIndex>(outerProduct(Btilde, A));
-    auto link_v = link.View(CpuWrite);
-    auto tmp_v = tmp.View(CpuRead);
-    thread_foreach(ss,tmp_v,{
-      link_v[ss]() = tmp_v[ss](0, 0) + conjugate(tmp_v[ss](1, 1));
-    });
+
+    {
+      autoView( link_v , link, CpuWrite);
+      autoView( tmp_v , tmp, CpuRead);
+      thread_foreach(ss,tmp_v,{
+	  link_v[ss]() = tmp_v[ss](0, 0) + conjugate(tmp_v[ss](1, 1));
+	});
+    }
    PokeIndex<LorentzIndex>(mat, link, mu);
    return;
  }
@@ -306,16 +317,18 @@ public:
        
    GaugeLinkField tmp(mat.Grid());
    tmp = Zero();
-    auto tmp_v = tmp.View(CpuWrite);
-    auto Atilde_v = Atilde.View(CpuRead);
-    auto Btilde_v = Btilde.View(CpuRead);
-    thread_for(ss,tmp.Grid()->oSites(),{
-      for (int s = 0; s < Ls; s++) {
-	int sF = s + Ls * ss;
-	auto ttmp = traceIndex<SpinIndex>(outerProduct(Btilde_v[sF], Atilde_v[sF]));
-	tmp_v[ss]() = tmp_v[ss]() + ttmp(0, 0) + conjugate(ttmp(1, 1));
-      }
-    });
+    {
+      autoView( tmp_v , tmp, CpuWrite);
+      autoView( Atilde_v , Atilde, CpuRead);
+      autoView( Btilde_v , Btilde, CpuRead);
+      thread_for(ss,tmp.Grid()->oSites(),{
+	  for (int s = 0; s < Ls; s++) {
+	    int sF = s + Ls * ss;
+	    auto ttmp = traceIndex<SpinIndex>(outerProduct(Btilde_v[sF], Atilde_v[sF]));
+	    tmp_v[ss]() = tmp_v[ss]() + ttmp(0, 0) + conjugate(ttmp(1, 1));
+	  }
+	});
+    }
    PokeIndex<LorentzIndex>(mat, tmp, mu);
    return;
  }
--- a/Grid/qcd/action/fermion/WilsonCloverFermion.h
+++ b/Grid/qcd/action/fermion/WilsonCloverFermion.h
@@ -264,8 +264,8 @@ private:
  {
    CloverFieldType T(F.Grid());
    T = Zero();
-    auto T_v = T.View(CpuWrite);
-    auto F_v = F.View(CpuRead);
+    autoView(T_v,T,CpuWrite);
+    autoView(F_v,F,CpuRead);
    thread_for(i, CloverTerm.Grid()->oSites(),
    {
      T_v[i]()(0, 1) = timesMinusI(F_v[i]()());
@@ -282,8 +282,8 @@ private:
    CloverFieldType T(F.Grid());
    T = Zero();
    
-    auto T_v = T.View(CpuWrite);
-    auto F_v = F.View(CpuRead);
+    autoView(T_v, T,CpuWrite);
+    autoView(F_v, F,CpuRead);
    thread_for(i, CloverTerm.Grid()->oSites(),
    {
      T_v[i]()(0, 1) = -F_v[i]()();
@@ -300,8 +300,8 @@ private:
    CloverFieldType T(F.Grid());
    T = Zero();

-    auto T_v = T.View(CpuWrite);
-    auto F_v = F.View(CpuRead);
+    autoView(T_v,T,CpuWrite);
+    autoView(F_v,F,CpuRead);
    thread_for(i, CloverTerm.Grid()->oSites(),
    {
      T_v[i]()(0, 0) = timesMinusI(F_v[i]()());
@@ -318,8 +318,8 @@ private:
    CloverFieldType T(F.Grid());
    T = Zero();

-    auto T_v = T.View(CpuWrite);
-    auto F_v = F.View(CpuRead);
+    autoView( T_v , T, CpuWrite);
+    autoView( F_v , F, CpuRead);
    thread_for(i, CloverTerm.Grid()->oSites(),
    {
      T_v[i]()(0, 1) = timesI(F_v[i]()());
@@ -336,8 +336,8 @@ private:
    CloverFieldType T(F.Grid());
    T = Zero();
    
-    auto T_v = T.View(CpuWrite);
-    auto F_v = F.View(CpuRead);
+    autoView( T_v ,T,CpuWrite);
+    autoView( F_v ,F,CpuRead);
    thread_for(i, CloverTerm.Grid()->oSites(),
    {
      T_v[i]()(0, 1) = -(F_v[i]()());
@@ -355,8 +355,8 @@ private:

    T = Zero();

-    auto T_v = T.View(CpuWrite);
-    auto F_v = F.View(CpuRead);
+    autoView( T_v , T,CpuWrite);
+    autoView( F_v , F,CpuRead);
    thread_for(i, CloverTerm.Grid()->oSites(),
    {
      T_v[i]()(0, 0) = timesI(F_v[i]()());
--- a/Grid/qcd/action/fermion/WilsonImpl.h
+++ b/Grid/qcd/action/fermion/WilsonImpl.h
@@ -106,9 +106,9 @@ public:
 			    const _SpinorField & phi,
 			    int mu)
  {
-    auto out_v= out.View(CpuWrite);
-    auto phi_v= phi.View(CpuRead);
-    auto Umu_v= Umu.View(CpuRead);
+    autoView( out_v, out, CpuWrite);
+    autoView( phi_v, phi, CpuRead);
+    autoView( Umu_v, Umu, CpuRead);
    thread_for(sss,out.Grid()->oSites(),{
 	multLink(out_v[sss],Umu_v[sss],phi_v[sss],mu);
    });
@@ -191,18 +191,19 @@ public:
    int Ls=Btilde.Grid()->_fdimensions[0];
    GaugeLinkField tmp(mat.Grid());
    tmp = Zero();
-    auto tmp_v = tmp.View(CpuWrite);
-    auto Btilde_v = Btilde.View(CpuRead);
-    auto Atilde_v = Atilde.View(CpuRead);
-    thread_for(sss,tmp.Grid()->oSites(),{
-      int sU=sss;
-      for(int s=0;s<Ls;s++){
-	int sF = s+Ls*sU;
-	tmp_v[sU] = tmp_v[sU]+ traceIndex<SpinIndex>(outerProduct(Btilde_v[sF],Atilde_v[sF])); // ordering here
-      }
-    });
+    {
+      autoView( tmp_v , tmp, CpuWrite);
+      autoView( Btilde_v , Btilde, CpuRead);
+      autoView( Atilde_v , Atilde, CpuRead);
+      thread_for(sss,tmp.Grid()->oSites(),{
+	  int sU=sss;
+	  for(int s=0;s<Ls;s++){
+	    int sF = s+Ls*sU;
+	    tmp_v[sU] = tmp_v[sU]+ traceIndex<SpinIndex>(outerProduct(Btilde_v[sF],Atilde_v[sF])); // ordering here
+	  }
+	});
+    }
    PokeIndex<LorentzIndex>(mat,tmp,mu);
-      
  }
 };

--- a/Grid/qcd/action/fermion/implementation/CayleyFermion5Dcache.h
+++ b/Grid/qcd/action/fermion/implementation/CayleyFermion5Dcache.h
@@ -50,9 +50,9 @@ CayleyFermion5D<Impl>::M5D(const FermionField &psi_i,
  
  chi_i.Checkerboard()=psi_i.Checkerboard();
  GridBase *grid=psi_i.Grid();
-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i,AcceleratorRead);
+  autoView(phi , phi_i,AcceleratorRead);
+  autoView(chi , chi_i,AcceleratorWrite);
  assert(phi.Checkerboard() == psi.Checkerboard());

  auto pdiag = &diag[0];
@@ -93,9 +93,9 @@ CayleyFermion5D<Impl>::M5Ddag(const FermionField &psi_i,
 {
  chi_i.Checkerboard()=psi_i.Checkerboard();
  GridBase *grid=psi_i.Grid();
-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i,AcceleratorRead);
+  autoView(phi , phi_i,AcceleratorRead);
+  autoView(chi , chi_i,AcceleratorWrite);
  assert(phi.Checkerboard() == psi.Checkerboard());

  auto pdiag = &diag[0];
@@ -131,8 +131,8 @@ CayleyFermion5D<Impl>::MooeeInv    (const FermionField &psi_i, FermionField &chi
  chi_i.Checkerboard()=psi_i.Checkerboard();
  GridBase *grid=psi_i.Grid();

-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i,AcceleratorRead);
+  autoView(chi , chi_i,AcceleratorWrite);

  int Ls=this->Ls;

@@ -193,8 +193,8 @@ CayleyFermion5D<Impl>::MooeeInvDag (const FermionField &psi_i, FermionField &chi
  GridBase *grid=psi_i.Grid();
  int Ls=this->Ls;

-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i,AcceleratorRead);
+  autoView(chi , chi_i,AcceleratorWrite);

  auto plee  = & lee [0];
  auto pdee  = & dee [0];
--- a/Grid/qcd/action/fermion/implementation/CayleyFermion5Dvec.h
+++ b/Grid/qcd/action/fermion/implementation/CayleyFermion5Dvec.h
@@ -65,9 +65,9 @@ CayleyFermion5D<Impl>::M5D(const FermionField &psi_i,
  EnableIf<Impl::LsVectorised&&EnableBool,int> sfinae=0;
  chi_i.Checkerboard()=psi_i.Checkerboard();
  GridBase *grid=psi_i.Grid();
-  auto psi = psi_i.View(CpuRead);
-  auto phi = phi_i.View(CpuRead);
-  auto chi = chi_i.View(CpuWrite);
+  autoView(psi, psi_i,CpuRead);
+  autoView(phi, phi_i,CpuRead);
+  autoView(chi, chi_i,CpuWrite);
  int Ls   = this->Ls;
  int LLs  = grid->_rdimensions[0];
  const int nsimd= Simd::Nsimd();
@@ -213,9 +213,9 @@ CayleyFermion5D<Impl>::M5Ddag(const FermionField &psi_i,
  EnableIf<Impl::LsVectorised&&EnableBool,int> sfinae=0;
  chi_i.Checkerboard()=psi_i.Checkerboard();
  GridBase *grid=psi_i.Grid();
-  auto psi=psi_i.View(CpuRead);
-  auto phi=phi_i.View(CpuRead);
-  auto chi=chi_i.View(CpuWrite);
+  autoView(psi,psi_i,CpuRead);
+  autoView(phi,phi_i,CpuRead);
+  autoView(chi,chi_i,CpuWrite);
  int Ls   = this->Ls;
  int LLs  = grid->_rdimensions[0];
  int nsimd= Simd::Nsimd();
@@ -357,8 +357,8 @@ CayleyFermion5D<Impl>::MooeeInternalAsm(const FermionField &psi_i, FermionField
 					Vector<iSinglet<Simd> > &Matm)
 {
  EnableIf<Impl::LsVectorised&&EnableBool,int> sfinae=0;
-  auto psi = psi_i.View(CpuRead);
-  auto chi = chi_i.View(CpuWrite);
+  autoView(psi , psi_i,CpuRead);
+  autoView(chi , chi_i,CpuWrite);
 #ifndef AVX512
  {
    SiteHalfSpinor BcastP;
@@ -535,8 +535,8 @@ CayleyFermion5D<Impl>::MooeeInternalZAsm(const FermionField &psi_i, FermionField
  EnableIf<Impl::LsVectorised,int> sfinae=0;
 #ifndef AVX512
  {
-    auto psi = psi_i.View(CpuRead);
-    auto chi = chi_i.View(CpuWrite);
+    autoView(psi , psi_i,CpuRead);
+    autoView(chi , chi_i,CpuWrite);

    SiteHalfSpinor BcastP;
    SiteHalfSpinor BcastM;
@@ -586,8 +586,8 @@ CayleyFermion5D<Impl>::MooeeInternalZAsm(const FermionField &psi_i, FermionField
  }
 #else
  {
-    auto psi = psi_i.View(CpuRead);
-    auto chi = chi_i.View(CpuWrite);
+    autoView(psi , psi_i,CpuRead);
+    autoView(chi , chi_i,CpuWrite);
    // pointers
    //  MASK_REGS;
 #define Chi_00 %zmm0
--- a/Grid/qcd/action/fermion/implementation/DomainWallEOFAFermionCache.h
+++ b/Grid/qcd/action/fermion/implementation/DomainWallEOFAFermionCache.h
@@ -46,9 +46,9 @@ void DomainWallEOFAFermion<Impl>::M5D(const FermionField& psi_i, const FermionFi
  chi_i.Checkerboard() = psi_i.Checkerboard();
  int Ls = this->Ls;
  GridBase* grid = psi_i.Grid();
-  auto phi = phi_i.View(AcceleratorRead);
-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView( phi , phi_i, AcceleratorRead);
+  autoView( psi , psi_i, AcceleratorRead);
+  autoView( chi , chi_i, AcceleratorWrite);
  assert(phi.Checkerboard() == psi.Checkerboard());
  auto pdiag = &diag[0];
  auto pupper = &upper[0];
@@ -82,9 +82,9 @@ void DomainWallEOFAFermion<Impl>::M5Ddag(const FermionField& psi_i, const Fermio
  GridBase* grid = psi_i.Grid();
  int Ls = this->Ls;

-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView( psi , psi_i, AcceleratorRead);
+  autoView( phi , phi_i, AcceleratorRead);
+  autoView( chi , chi_i, AcceleratorWrite);
  assert(phi.Checkerboard() == psi.Checkerboard());
  auto pdiag = &diag[0];
  auto pupper = &upper[0];
@@ -116,8 +116,8 @@ void DomainWallEOFAFermion<Impl>::MooeeInv(const FermionField& psi_i, FermionFie
 {
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase* grid = psi_i.Grid();
-  auto psi=psi_i.View(AcceleratorRead);
-  auto chi=chi_i.View(AcceleratorWrite);
+  autoView( psi, psi_i, AcceleratorRead);
+  autoView( chi, chi_i, AcceleratorWrite);
  int Ls = this->Ls;

  auto plee  = & this->lee[0];
@@ -172,8 +172,8 @@ void DomainWallEOFAFermion<Impl>::MooeeInvDag(const FermionField& psi_i, Fermion
 {
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase* grid = psi_i.Grid();
-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView( psi, psi_i, AcceleratorRead);
+  autoView( chi, chi_i, AcceleratorWrite);
  int Ls = this->Ls;

  auto plee  = & this->lee[0];
--- a/Grid/qcd/action/fermion/implementation/ImprovedStaggeredFermion5DImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/ImprovedStaggeredFermion5DImplementation.h
@@ -221,10 +221,10 @@ void ImprovedStaggeredFermion5D<Impl>::DhopDir(const FermionField &in, FermionFi

  Compressor compressor;
  Stencil.HaloExchange(in,compressor);
-  auto Umu_v   =   Umu.View(CpuRead);
-  auto UUUmu_v = UUUmu.View(CpuRead);
-  auto in_v    =  in.View(CpuRead);
-  auto out_v   = out.View(CpuWrite);
+  autoView( Umu_v   ,   Umu, CpuRead);
+  autoView( UUUmu_v , UUUmu, CpuRead);
+  autoView( in_v    ,  in, CpuRead);
+  autoView( out_v   , out, CpuWrite);
  thread_for( ss,Umu.Grid()->oSites(),{
    for(int s=0;s<Ls;s++){
      int sU=ss;
--- a/Grid/qcd/action/fermion/implementation/ImprovedStaggeredFermionImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/ImprovedStaggeredFermionImplementation.h
@@ -250,10 +250,10 @@ void ImprovedStaggeredFermion<Impl>::DerivInternal(StencilImpl &st, DoubledGauge
    ////////////////////////
    // Call the single hop
    ////////////////////////
-    auto U_v   = U.View(CpuRead);
-    auto UUU_v = UUU.View(CpuRead);
-    auto B_v      = B.View(CpuWrite);
-    auto Btilde_v = Btilde.View(CpuWrite);
+    autoView( U_v   , U, CpuRead);
+    autoView( UUU_v , UUU, CpuRead);
+    autoView( B_v      , B, CpuWrite);
+    autoView( Btilde_v , Btilde, CpuWrite);
    thread_for(sss,B.Grid()->oSites(),{
      Kernels::DhopDirKernel(st, U_v, UUU_v, st.CommBuf(), sss, sss, B_v, Btilde_v, mu,1);
    });
@@ -378,10 +378,10 @@ void ImprovedStaggeredFermion<Impl>::DhopDir(const FermionField &in, FermionFiel

  Compressor compressor;
  Stencil.HaloExchange(in, compressor);
-  auto Umu_v   =   Umu.View(CpuRead);
-  auto UUUmu_v = UUUmu.View(CpuRead);
-  auto in_v    =  in.View(CpuRead);
-  auto out_v   = out.View(CpuWrite);
+  autoView( Umu_v   ,   Umu, CpuRead);
+  autoView( UUUmu_v , UUUmu, CpuRead);
+  autoView( in_v    ,  in, CpuRead);
+  autoView( out_v   , out, CpuWrite);
  thread_for( sss, in.Grid()->oSites(),{
    Kernels::DhopDirKernel(Stencil, Umu_v, UUUmu_v, Stencil.CommBuf(), sss, sss, in_v, out_v, dir, disp);
  });
--- a/Grid/qcd/action/fermion/implementation/MobiusEOFAFermionCache.h
+++ b/Grid/qcd/action/fermion/implementation/MobiusEOFAFermionCache.h
@@ -44,9 +44,9 @@ void MobiusEOFAFermion<Impl>::M5D(const FermionField &psi_i, const FermionField
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(phi , phi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  assert(phi.Checkerboard() == psi.Checkerboard());

@@ -84,9 +84,9 @@ void MobiusEOFAFermion<Impl>::M5D_shift(const FermionField &psi_i, const Fermion
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(phi , phi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  auto pm  = this->pm;
  int shift_s = (pm == 1) ? (Ls-1) : 0; // s-component modified by shift operator
@@ -132,9 +132,9 @@ void MobiusEOFAFermion<Impl>::M5Ddag(const FermionField &psi_i, const FermionFie
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(phi , phi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  assert(phi.Checkerboard() == psi.Checkerboard());

@@ -174,9 +174,9 @@ void MobiusEOFAFermion<Impl>::M5Ddag_shift(const FermionField &psi_i, const Ferm
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
  int shift_s = (this->pm == 1) ? (Ls-1) : 0; // s-component modified by shift operator
-  auto psi = psi_i.View(AcceleratorRead);
-  auto phi = phi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(phi , phi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  assert(phi.Checkerboard() == psi.Checkerboard());

@@ -226,8 +226,8 @@ void MobiusEOFAFermion<Impl>::MooeeInv(const FermionField &psi_i, FermionField &
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  auto plee = & this->lee [0];
  auto pdee = & this->dee [0];
@@ -286,8 +286,8 @@ void MobiusEOFAFermion<Impl>::MooeeInv_shift(const FermionField &psi_i, FermionF
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  auto pm = this->pm;
  auto plee = & this->lee [0];
@@ -354,8 +354,8 @@ void MobiusEOFAFermion<Impl>::MooeeInvDag(const FermionField &psi_i, FermionFiel
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
  int Ls = this->Ls;
-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);

  auto plee = & this->lee [0];
  auto pdee = & this->dee [0];
@@ -410,8 +410,8 @@ void MobiusEOFAFermion<Impl>::MooeeInvDag_shift(const FermionField &psi_i, Fermi
 {
  chi_i.Checkerboard() = psi_i.Checkerboard();
  GridBase *grid = psi_i.Grid();
-  auto psi = psi_i.View(AcceleratorRead);
-  auto chi = chi_i.View(AcceleratorWrite);
+  autoView(psi , psi_i, AcceleratorRead);
+  autoView(chi , chi_i, AcceleratorWrite);
  int Ls = this->Ls;

  auto pm = this->pm;
--- a/Grid/qcd/action/fermion/implementation/NaiveStaggeredFermionImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/NaiveStaggeredFermionImplementation.h
@@ -208,9 +208,9 @@ void NaiveStaggeredFermion<Impl>::DerivInternal(StencilImpl &st, DoubledGaugeFie
    ////////////////////////
    // Call the single hop
    ////////////////////////
-    auto U_v   = U.View(CpuRead);
-    auto B_v      = B.View(CpuWrite);
-    auto Btilde_v = Btilde.View(CpuWrite);
+    autoView( U_v      , U, CpuRead);
+    autoView( B_v      , B, CpuWrite);
+    autoView( Btilde_v , Btilde, CpuWrite);
    thread_for(sss,B.Grid()->oSites(),{
      Kernels::DhopDirKernel(st, U_v, U_v, st.CommBuf(), sss, sss, B_v, Btilde_v, mu,1);
    });
@@ -315,9 +315,9 @@ void NaiveStaggeredFermion<Impl>::DhopDir(const FermionField &in, FermionField &

  Compressor compressor;
  Stencil.HaloExchange(in, compressor);
-  auto Umu_v   =   Umu.View(CpuRead);
-  auto in_v    =  in.View(CpuRead);
-  auto out_v   = out.View(CpuWrite);
+  autoView( Umu_v   ,  Umu, CpuRead);
+  autoView( in_v    ,  in, CpuRead);
+  autoView( out_v   , out, CpuWrite);
  //  thread_for( sss, in.Grid()->oSites(),{
  //    Kernels::DhopDirKernel(Stencil, Umu_v, Stencil.CommBuf(), sss, sss, in_v, out_v, dir, disp);
  //  });
--- a/Grid/qcd/action/fermion/implementation/StaggeredKernelsImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/StaggeredKernelsImplementation.h
@@ -261,11 +261,11 @@ void StaggeredKernels<Impl>::DhopImproved(StencilImpl &st, LebesgueOrder &lo,
  GridBase *FGrid=in.Grid();  
  GridBase *UGrid=U.Grid();  
  typedef StaggeredKernels<Impl> ThisKernel;
-  auto UUU_v = UUU.View(AcceleratorRead);
-  auto U_v   =   U.View(AcceleratorRead);
-  auto in_v  =  in.View(AcceleratorRead);
-  auto out_v = out.View(AcceleratorWrite);
-  auto st_v  =  st.View(AcceleratorRead);
+  autoView( UUU_v , UUU, AcceleratorRead);
+  autoView( U_v   ,   U, AcceleratorRead);
+  autoView( in_v  ,  in, AcceleratorRead);
+  autoView( out_v , out, AcceleratorWrite);
+  autoView( st_v  ,  st, AcceleratorRead);
  SiteSpinor * buf = st.CommBuf();
    
  int Ls=1;
@@ -301,11 +301,11 @@ void StaggeredKernels<Impl>::DhopNaive(StencilImpl &st, LebesgueOrder &lo,
  GridBase *FGrid=in.Grid();  
  GridBase *UGrid=U.Grid();  
  typedef StaggeredKernels<Impl> ThisKernel;
-  auto UUU_v=   U.View(AcceleratorRead);
-  auto U_v   =   U.View(AcceleratorRead);
-  auto in_v  =  in.View(AcceleratorRead);
-  auto out_v = out.View(AcceleratorWrite);
-  auto st_v  =  st.View(AcceleratorRead);
+  autoView( UUU_v ,   U, AcceleratorRead);
+  autoView( U_v   ,   U, AcceleratorRead);
+  autoView( in_v  ,  in, AcceleratorRead);
+  autoView( out_v , out, AcceleratorWrite);
+  autoView( st_v  ,  st, AcceleratorRead);
  SiteSpinor * buf = st.CommBuf();

  int Ls=1;
--- a/Grid/qcd/action/fermion/implementation/WilsonFermionImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/WilsonFermionImplementation.h
@@ -475,12 +475,12 @@ void WilsonFermion<Impl>::ContractConservedCurrent(PropagatorField &q_in_1,
  // Inefficient comms method but not performance critical.
  tmp1 = Cshift(q_in_1, mu, 1);
  tmp2 = Cshift(q_in_2, mu, 1);
-  auto tmp1_v  =  tmp1.View(CpuWrite);
-  auto tmp2_v  =  tmp2.View(CpuWrite);
-  auto q_in_1_v=q_in_1.View(CpuRead);
-  auto q_in_2_v=q_in_2.View(CpuRead);
-  auto q_out_v = q_out.View(CpuRead);
-  auto Umu_v   =   Umu.View(CpuRead);
+  autoView( tmp1_v  ,  tmp1, CpuWrite);
+  autoView( tmp2_v  ,  tmp2, CpuWrite);
+  autoView( q_in_1_v,q_in_1, CpuRead);
+  autoView( q_in_2_v,q_in_2, CpuRead);
+  autoView( q_out_v , q_out, CpuRead);
+  autoView( Umu_v   ,   Umu, CpuRead);
  thread_for(sU, Umu.Grid()->oSites(),{
      Kernels::ContractConservedCurrentSiteFwd(tmp1_v[sU],
 					       q_in_2_v[sU],
@@ -526,11 +526,11 @@ void WilsonFermion<Impl>::SeqConservedCurrent(PropagatorField &q_in,
  tmp    = lattice_cmplx*q_in;
  tmpBwd = Cshift(tmp, mu, -1);

-  auto coords_v = coords.View(CpuRead);
-  auto tmpFwd_v = tmpFwd.View(CpuRead);
-  auto tmpBwd_v = tmpBwd.View(CpuRead);
-  auto Umu_v    = Umu.View(CpuRead);
-  auto q_out_v  = q_out.View(CpuWrite);
+  autoView( coords_v , coords, CpuRead);
+  autoView( tmpFwd_v , tmpFwd, CpuRead);
+  autoView( tmpBwd_v , tmpBwd, CpuRead);
+  autoView( Umu_v    , Umu, CpuRead);
+  autoView( q_out_v  , q_out, CpuWrite);

  thread_for(sU, Umu.Grid()->oSites(), {

--- a/Grid/qcd/action/fermion/implementation/WilsonKernelsImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/WilsonKernelsImplementation.h
@@ -348,18 +348,18 @@ template <class Impl>
 void WilsonKernels<Impl>::DhopDirAll( StencilImpl &st, DoubledGaugeField &U,SiteHalfSpinor *buf, int Ls,
 				      int Nsite, const FermionField &in, std::vector<FermionField> &out) 
 {
-   auto U_v   = U.View(AcceleratorRead);
-   auto in_v  = in.View(AcceleratorRead);
-   auto st_v  = st.View(AcceleratorRead);
+   autoView(U_v  ,U,AcceleratorRead);
+   autoView(in_v ,in,AcceleratorRead);
+   autoView(st_v ,st,AcceleratorRead);

-   auto out_Xm = out[0].View(AcceleratorWrite);
-   auto out_Ym = out[1].View(AcceleratorWrite);
-   auto out_Zm = out[2].View(AcceleratorWrite);
-   auto out_Tm = out[3].View(AcceleratorWrite);
-   auto out_Xp = out[4].View(AcceleratorWrite);
-   auto out_Yp = out[5].View(AcceleratorWrite);
-   auto out_Zp = out[6].View(AcceleratorWrite);
-   auto out_Tp = out[7].View(AcceleratorWrite);
+   autoView(out_Xm,out[0],AcceleratorWrite);
+   autoView(out_Ym,out[1],AcceleratorWrite);
+   autoView(out_Zm,out[2],AcceleratorWrite);
+   autoView(out_Tm,out[3],AcceleratorWrite);
+   autoView(out_Xp,out[4],AcceleratorWrite);
+   autoView(out_Yp,out[5],AcceleratorWrite);
+   autoView(out_Zp,out[6],AcceleratorWrite);
+   autoView(out_Tp,out[7],AcceleratorWrite);
   auto CBp=st.CommBuf();
   accelerator_forNB(sss,Nsite*Ls,Simd::Nsimd(),{
      int sU=sss/Ls;				
@@ -383,10 +383,10 @@ void WilsonKernels<Impl>::DhopDirKernel( StencilImpl &st, DoubledGaugeField &U,S
  assert(dirdisp<=7);
  assert(dirdisp>=0);

-   auto U_v   = U.View(AcceleratorRead);
-   auto in_v  = in.View(AcceleratorRead);
-   auto out_v = out.View(AcceleratorWrite);
-   auto st_v  = st.View(AcceleratorRead);
+   autoView(U_v  ,U  ,AcceleratorRead);
+   autoView(in_v ,in ,AcceleratorRead);
+   autoView(out_v,out,AcceleratorWrite);
+   autoView(st_v ,st ,AcceleratorRead);
   auto CBp=st.CommBuf();			
 #define LoopBody(Dir)				\
   case Dir :					\
@@ -438,10 +438,10 @@ void WilsonKernels<Impl>::DhopKernel(int Opt,StencilImpl &st,  DoubledGaugeField
 				     int Ls, int Nsite, const FermionField &in, FermionField &out,
 				     int interior,int exterior) 
 {
-    auto U_v   =   U.View(AcceleratorRead);
-    auto in_v  =  in.View(AcceleratorRead);
-    auto out_v = out.View(AcceleratorWrite);
-    auto st_v  =  st.View(AcceleratorRead);
+    autoView(U_v  ,  U,AcceleratorRead);
+    autoView(in_v , in,AcceleratorRead);
+    autoView(out_v,out,AcceleratorWrite);
+    autoView(st_v , st,AcceleratorRead);

   if( interior && exterior ) { 
     if (Opt == WilsonKernelsStatic::OptGeneric    ) { KERNEL_CALL(GenericDhopSite); return;}
@@ -469,10 +469,10 @@ void WilsonKernels<Impl>::DhopKernel(int Opt,StencilImpl &st,  DoubledGaugeField
 					  int Ls, int Nsite, const FermionField &in, FermionField &out,
 					  int interior,int exterior) 
  {
-    auto U_v   = U.View(AcceleratorRead);
-    auto in_v  = in.View(AcceleratorRead);
-    auto out_v = out.View(AcceleratorWrite);
-    auto st_v  = st.View(AcceleratorRead);
+    autoView(U_v  ,U,AcceleratorRead);
+    autoView(in_v ,in,AcceleratorRead);
+    autoView(out_v,out,AcceleratorWrite);
+    autoView(st_v ,st,AcceleratorRead);

   if( interior && exterior ) { 
     if (Opt == WilsonKernelsStatic::OptGeneric    ) { KERNEL_CALL(GenericDhopSiteDag); return;}
--- a/Grid/qcd/action/gauge/GaugeImplTypes.h
+++ b/Grid/qcd/action/gauge/GaugeImplTypes.h
@@ -86,8 +86,8 @@ public:

  // Move this elsewhere? FIXME
  static inline void AddLink(Field &U, LinkField &W, int mu) { // U[mu] += W
-    auto U_v = U.View(CpuWrite);
-    auto W_v = W.View(CpuRead);
+    autoView(U_v,U,CpuWrite);
+    autoView(W_v,W,CpuRead);
    thread_for( ss, U.Grid()->oSites(), {
      U_v[ss](mu) = U_v[ss](mu) + W_v[ss]();
    });
@@ -131,15 +131,15 @@ public:
    //static std::chrono::duration<double> diff;

    //auto start = std::chrono::high_resolution_clock::now();
-    auto U_v = U.View(CpuWrite);
-    auto P_v = P.View(CpuRead);
+    autoView(U_v,U,CpuWrite);
+    autoView(P_v,P,CpuRead);
    thread_for(ss, P.Grid()->oSites(),{
      for (int mu = 0; mu < Nd; mu++) {
        U_v[ss](mu) = ProjectOnGroup(Exponentiate(P_v[ss](mu), ep, Nexp) * U_v[ss](mu));
      }
    });
    
-    //auto end = std::chrono::high_resolution_clock::now();
+   //auto end = std::chrono::high_resolution_clock::now();
   // diff += end - start;
   // std::cout << "Time to exponentiate matrix " << diff.count() << " s\n";
  }
--- a/Grid/qcd/action/scalar/ScalarInteractionAction.h
+++ b/Grid/qcd/action/scalar/ScalarInteractionAction.h
@@ -89,8 +89,8 @@ public:
    action = (2.0 * Ndim + mass_square) * phisquared - lambda * phisquared * phisquared;
    
    
-    auto p_v = p.View(CpuRead);
-    auto action_v = action.View(CpuWrite);
+    autoView( p_v      , p, CpuRead);
+    autoView( action_v , action, CpuWrite);
    for (int mu = 0; mu < Ndim; mu++)
    {
      //  pshift = Cshift(p, mu, +1);  // not efficient, implement with stencils
@@ -146,8 +146,8 @@ public:
    for (int point = 0; point < npoint; point++)
    {

-      auto p_v = p.View(CpuRead);
-      auto force_v = force.View(CpuWrite);
+      autoView( p_v , p, CpuRead);
+      autoView( force_v , force, CpuWrite);
            
      int permute_type;
      StencilEntry *SE;
--- a/Grid/qcd/modules/Registration.h
+++ b/Grid/qcd/modules/Registration.h
@@ -81,7 +81,7 @@ static Registrar<OneFlavourRatioEOFModule<FermionImplementationPolicy>,
 static Registrar< ConjugateGradientModule<WilsonFermionR::FermionField>,   
                  HMC_SolverModuleFactory<solver_string, WilsonFermionR::FermionField, Serialiser> > __CGWFmodXMLInit("ConjugateGradient"); 
 static Registrar< BiCGSTABModule<WilsonFermionR::FermionField>,   
-                  HMC_SolverModuleFactory<solver_string, WilsonFermionR::FermionField, Serialiser> > __CGWFmodXMLInit("BiCGSTAB"); 
+                  HMC_SolverModuleFactory<solver_string, WilsonFermionR::FermionField, Serialiser> > __BiCGWFmodXMLInit("BiCGSTAB"); 
 static Registrar< ConjugateResidualModule<WilsonFermionR::FermionField>,   
                  HMC_SolverModuleFactory<solver_string, WilsonFermionR::FermionField, Serialiser> > __CRWFmodXMLInit("ConjugateResidual"); 

--- a/Grid/qcd/utils/A2Autils.h
+++ b/Grid/qcd/utils/A2Autils.h
@@ -185,13 +185,14 @@ void A2Autils<FImpl>::MesonField(TensorType &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto lhs_v = lhs_wi[i].View(CpuRead);
+	  // Recreate view potentially expensive outside fo UVM mode
+	  autoView(lhs_v,lhs_wi[i],CpuRead);
 	  auto left = conjugate(lhs_v[ss]);
-
 	  for(int j=0;j<Rblock;j++){

 	    SpinMatrix_v vv;
-	    auto rhs_v = rhs_vj[j].View(CpuRead);
+	    // Recreate view potentially expensive outside fo UVM mode
+	    autoView(rhs_v,rhs_vj[j],CpuRead);
 	    auto right = rhs_v[ss];
 	    for(int s1=0;s1<Ns;s1++){
 	    for(int s2=0;s2<Ns;s2++){
@@ -204,11 +205,10 @@ void A2Autils<FImpl>::MesonField(TensorType &mat,
 	    int base = Nmom*i+Nmom*Lblock*j+Nmom*Lblock*Rblock*r;
 	    for ( int m=0;m<Nmom;m++){
 	      int idx = m+base;
-	      auto mom_v = mom[m].View(CpuRead);
+	      autoView(mom_v,mom[m],CpuRead);
 	      auto phase = mom_v[ss];
 	      mac(&lvSum[idx],&vv,&phase);
 	    }
-	  
 	  }
 	}
      }
@@ -371,7 +371,7 @@ void A2Autils<FImpl>::PionFieldXX(Eigen::Tensor<ComplexD,3> &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto wi_v = wi[i].View(CpuRead);
+	  autoView(wi_v,wi[i],CpuRead);
 	  auto w = conjugate(wi_v[ss]);
 	  if (g5) {
 	    w()(2)(0) = - w()(2)(0);
@@ -383,7 +383,7 @@ void A2Autils<FImpl>::PionFieldXX(Eigen::Tensor<ComplexD,3> &mat,
 	  }
 	  for(int j=0;j<Rblock;j++){
 	    
-	    auto vj_v=vj[j].View(CpuRead);
+	    autoView(vj_v,vj[j],CpuRead);
 	    auto v  = vj_v[ss];
 	    auto vv = v()(0)(0);

@@ -518,12 +518,12 @@ void A2Autils<FImpl>::PionFieldWVmom(Eigen::Tensor<ComplexD,4> &mat,

 	for(int i=0;i<Lblock;i++){

-	  auto wi_v = wi[i].View(CpuRead);
+	  autoView(wi_v,wi[i],CpuRead);
 	  auto w = conjugate(wi_v[ss]);

 	  for(int j=0;j<Rblock;j++){
-	    
-	    auto vj_v = vj[j].View(CpuRead);
+
+	    autoView(vj_v,vj[j],CpuRead);
 	    auto v = vj_v[ss];

 	    auto vv = w()(0)(0) * v()(0)(0)// Gamma5 Dirac basis explicitly written out
@@ -544,7 +544,7 @@ void A2Autils<FImpl>::PionFieldWVmom(Eigen::Tensor<ComplexD,4> &mat,
 	    int base = Nmom*i+Nmom*Lblock*j+Nmom*Lblock*Rblock*r;
 	    for ( int m=0;m<Nmom;m++){
 	      int idx = m+base;
-	      auto mom_v = mom[m].View(CpuRead);
+	      autoView(mom_v,mom[m],CpuRead);
 	      auto phase = mom_v[ss];
 	      mac(&lvSum[idx],&vv,&phase()()());
 	    }
@@ -730,13 +730,13 @@ void A2Autils<FImpl>::AslashField(TensorType &mat,

            for(int i=0;i<Lblock;i++)
            {
-  	        auto wi_v = lhs_wi[i].View(CpuRead);
+  	        autoView(wi_v,lhs_wi[i],CpuRead);
                auto left = conjugate(wi_v[ss]);

                for(int j=0;j<Rblock;j++)
                {
                    SpinMatrix_v vv;
-		    auto vj_v  = rhs_vj[j].View(CpuRead);
+		    autoView(vj_v,rhs_vj[j],CpuRead);
                    auto right = vj_v[ss];

                    for(int s1=0;s1<Ns;s1++)
@@ -752,8 +752,8 @@ void A2Autils<FImpl>::AslashField(TensorType &mat,

                    for ( int m=0;m<Nem;m++)
                    {
-  		        auto emB0_v = emB0[m].View(CpuRead);
-  		        auto emB1_v = emB1[m].View(CpuRead);
+  		        autoView(emB0_v,emB0[m],CpuRead);
+		        autoView(emB1_v,emB1[m],CpuRead);
                        int idx  = m+base;
                        auto b0  = emB0_v[ss];
                        auto b1  = emB1_v[ss];
@@ -1014,21 +1014,21 @@ A2Autils<FImpl>::ContractWWVV(std::vector<PropagatorField> &WWVV,
    for(int d_o=0;d_o<N_d;d_o+=d_unroll){
      for(int t=0;t<N_t;t++){
      for(int s=0;s<N_s;s++){
-  auto vs_v = vs[s].View(CpuRead);
-  auto tmp1 = vs_v[ss];
-  vobj tmp2 = Zero();
-  vobj tmp3 = Zero();
-  for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
-    auto vd_v = vd[d].View(CpuRead);
-    Scalar_v coeff = WW_sd(t,s,d);
-    tmp3 = conjugate(vd_v[ss]);
-    mac(&tmp2, &coeff, &tmp3);
-  }
+	autoView(vs_v,vs[s],CpuRead);
+	auto tmp1 = vs_v[ss];
+	vobj tmp2 = Zero();
+	vobj tmp3 = Zero();
+	for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
+	  autoView(vd_v,vd[d],CpuRead);
+	  Scalar_v coeff = WW_sd(t,s,d);
+	  tmp3 = conjugate(vd_v[ss]);
+	  mac(&tmp2, &coeff, &tmp3);
+	}

-  //////////////////////////
-  // Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
-  //////////////////////////
-  OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);
+	//////////////////////////
+	// Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
+	//////////////////////////
+	OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);

      }}
    }
@@ -1067,21 +1067,20 @@ A2Autils<FImpl>::ContractWWVV(std::vector<PropagatorField> &WWVV,
    thread_for(ss,grid->oSites(),{
      for(int d_o=0;d_o<N_d;d_o+=d_unroll){
        for(int s=0;s<N_s;s++){
-    auto vs_v = vs[s].View(CpuRead);
-    auto tmp1 = vs_v[ss];
-    vobj tmp2 = Zero();
-    vobj tmp3 = Zero();
-    for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
-      auto vd_v = vd[d].View(CpuRead);
-      Scalar_v coeff = buf(s,d);
-      tmp3 = conjugate(vd_v[ss]);
-      mac(&tmp2, &coeff, &tmp3);
-    }
-
-    //////////////////////////
-    // Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
-    //////////////////////////
-    OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);
+	  autoView(vs_v,vs[s],CpuRead);
+	  auto tmp1 = vs_v[ss];
+	  vobj tmp2 = Zero();
+	  vobj tmp3 = Zero();
+	  for(int d=d_o;d<MIN(d_o+d_unroll,N_d);d++){
+	    autoView(vd_v,vd[d],CpuRead);
+	    Scalar_v coeff = buf(s,d);
+	    tmp3 = conjugate(vd_v[ss]);
+	    mac(&tmp2, &coeff, &tmp3);
+	  }
+	  //////////////////////////
+	  // Fast outer product of tmp1 with a sum of terms suppressed by d_unroll
+	  //////////////////////////
+	  OuterProductWWVV(WWVV[t], tmp1, tmp2, Ns, ss);
      }}
    });
  }
@@ -1093,7 +1092,7 @@ inline void A2Autils<FImpl>::OuterProductWWVV(PropagatorField &WWVV,
                                             const vobj &rhs,
                                             const int Ns, const int ss)
 {
-  auto WWVV_v = WWVV.View(CpuWrite);
+  autoView(WWVV_v,WWVV,CpuWrite);
  for (int s1 = 0; s1 < Ns; s1++){
    for (int s2 = 0; s2 < Ns; s2++){
      WWVV_v[ss]()(s1,s2)(0, 0) += lhs()(s1)(0) * rhs()(s2)(0);
@@ -1122,10 +1121,10 @@ void A2Autils<FImpl>::ContractFourQuarkColourDiagonal(const PropagatorField &WWV

  GridBase *grid = WWVV0.Grid();

-  auto WWVV0_v = WWVV0.View(CpuRead);
-  auto WWVV1_v = WWVV1.View(CpuRead);
-  auto O_trtr_v= O_trtr.View(CpuWrite);
-  auto O_fig8_v= O_fig8.View(CpuWrite);
+  autoView(WWVV0_v , WWVV0,CpuRead);
+  autoView(WWVV1_v , WWVV1,CpuRead);
+  autoView(O_trtr_v, O_trtr,CpuWrite);
+  autoView(O_fig8_v, O_fig8,CpuWrite);
  thread_for(ss,grid->oSites(),{

    typedef typename ComplexField::vector_object vobj;
@@ -1166,10 +1165,10 @@ void A2Autils<FImpl>::ContractFourQuarkColourMix(const PropagatorField &WWVV0,

  GridBase *grid = WWVV0.Grid();

-  auto WWVV0_v = WWVV0.View(CpuRead);
-  auto WWVV1_v = WWVV1.View(CpuRead);
-  auto O_trtr_v= O_trtr.View(CpuWrite);
-  auto O_fig8_v= O_fig8.View(CpuWrite);
+  autoView( WWVV0_v , WWVV0,CpuRead);
+  autoView( WWVV1_v , WWVV1,CpuRead);
+  autoView( O_trtr_v, O_trtr,CpuWrite);
+  autoView( O_fig8_v, O_fig8,CpuWrite);

  thread_for(ss,grid->oSites(),{

--- a/Grid/qcd/utils/BaryonUtils.h
+++ b/Grid/qcd/utils/BaryonUtils.h
@@ -273,10 +273,10 @@ void BaryonUtils<FImpl>::ContractBaryons(const PropagatorField &q1_left,
  for (int ie=0; ie < 6 ; ie++)
    wick_contraction[ie] = (quarks_left[0] == quarks_right[epsilon[ie][0]] && quarks_left[1] == quarks_right[epsilon[ie][1]] && quarks_left[2] == quarks_right[epsilon[ie][2]]) ? 1 : 0;

-  auto vbaryon_corr= baryon_corr.View(CpuWrite);
-  auto v1 = q1_left.View(CpuRead);
-  auto v2 = q2_left.View(CpuRead);
-  auto v3 = q3_left.View(CpuRead);
+  autoView(vbaryon_corr, baryon_corr,CpuWrite);
+  autoView( v1 , q1_left, CpuRead);
+  autoView( v2 , q2_left, CpuRead);
+  autoView( v3 , q3_left, CpuRead);

 // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
  thread_for(ss,grid->oSites(),{
@@ -560,10 +560,10 @@ void BaryonUtils<FImpl>::Sigma_to_Nucleon_Eye(const PropagatorField &qq_loop,
 {
  GridBase *grid = qs_ti.Grid();

-  auto vcorr= stn_corr.View(CpuWrite);
-  auto vq_loop = qq_loop.View(CpuRead);
-  auto vd_tf = qd_tf.View(CpuRead);
-  auto vs_ti = qs_ti.View(CpuRead);
+  autoView( vcorr, stn_corr, CpuWrite);
+  autoView( vq_loop , qq_loop, CpuRead);
+  autoView( vd_tf , qd_tf, CpuRead);
+  autoView( vs_ti , qs_ti, CpuRead);

 // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
  thread_for(ss,grid->oSites(),{
@@ -597,12 +597,11 @@ void BaryonUtils<FImpl>::Sigma_to_Nucleon_NonEye(const PropagatorField &qq_ti,
 {
  GridBase *grid = qs_ti.Grid();

-  auto vcorr= stn_corr.View(CpuWrite);
-  auto vq_ti = qq_ti.View(CpuRead);
-  auto vq_tf = qq_tf.View(CpuRead);
-  auto vd_tf = qd_tf.View(CpuRead);
-  auto vs_ti = qs_ti.View(CpuRead);
-
+  autoView( vcorr , stn_corr, CpuWrite);
+  autoView( vq_ti , qq_ti, CpuRead);
+  autoView( vq_tf , qq_tf, CpuRead);
+  autoView( vd_tf , qd_tf, CpuRead);
+  autoView( vs_ti , qs_ti, CpuRead);
 // accelerator_for(ss, grid->oSites(), grid->Nsimd(), {
  thread_for(ss,grid->oSites(),{
    auto Dq_ti = vq_ti[ss];
--- a/Grid/qcd/utils/LinalgUtils.h
+++ b/Grid/qcd/utils/LinalgUtils.h
@@ -47,8 +47,8 @@ void axpibg5x(Lattice<vobj> &z,const Lattice<vobj> &x,Coeff a,Coeff b)
  GridBase *grid=x.Grid();

  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView(x_v, x, AcceleratorRead);
+  autoView(z_v, z, AcceleratorWrite);
  accelerator_for( ss, x_v.size(),vobj::Nsimd(), {
    auto tmp = a*x_v(ss) + G5*(b*timesI(x_v(ss)));
    coalescedWrite(z_v[ss],tmp);
@@ -63,9 +63,9 @@ void axpby_ssp(Lattice<vobj> &z, Coeff a,const Lattice<vobj> &x,Coeff b,const La
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  // FIXME -- need a new class of accelerator_loop to implement this
  //
  uint64_t nloop = grid->oSites()/Ls;
@@ -85,9 +85,9 @@ void ag5xpby_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const L
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -104,9 +104,9 @@ void axpbg5y_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const L
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  Gamma G5(Gamma::Algebra::Gamma5);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
@@ -125,9 +125,9 @@ void ag5xpbg5y_ssp(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,const
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];

-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  Gamma G5(Gamma::Algebra::Gamma5);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
@@ -147,9 +147,9 @@ void axpby_ssp_pminus(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,co
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];

-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -168,9 +168,9 @@ void axpby_ssp_pplus(Lattice<vobj> &z,Coeff a,const Lattice<vobj> &x,Coeff b,con
  conformable(x,z);
  GridBase *grid=x.Grid();
  int Ls = grid->_rdimensions[0];
-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -189,8 +189,8 @@ void G5R5(Lattice<vobj> &z,const Lattice<vobj> &x)
  conformable(x,z);
  int Ls = grid->_rdimensions[0];
  Gamma G5(Gamma::Algebra::Gamma5);
-  auto x_v = x.View(AcceleratorRead);
-  auto z_v = z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
  uint64_t nloop = grid->oSites()/Ls;
  accelerator_for(sss,nloop,vobj::Nsimd(),{
    uint64_t ss = sss*Ls;
@@ -222,8 +222,8 @@ void G5C(Lattice<iVector<CComplex, nbasis>> &z, const Lattice<iVector<CComplex,
  static_assert(nbasis % 2 == 0, "");
  int nb = nbasis / 2;

-  auto z_v = z.View(AcceleratorWrite);
-  auto x_v = x.View(AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
  accelerator_for(ss,grid->oSites(),CComplex::Nsimd(),
  {
    for(int n = 0; n < nb; ++n) {
--- a/Grid/qcd/utils/SUn.h
+++ b/Grid/qcd/utils/SUn.h
@@ -222,10 +222,10 @@ public:
    conformable(subgroup, Determinant);
    int i0, i1;
    su2SubGroupIndex(i0, i1, su2_index);
-    auto subgroup_v = subgroup.View(CpuWrite);
-    auto source_v   = source.View(CpuRead);
-    auto Determinant_v = Determinant.View(CpuWrite);

+    autoView( subgroup_v , subgroup,CpuWrite);
+    autoView( source_v   , source,CpuRead);
+    autoView( Determinant_v , Determinant,CpuWrite);
    thread_for(ss, grid->oSites(), {

      subgroup_v[ss]()()(0, 0) = source_v[ss]()()(i0, i0);
@@ -257,8 +257,8 @@ public:
    su2SubGroupIndex(i0, i1, su2_index);

    dest = 1.0;  // start out with identity
-    auto dest_v = dest.View(CpuWrite);
-    auto subgroup_v = subgroup.View(CpuRead);
+    autoView( dest_v , dest, CpuWrite);
+    autoView( subgroup_v, subgroup, CpuRead);
    thread_for(ss, grid->oSites(),
    {
      dest_v[ss]()()(i0, i0) = subgroup_v[ss]()()(0, 0);
@@ -266,6 +266,7 @@ public:
      dest_v[ss]()()(i1, i0) = subgroup_v[ss]()()(1, 0);
      dest_v[ss]()()(i1, i1) = subgroup_v[ss]()()(1, 1);
    });
+
  }

  ///////////////////////////////////////////////
@@ -608,8 +609,8 @@ public:

  // reunitarise??
  template <typename LatticeMatrixType>
-  static void LieRandomize(GridParallelRNG &pRNG, LatticeMatrixType &out,
-                           double scale = 1.0) {
+  static void LieRandomize(GridParallelRNG &pRNG, LatticeMatrixType &out, double scale = 1.0) 
+  {
    GridBase *grid = out.Grid();

    typedef typename LatticeMatrixType::vector_type vector_type;
@@ -618,8 +619,7 @@ public:
    typedef iSinglet<vector_type> vTComplexType;

    typedef Lattice<vTComplexType> LatticeComplexType;
-    typedef typename GridTypeMapper<
-      typename LatticeMatrixType::vector_object>::scalar_object MatrixType;
+    typedef typename GridTypeMapper<typename LatticeMatrixType::vector_object>::scalar_object MatrixType;

    LatticeComplexType ca(grid);
    LatticeMatrixType lie(grid);
@@ -629,6 +629,7 @@ public:
    MatrixType ta;

    lie = Zero();
+
    for (int a = 0; a < AdjointDimension; a++) {
      random(pRNG, ca);

@@ -640,6 +641,7 @@ public:
      la = ci * ca * ta;

      lie = lie + la;  // e^{i la ta}
+
    }
    taExp(lie, out);
  }