Global edit with change to View usage. autoView() creates a wrapper object that closes the view when scope closes.

2026-05-20 00:54:30 +01:00 · 2020-06-05 18:52:35 -04:00
parent f39c2a240b
commit 1a4c8c3387
78 changed files with 773 additions and 778 deletions
@@ -87,12 +87,14 @@ sobj eval(const uint64_t ss, const sobj &arg)
 }

 template <class lobj> accelerator_inline 
-const lobj & eval(const uint64_t ss, const LatticeExprView<lobj> &arg) 
+const lobj & eval(const uint64_t ss, const LatticeView<lobj> &arg) 
 {
  return arg[ss];
 }

 // What needs this?
+// Cannot be legal on accelerator
+// Comparison must convert
 #if 1
 template <class lobj> accelerator_inline 
 const lobj & eval(const uint64_t ss, const Lattice<lobj> &arg) 
@@ -36,9 +36,9 @@ NAMESPACE_BEGIN(Grid);
 template<class obj1,class obj2,class obj3> inline
 void mult(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto rhs_v = rhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
+  autoView( rhs_v , rhs, AcceleratorRead);
  conformable(ret,rhs);
  conformable(lhs,rhs);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
@@ -55,9 +55,9 @@ void mac(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(ret,rhs);
  conformable(lhs,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto rhs_v = rhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
+  autoView( rhs_v , rhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto lhs_t=lhs_v(ss);
@@ -72,9 +72,9 @@ void sub(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(ret,rhs);
  conformable(lhs,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto rhs_v = rhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
+  autoView( rhs_v , rhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto lhs_t=lhs_v(ss);
@@ -88,9 +88,9 @@ void add(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(ret,rhs);
  conformable(lhs,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto rhs_v = rhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
+  autoView( rhs_v , rhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto lhs_t=lhs_v(ss);
@@ -107,8 +107,8 @@ template<class obj1,class obj2,class obj3> inline
 void mult(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const obj3 &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(lhs,ret);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    mult(&tmp,&lhs_v(ss),&rhs);
@@ -120,8 +120,8 @@ template<class obj1,class obj2,class obj3> inline
 void mac(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const obj3 &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(ret,lhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto lhs_t=lhs_v(ss);
@@ -134,8 +134,8 @@ template<class obj1,class obj2,class obj3> inline
 void sub(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const obj3 &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(ret,lhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto lhs_t=lhs_v(ss);
@@ -147,8 +147,8 @@ template<class obj1,class obj2,class obj3> inline
 void add(Lattice<obj1> &ret,const Lattice<obj2> &lhs,const obj3 &rhs){
  ret.Checkerboard() = lhs.Checkerboard();
  conformable(lhs,ret);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto lhs_t=lhs_v(ss);
@@ -164,8 +164,8 @@ template<class obj1,class obj2,class obj3> inline
 void mult(Lattice<obj1> &ret,const obj2 &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = rhs.Checkerboard();
  conformable(ret,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto rhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( rhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,rhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto rhs_t=rhs_v(ss);
@@ -178,8 +178,8 @@ template<class obj1,class obj2,class obj3> inline
 void mac(Lattice<obj1> &ret,const obj2 &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = rhs.Checkerboard();
  conformable(ret,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto rhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( rhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,rhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto rhs_t=rhs_v(ss);
@@ -192,8 +192,8 @@ template<class obj1,class obj2,class obj3> inline
 void sub(Lattice<obj1> &ret,const obj2 &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = rhs.Checkerboard();
  conformable(ret,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto rhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( rhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,rhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto rhs_t=rhs_v(ss);
@@ -205,8 +205,8 @@ template<class obj1,class obj2,class obj3> inline
 void add(Lattice<obj1> &ret,const obj2 &lhs,const Lattice<obj3> &rhs){
  ret.Checkerboard() = rhs.Checkerboard();
  conformable(ret,rhs);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto rhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( rhs_v , lhs, AcceleratorRead);
  accelerator_for(ss,rhs_v.size(),obj1::Nsimd(),{
    decltype(coalescedRead(obj1())) tmp;
    auto rhs_t=rhs_v(ss);
@@ -220,9 +220,9 @@ void axpy(Lattice<vobj> &ret,sobj a,const Lattice<vobj> &x,const Lattice<vobj> &
  ret.Checkerboard() = x.Checkerboard();
  conformable(ret,x);
  conformable(x,y);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( x_v , x, AcceleratorRead);
+  autoView( y_v , y, AcceleratorRead);
  accelerator_for(ss,x_v.size(),vobj::Nsimd(),{
    auto tmp = a*x_v(ss)+y_v(ss);
    coalescedWrite(ret_v[ss],tmp);
@@ -233,9 +233,9 @@ void axpby(Lattice<vobj> &ret,sobj a,sobj b,const Lattice<vobj> &x,const Lattice
  ret.Checkerboard() = x.Checkerboard();
  conformable(ret,x);
  conformable(x,y);
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto x_v = x.View(AcceleratorRead);
-  auto y_v = y.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( x_v , x, AcceleratorRead);
+  autoView( y_v , y, AcceleratorRead);
  accelerator_for(ss,x_v.size(),vobj::Nsimd(),{
    auto tmp = a*x_v(ss)+b*y_v(ss);
    coalescedWrite(ret_v[ss],tmp);
@@ -84,6 +84,7 @@ public:
  /////////////////////////////////////////////////////////////////////////////////
  void SetViewMode(ViewMode mode) {
    LatticeView<vobj> accessor(*( (LatticeAccelerator<vobj> *) this),mode);
+    accessor.ViewClose();
  }
  /////////////////////////////////////////////////////////////////////////////////
  // Return a view object that may be dereferenced in site loops.
@@ -123,6 +124,7 @@ public:
      auto tmp = eval(ss,exprCopy);
      vstream(me[ss],tmp);
    });
+    me.ViewClose();
    ExpressionViewClose(exprCopy);
    return *this;
  }
@@ -145,6 +147,7 @@ public:
      auto tmp = eval(ss,exprCopy);
      vstream(me[ss],tmp);
    });
+    me.ViewClose();
    ExpressionViewClose(exprCopy);
    return *this;
  }
@@ -166,6 +169,7 @@ public:
      auto tmp = eval(ss,exprCopy);
      vstream(me[ss],tmp);
    });
+    me.ViewClose();
    ExpressionViewClose(exprCopy);
    return *this;
  }
@@ -221,6 +225,7 @@ public:
    thread_for(ss,me.size(),{
 	me[ss]= r;
    });
+    me.ViewClose();
    return *this;
  }

@@ -278,6 +283,7 @@ public:
    accelerator_for(ss,me.size(),vobj::Nsimd(),{
      coalescedWrite(me[ss],him(ss));
    });
+    me.ViewClose();    him.ViewClose();
    return *this;
  }

@@ -292,6 +298,7 @@ public:
    accelerator_for(ss,me.size(),vobj::Nsimd(),{
      coalescedWrite(me[ss],him(ss));
    });
+    me.ViewClose();    him.ViewClose();
    return *this;
  }
  ///////////////////////////////////////////
@@ -78,9 +78,9 @@ template<class vfunctor,class lobj,class robj>
 inline Lattice<vPredicate> LLComparison(vfunctor op,const Lattice<lobj> &lhs,const Lattice<robj> &rhs)
 {
  Lattice<vPredicate> ret(rhs.Grid());
-  auto lhs_v = lhs.View(CpuRead);
-  auto rhs_v = rhs.View(CpuRead);
-  auto ret_v = ret.View(CpuWrite);
+  autoView( lhs_v, lhs, CpuRead);
+  autoView( rhs_v, rhs, CpuRead);
+  autoView( ret_v, ret, CpuWrite);
  thread_for( ss, rhs_v.size(), {
      ret_v[ss]=op(lhs_v[ss],rhs_v[ss]);
  });
@@ -93,8 +93,8 @@ template<class vfunctor,class lobj,class robj>
 inline Lattice<vPredicate> LSComparison(vfunctor op,const Lattice<lobj> &lhs,const robj &rhs)
 {
  Lattice<vPredicate> ret(lhs.Grid());
-  auto lhs_v = lhs.View(CpuRead);
-  auto ret_v = ret.View(CpuWrite);
+  autoView( lhs_v, lhs, CpuRead);
+  autoView( ret_v, ret, CpuWrite);
  thread_for( ss, lhs_v.size(), {
    ret_v[ss]=op(lhs_v[ss],rhs);
  });
@@ -107,8 +107,8 @@ template<class vfunctor,class lobj,class robj>
 inline Lattice<vPredicate> SLComparison(vfunctor op,const lobj &lhs,const Lattice<robj> &rhs)
 {
  Lattice<vPredicate> ret(rhs.Grid());
-  auto rhs_v = rhs.View(CpuRead);
-  auto ret_v = ret.View(CpuWrite);
+  autoView( rhs_v, rhs, CpuRead);
+  autoView( ret_v, ret, CpuWrite);
  thread_for( ss, rhs_v.size(), {
    ret_v[ss]=op(lhs,rhs_v[ss]);
  });
@@ -37,7 +37,7 @@ template<class iobj> inline void LatticeCoordinate(Lattice<iobj> &l,int mu)
  GridBase *grid = l.Grid();
  int Nsimd = grid->iSites();

-  auto l_v = l.View(CpuWrite);
+  autoView(l_v, l, CpuWrite);
  thread_for( o, grid->oSites(), {
    vector_type vI;
    Coordinate gcoor;
@@ -43,8 +43,8 @@ template<class vobj>
 inline auto localNorm2 (const Lattice<vobj> &rhs)-> Lattice<typename vobj::tensor_reduced>
 {
  Lattice<typename vobj::tensor_reduced> ret(rhs.Grid());
-  auto rhs_v = rhs.View(AcceleratorRead);
-  auto ret_v = ret.View(AcceleratorWrite);
+  autoView( rhs_v , rhs, AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
  accelerator_for(ss,rhs_v.size(),vobj::Nsimd(),{
    coalescedWrite(ret_v[ss],innerProduct(rhs_v(ss),rhs_v(ss)));
  });
@@ -56,9 +56,9 @@ template<class vobj>
 inline auto localInnerProduct (const Lattice<vobj> &lhs,const Lattice<vobj> &rhs) -> Lattice<typename vobj::tensor_reduced>
 {
  Lattice<typename vobj::tensor_reduced> ret(rhs.Grid());
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto rhs_v = rhs.View(AcceleratorRead);
-  auto ret_v = ret.View(AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
+  autoView( rhs_v , rhs, AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
  accelerator_for(ss,rhs_v.size(),vobj::Nsimd(),{
    coalescedWrite(ret_v[ss],innerProduct(lhs_v(ss),rhs_v(ss)));
  });
@@ -73,9 +73,9 @@ inline auto outerProduct (const Lattice<ll> &lhs,const Lattice<rr> &rhs) -> Latt
  typedef decltype(coalescedRead(ll())) sll;
  typedef decltype(coalescedRead(rr())) srr;
  Lattice<decltype(outerProduct(ll(),rr()))> ret(rhs.Grid());
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto rhs_v = rhs.View(AcceleratorRead);
-  auto ret_v = ret.View(AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
+  autoView( rhs_v , rhs, AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
  accelerator_for(ss,rhs_v.size(),1,{
    // FIXME had issues with scalar version of outer 
    // Use vector [] operator and don't read coalesce this loop
@@ -51,9 +51,9 @@ static void sliceMaddMatrix (Lattice<vobj> &R,Eigen::MatrixXcd &aa,const Lattice
  int block =FullGrid->_slice_block [Orthog];
  int nblock=FullGrid->_slice_nblock[Orthog];
  int ostride=FullGrid->_ostride[Orthog];
-  auto X_v = X.View(CpuRead);
-  auto Y_v = Y.View(CpuRead);
-  auto R_v = R.View(CpuWrite);
+  autoView( X_v , X, CpuRead);
+  autoView( Y_v , Y, CpuRead);
+  autoView( R_v , R, CpuWrite);
  thread_region
  {
    std::vector<vobj> s_x(Nblock);
@@ -97,8 +97,8 @@ static void sliceMulMatrix (Lattice<vobj> &R,Eigen::MatrixXcd &aa,const Lattice<
  int nblock=FullGrid->_slice_nblock[Orthog];
  int ostride=FullGrid->_ostride[Orthog];

-  auto X_v = X.View(CpuRead);
-  auto R_v = R.View(CpuWrite);
+  autoView( X_v , X, CpuRead);
+  autoView( R_v , R, CpuWrite);

  thread_region
  {
@@ -156,8 +156,8 @@ static void sliceInnerProductMatrix(  Eigen::MatrixXcd &mat, const Lattice<vobj>
  int ostride=FullGrid->_ostride[Orthog];

  typedef typename vobj::vector_typeD vector_typeD;
-  auto lhs_v = lhs.View(CpuRead);
-  auto rhs_v = rhs.View(CpuRead);
+  autoView( lhs_v , lhs, CpuRead);
+  autoView( rhs_v , rhs, CpuRead);
  thread_region {
    std::vector<vobj> Left(Nblock);
    std::vector<vobj> Right(Nblock);
@@ -46,8 +46,8 @@ auto PeekIndex(const Lattice<vobj> &lhs,int i) -> Lattice<decltype(peekIndex<Ind
 {
  Lattice<decltype(peekIndex<Index>(vobj(),i))> ret(lhs.Grid());
  ret.Checkerboard()=lhs.Checkerboard();
-  auto ret_v = ret.View(CpuWrite);
-  auto lhs_v = lhs.View(CpuRead);
+  autoView( ret_v, ret, CpuWrite);
+  autoView( lhs_v, lhs, CpuRead);
  thread_for( ss, lhs_v.size(), {
    ret_v[ss] = peekIndex<Index>(lhs_v[ss],i);
  });
@@ -58,8 +58,8 @@ auto PeekIndex(const Lattice<vobj> &lhs,int i,int j) -> Lattice<decltype(peekInd
 {
  Lattice<decltype(peekIndex<Index>(vobj(),i,j))> ret(lhs.Grid());
  ret.Checkerboard()=lhs.Checkerboard();
-  auto ret_v = ret.View(CpuWrite);
-  auto lhs_v = lhs.View(CpuRead);
+  autoView( ret_v, ret, CpuWrite);
+  autoView( lhs_v, lhs, CpuRead);
  thread_for( ss, lhs_v.size(), {
    ret_v[ss] = peekIndex<Index>(lhs_v[ss],i,j);
  });
@@ -72,8 +72,8 @@ auto PeekIndex(const Lattice<vobj> &lhs,int i,int j) -> Lattice<decltype(peekInd
 template<int Index,class vobj>  
 void PokeIndex(Lattice<vobj> &lhs,const Lattice<decltype(peekIndex<Index>(vobj(),0))> & rhs,int i)
 {
-  auto rhs_v = rhs.View(CpuRead);
-  auto lhs_v = lhs.View(CpuWrite);
+  autoView( rhs_v, rhs, CpuRead);
+  autoView( lhs_v, lhs, CpuWrite);
  thread_for( ss, lhs_v.size(), {
    pokeIndex<Index>(lhs_v[ss],rhs_v[ss],i);
  });
@@ -81,8 +81,8 @@ void PokeIndex(Lattice<vobj> &lhs,const Lattice<decltype(peekIndex<Index>(vobj()
 template<int Index,class vobj> 
 void PokeIndex(Lattice<vobj> &lhs,const Lattice<decltype(peekIndex<Index>(vobj(),0,0))> & rhs,int i,int j)
 {
-  auto rhs_v = rhs.View(CpuRead);
-  auto lhs_v = lhs.View(CpuWrite);
+  autoView( rhs_v, rhs, CpuRead);
+  autoView( lhs_v, lhs, CpuWrite);
  thread_for( ss, lhs_v.size(), {
    pokeIndex<Index>(lhs_v[ss],rhs_v[ss],i,j);
  });
@@ -111,7 +111,7 @@ void pokeSite(const sobj &s,Lattice<vobj> &l,const Coordinate &site){

  // extract-modify-merge cycle is easiest way and this is not perf critical
  ExtractBuffer<sobj> buf(Nsimd);
-  auto l_v = l.View(CpuWrite);
+  autoView( l_v , l, CpuWrite);
  if ( rank == grid->ThisRank() ) {
    extract(l_v[odx],buf);
    buf[idx] = s;
@@ -141,7 +141,7 @@ void peekSite(sobj &s,const Lattice<vobj> &l,const Coordinate &site){
  grid->GlobalCoorToRankIndex(rank,odx,idx,site);

  ExtractBuffer<sobj> buf(Nsimd);
-  auto l_v = l.View(CpuWrite);
+  autoView( l_v , l, CpuWrite);
  extract(l_v[odx],buf);

  s = buf[idx];
@@ -173,7 +173,7 @@ inline void peekLocalSite(sobj &s,const Lattice<vobj> &l,Coordinate &site){
  idx= grid->iIndex(site);
  odx= grid->oIndex(site);
  
-  auto l_v = l.View(CpuRead);
+  autoView( l_v , l, CpuRead);
  scalar_type * vp = (scalar_type *)&l_v[odx];
  scalar_type * pt = (scalar_type *)&s;
      
@@ -202,7 +202,7 @@ inline void pokeLocalSite(const sobj &s,Lattice<vobj> &l,Coordinate &site){
  idx= grid->iIndex(site);
  odx= grid->oIndex(site);

-  auto l_v = l.View(CpuWrite);
+  autoView( l_v , l, CpuWrite);
  scalar_type * vp = (scalar_type *)&l_v[odx];
  scalar_type * pt = (scalar_type *)&s;
  for(int w=0;w<words;w++){
@@ -40,8 +40,8 @@ NAMESPACE_BEGIN(Grid);

 template<class vobj> inline Lattice<vobj> adj(const Lattice<vobj> &lhs){
  Lattice<vobj> ret(lhs.Grid());
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto ret_v = ret.View(AcceleratorWrite);
+  autoView( lhs_v, lhs, AcceleratorRead);
+  autoView( ret_v, ret, AcceleratorWrite);
  accelerator_for( ss, lhs_v.size(), vobj::Nsimd(), {
    coalescedWrite(ret_v[ss], adj(lhs_v(ss)));
  });
@@ -50,8 +50,8 @@ template<class vobj> inline Lattice<vobj> adj(const Lattice<vobj> &lhs){

 template<class vobj> inline Lattice<vobj> conjugate(const Lattice<vobj> &lhs){
  Lattice<vobj> ret(lhs.Grid());
-  auto lhs_v = lhs.View(AcceleratorRead);
-  auto ret_v = ret.View(AcceleratorWrite);
+  autoView( lhs_v, lhs, AcceleratorRead);
+  autoView( ret_v, ret, AcceleratorWrite);
  accelerator_for( ss, lhs_v.size(), vobj::Nsimd(), {
    coalescedWrite( ret_v[ss] , conjugate(lhs_v(ss)));
  });
@@ -79,11 +79,11 @@ template<class vobj>
 inline typename vobj::scalar_object sum(const Lattice<vobj> &arg)
 {
 #if defined(GRID_CUDA)||defined(GRID_HIP)
-  auto arg_v = arg.View(AcceleratorRead);
+  autoView( arg_v, arg, AcceleratorRead);
  Integer osites = arg.Grid()->oSites();
  auto ssum= sum_gpu(&arg_v[0],osites);
 #else
-  auto arg_v = arg.View(CpuRead);
+  autoView(arg_v, arg, CpuRead);
  Integer osites = arg.Grid()->oSites();
  auto ssum= sum_cpu(&arg_v[0],osites);
 #endif  
@@ -113,8 +113,8 @@ inline ComplexD innerProduct(const Lattice<vobj> &left,const Lattice<vobj> &righ
  const uint64_t sites = grid->oSites();
  
  // Might make all code paths go this way.
-  auto left_v = left.View(AcceleratorRead);
-  auto right_v=right.View(AcceleratorRead);
+  autoView( left_v , left, AcceleratorRead);
+  autoView( right_v,right, AcceleratorRead);

  // GPU - SIMT lane compliance...
  typedef decltype(innerProduct(left_v[0],right_v[0])) inner_t;
@@ -168,9 +168,9 @@ axpby_norm_fast(Lattice<vobj> &z,sobj a,sobj b,const Lattice<vobj> &x,const Latt
  const uint64_t sites = grid->oSites();
  
  // GPU
-  auto x_v=x.View(AcceleratorRead);
-  auto y_v=y.View(AcceleratorRead);
-  auto z_v=z.View(AcceleratorWrite);
+  autoView( x_v, x, AcceleratorRead);
+  autoView( y_v, y, AcceleratorRead);
+  autoView( z_v, z, AcceleratorWrite);

  typedef decltype(innerProduct(x_v[0],y_v[0])) inner_t;
  Vector<inner_t> inner_tmp(sites);
@@ -257,7 +257,7 @@ template<class vobj> inline void sliceSum(const Lattice<vobj> &Data,std::vector<

  // sum over reduced dimension planes, breaking out orthog dir
  // Parallel over orthog direction
-  auto Data_v=Data.View(CpuRead);
+  autoView( Data_v, Data, CpuRead);
  thread_for( r,rd, {
    int so=r*grid->_ostride[orthogdim]; // base offset for start of plane 
    for(int n=0;n<e1;n++){
@@ -335,8 +335,8 @@ static void sliceInnerProductVector( std::vector<ComplexD> & result, const Latti
  int e2=    grid->_slice_block [orthogdim];
  int stride=grid->_slice_stride[orthogdim];

-  auto lhv=lhs.View(CpuRead);
-  auto rhv=rhs.View(CpuRead);
+  autoView( lhv, lhs, CpuRead);
+  autoView( rhv, rhs, CpuRead);
  thread_for( r,rd,{

    int so=r*grid->_ostride[orthogdim]; // base offset for start of plane 
@@ -443,9 +443,9 @@ static void sliceMaddVector(Lattice<vobj> &R,std::vector<RealD> &a,const Lattice

    tensor_reduced at; at=av;

-    auto Rv=R.View(CpuWrite);
-    auto Xv=X.View(CpuRead);
-    auto Yv=Y.View(CpuRead);
+    autoView( Rv, R, CpuWrite);
+    autoView( Xv, X, CpuRead);
+    autoView( Yv, Y, CpuRead);
    thread_for2d( n, e1, b,e2, {
 	int ss= so+n*stride+b;
 	Rv[ss] = at*Xv[ss]+Yv[ss];
@@ -501,9 +501,9 @@ static void sliceMaddMatrix (Lattice<vobj> &R,Eigen::MatrixXcd &aa,const Lattice
  int nblock=FullGrid->_slice_nblock[Orthog];
  int ostride=FullGrid->_ostride[Orthog];

-  auto X_v=X.View(CpuRead);
-  auto Y_v=Y.View(CpuRead);
-  auto R_v=R.View(CpuWrite);
+  autoView( X_v, X, CpuRead);
+  autoView( Y_v, Y, CpuRead);
+  autoView( R_v, R, CpuWrite);
  thread_region
  {
    Vector<vobj> s_x(Nblock);
@@ -554,8 +554,8 @@ static void sliceMulMatrix (Lattice<vobj> &R,Eigen::MatrixXcd &aa,const Lattice<
  int block =FullGrid->_slice_block [Orthog];
  int nblock=FullGrid->_slice_nblock[Orthog];
  int ostride=FullGrid->_ostride[Orthog];
-  auto R_v = R.View(CpuWrite);
-  auto X_v = X.View(CpuRead);
+  autoView( R_v, R, CpuWrite);
+  autoView( X_v, X, CpuRead);
  thread_region
  {
    std::vector<vobj> s_x(Nblock);
@@ -613,8 +613,8 @@ static void sliceInnerProductMatrix(  Eigen::MatrixXcd &mat, const Lattice<vobj>

  typedef typename vobj::vector_typeD vector_typeD;

-  auto lhs_v=lhs.View(CpuRead);
-  auto rhs_v=rhs.View(CpuRead);
+  autoView( lhs_v, lhs, CpuRead);
+  autoView( rhs_v, rhs, CpuRead);
  thread_region
  {
    std::vector<vobj> Left(Nblock);
@@ -375,7 +375,7 @@ public:
    int osites = _grid->oSites();  // guaranteed to be <= l.Grid()->oSites() by a factor multiplicity
    int words  = sizeof(scalar_object) / sizeof(scalar_type);

-    auto l_v = l.View(CpuWrite);
+    autoView(l_v, l, CpuWrite);
    thread_for( ss, osites, {
      ExtractBuffer<scalar_object> buf(Nsimd);
      for (int m = 0; m < multiplicity; m++) {  // Draw from same generator multiplicity times
@@ -41,8 +41,8 @@ template<class vobj>
 inline auto trace(const Lattice<vobj> &lhs)  -> Lattice<decltype(trace(vobj()))>
 {
  Lattice<decltype(trace(vobj()))> ret(lhs.Grid());
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView(ret_v , ret, AcceleratorWrite);
+  autoView(lhs_v , lhs, AcceleratorRead);
  accelerator_for( ss, lhs_v.size(), vobj::Nsimd(), {
    coalescedWrite(ret_v[ss], trace(lhs_v(ss)));
  });
@@ -56,8 +56,8 @@ template<int Index,class vobj>
 inline auto TraceIndex(const Lattice<vobj> &lhs) -> Lattice<decltype(traceIndex<Index>(vobj()))>
 {
  Lattice<decltype(traceIndex<Index>(vobj()))> ret(lhs.Grid());
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v , ret, AcceleratorWrite);
+  autoView( lhs_v , lhs, AcceleratorRead);
  accelerator_for( ss, lhs_v.size(), vobj::Nsimd(), {
    coalescedWrite(ret_v[ss], traceIndex<Index>(lhs_v(ss)));
  });
@@ -46,11 +46,12 @@ inline void subdivides(GridBase *coarse,GridBase *fine)
 ////////////////////////////////////////////////////////////////////////////////////////////
 // remove and insert a half checkerboard
 ////////////////////////////////////////////////////////////////////////////////////////////
-template<class vobj> inline void pickCheckerboard(int cb,Lattice<vobj> &half,const Lattice<vobj> &full){
+template<class vobj> inline void pickCheckerboard(int cb,Lattice<vobj> &half,const Lattice<vobj> &full)
+{
  half.Checkerboard() = cb;

-  auto half_v = half.View(CpuWrite);
-  auto full_v = full.View(CpuRead);
+  autoView( half_v, half, CpuWrite);
+  autoView( full_v, full, CpuRead);
  thread_for(ss, full.Grid()->oSites(),{
    int cbos;
    Coordinate coor;
@@ -63,10 +64,11 @@ template<class vobj> inline void pickCheckerboard(int cb,Lattice<vobj> &half,con
    }
  });
 }
-template<class vobj> inline void setCheckerboard(Lattice<vobj> &full,const Lattice<vobj> &half){
+template<class vobj> inline void setCheckerboard(Lattice<vobj> &full,const Lattice<vobj> &half)
+{
  int cb = half.Checkerboard();
-  auto half_v = half.View(CpuRead);
-  auto full_v = full.View(CpuWrite);
+  autoView( half_v , half, CpuRead);
+  autoView( full_v , full, CpuWrite);
  thread_for(ss,full.Grid()->oSites(),{

    Coordinate coor;
@@ -92,79 +94,15 @@ inline void blockProject(Lattice<iVector<CComplex,nbasis > > &coarseData,

  Lattice<CComplex> ip(coarse); 

-  auto coarseData_ = coarseData.View(AcceleratorWrite);
-  auto ip_         = ip.View(AcceleratorWrite);
+  autoView( coarseData_ , coarseData, AcceleratorWrite);
+  autoView( ip_         , ip,         AcceleratorWrite);
  for(int v=0;v<nbasis;v++) {
    blockInnerProduct(ip,Basis[v],fineData);
    accelerator_for( sc, coarse->oSites(), vobj::Nsimd(), {
 	coalescedWrite(coarseData_[sc](v),ip_(sc));
-      });
+    });
  }
 }
-#if 0
-template<class vobj,class CComplex,int nbasis>
-inline void blockProject1(Lattice<iVector<CComplex,nbasis > > &coarseData,
-			 const             Lattice<vobj>   &fineData,
-			 const std::vector<Lattice<vobj> > &Basis)
-{
-  typedef iVector<CComplex,nbasis > coarseSiteData;
-  coarseSiteData elide;
-  typedef decltype(coalescedRead(elide)) ScalarComplex;
-  GridBase * fine  = fineData.Grid();
-  GridBase * coarse= coarseData.Grid();
-  int  _ndimension = coarse->_ndimension;
-
-  // checks
-  assert( nbasis == Basis.size() );
-  subdivides(coarse,fine); 
-  for(int i=0;i<nbasis;i++){
-    conformable(Basis[i],fineData);
-  }
-
-  Coordinate block_r      (_ndimension);
-  
-  for(int d=0 ; d<_ndimension;d++){
-    block_r[d] = fine->_rdimensions[d] / coarse->_rdimensions[d];
-    assert(block_r[d]*coarse->_rdimensions[d] == fine->_rdimensions[d]);
-  }
-  int blockVol = fine->oSites()/coarse->oSites();
-
-  coarseData=Zero();
-
-  auto fineData_   = fineData.View(AcceleratorRead);
-  auto coarseData_ = coarseData.View(AcceleratorWrite);
-  ////////////////////////////////////////////////////////////////////////////////////////////////////////
-  // To make this lock free, loop over coars parallel, and then loop over fine associated with coarse.
-  // Otherwise do fine inner product per site, and make the update atomic
-  ////////////////////////////////////////////////////////////////////////////////////////////////////////
-  accelerator_for( sci, nbasis*coarse->oSites(), vobj::Nsimd(), {
-
-    auto sc=sci/nbasis;
-    auto i=sci%nbasis;
-    auto Basis_      = Basis[i].View(AcceleratorRead);
-
-    Coordinate coor_c(_ndimension);
-    Lexicographic::CoorFromIndex(coor_c,sc,coarse->_rdimensions);  // Block coordinate
-
-    int sf;
-    decltype(innerProduct(Basis_(sf),fineData_(sf))) reduce=Zero();
-
-    for(int sb=0;sb<blockVol;sb++){
-
-      Coordinate coor_b(_ndimension);
-      Coordinate coor_f(_ndimension);
-
-      Lexicographic::CoorFromIndex(coor_b,sb,block_r);
-      for(int d=0;d<_ndimension;d++) coor_f[d]=coor_c[d]*block_r[d]+coor_b[d];
-      Lexicographic::IndexFromCoor(coor_f,sf,fine->_rdimensions);
-      
-      reduce=reduce+innerProduct(Basis_(sf),fineData_(sf));
-    }
-    coalescedWrite(coarseData_[sc](i),reduce);
-  });
-  return;
-}
-#endif

 template<class vobj,class CComplex>
 inline void blockZAXPY(Lattice<vobj> &fineZ,
@@ -191,10 +129,10 @@ inline void blockZAXPY(Lattice<vobj> &fineZ,
    assert(block_r[d]*coarse->_rdimensions[d]==fine->_rdimensions[d]);
  }

-  auto fineZ_  = fineZ.View(AcceleratorWrite);
-  auto fineX_  = fineX.View(AcceleratorRead);
-  auto fineY_  = fineY.View(AcceleratorRead);
-  auto coarseA_= coarseA.View(AcceleratorRead);
+  autoView( fineZ_  , fineZ, AcceleratorWrite);
+  autoView( fineX_  , fineX, AcceleratorRead);
+  autoView( fineY_  , fineY, AcceleratorRead);
+  autoView( coarseA_, coarseA, AcceleratorRead);

  accelerator_for(sf, fine->oSites(), CComplex::Nsimd(), {
    
@@ -229,8 +167,8 @@ inline void blockInnerProduct(Lattice<CComplex> &CoarseInner,
  // Precision promotion?
  fine_inner = localInnerProduct(fineX,fineY);
  blockSum(coarse_inner,fine_inner);
-  auto CoarseInner_  = CoarseInner.View(AcceleratorWrite);
-  auto coarse_inner_ = coarse_inner.View(AcceleratorRead);
+  autoView( CoarseInner_  , CoarseInner, AcceleratorWrite);
+  autoView( coarse_inner_ , coarse_inner, AcceleratorRead);
  accelerator_for(ss, coarse->oSites(), 1, {
    CoarseInner_[ss] = coarse_inner_[ss];
  });
@@ -265,8 +203,8 @@ inline void blockSum(Lattice<vobj> &coarseData,const Lattice<vobj> &fineData)

  // Turn this around to loop threaded over sc and interior loop 
  // over sf would thread better
-  auto coarseData_ = coarseData.View(AcceleratorWrite);
-  auto fineData_   = fineData.View(AcceleratorRead);
+  autoView( coarseData_ , coarseData, AcceleratorWrite);
+  autoView( fineData_   , fineData, AcceleratorRead);

  accelerator_for(sc,coarse->oSites(),1,{

@@ -359,8 +297,8 @@ inline void blockPromote(const Lattice<iVector<CComplex,nbasis > > &coarseData,
  for(int d=0 ; d<_ndimension;d++){
    block_r[d] = fine->_rdimensions[d] / coarse->_rdimensions[d];
  }
-  auto fineData_   = fineData.View(AcceleratorWrite);
-  auto coarseData_ = coarseData.View(AcceleratorRead);
+  autoView( fineData_   , fineData, AcceleratorWrite);
+  autoView( coarseData_ , coarseData, AcceleratorRead);

  // Loop with a cache friendly loop ordering
  accelerator_for(sf,fine->oSites(),1,{
@@ -373,7 +311,7 @@ inline void blockPromote(const Lattice<iVector<CComplex,nbasis > > &coarseData,
    Lexicographic::IndexFromCoor(coor_c,sc,coarse->_rdimensions);

    for(int i=0;i<nbasis;i++) {
-      /*      auto basis_ = Basis[i].View( );*/
+      /*      auto basis_ = Basis[i],  );*/
      if(i==0) fineData_[sf]=coarseData_[sc](i) *basis_[sf]);
      else     fineData_[sf]=fineData_[sf]+coarseData_[sc](i)*basis_[sf]);
    }
@@ -394,8 +332,8 @@ inline void blockPromote(const Lattice<iVector<CComplex,nbasis > > &coarseData,
  for(int i=0;i<nbasis;i++) {
    Lattice<iScalar<CComplex> > ip = PeekIndex<0>(coarseData,i);
    Lattice<CComplex> cip(coarse);
-    auto cip_ = cip.View(AcceleratorWrite);
-    auto  ip_ =  ip.View(AcceleratorRead);
+    autoView( cip_ , cip, AcceleratorWrite);
+    autoView(  ip_ ,  ip, AcceleratorRead);
    accelerator_forNB(sc,coarse->oSites(),CComplex::Nsimd(),{
 	coalescedWrite(cip_[sc], ip_(sc)());
    });
@@ -469,8 +407,8 @@ void localCopyRegion(const Lattice<vobj> &From,Lattice<vobj> & To,Coordinate Fro
  Coordinate rdt = Tg->_rdimensions;
  Coordinate ist = Tg->_istride;
  Coordinate ost = Tg->_ostride;
-  auto t_v = To.View(AcceleratorWrite);
-  auto f_v = From.View(AcceleratorRead);
+  autoView( t_v , To, AcceleratorWrite);
+  autoView( f_v , From, AcceleratorRead);
  accelerator_for(idx,Fg->lSites(),1,{
    sobj s;
    Coordinate Fcoor(nd);
@@ -717,7 +655,7 @@ unvectorizeToLexOrdArray(std::vector<sobj> &out, const Lattice<vobj> &in)
  }

  //loop over outer index
-  auto in_v  = in.View(CpuRead);
+  autoView( in_v  , in, CpuRead);
  thread_for(in_oidx,in_grid->oSites(),{
    //Assemble vector of pointers to output elements
    ExtractPointerArray<sobj> out_ptrs(in_nsimd);
@@ -810,7 +748,7 @@ vectorizeFromLexOrdArray( std::vector<sobj> &in, Lattice<vobj> &out)
    icoor[lane].resize(ndim);
    grid->iCoorFromIindex(icoor[lane],lane);
  }
-  auto out_v = out.View(CpuWrite);
+  autoView( out_v , out, CpuWrite);
  thread_for(oidx, grid->oSites(),{
    //Assemble vector of pointers to output elements
    ExtractPointerArray<sobj> ptrs(nsimd);
@@ -913,7 +851,7 @@ void precisionChange(Lattice<VobjOut> &out, const Lattice<VobjIn> &in)
  std::vector<SobjOut> in_slex_conv(in_grid->lSites());
  unvectorizeToLexOrdArray(in_slex_conv, in);
    
-  auto out_v = out.View(CpuWrite);
+  autoView( out_v , out, CpuWrite);
  thread_for(out_oidx,out_grid->oSites(),{
    Coordinate out_ocoor(ndim);
    out_grid->oCoorFromOindex(out_ocoor, out_oidx);
@@ -41,8 +41,8 @@ NAMESPACE_BEGIN(Grid);
 template<class vobj>
 inline Lattice<vobj> transpose(const Lattice<vobj> &lhs){
  Lattice<vobj> ret(lhs.Grid());
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v, ret, AcceleratorWrite);
+  autoView( lhs_v, lhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),vobj::Nsimd(),{
    coalescedWrite(ret_v[ss], transpose(lhs_v(ss)));
  });
@@ -56,8 +56,8 @@ template<int Index,class vobj>
 inline auto TransposeIndex(const Lattice<vobj> &lhs) -> Lattice<decltype(transposeIndex<Index>(vobj()))>
 {
  Lattice<decltype(transposeIndex<Index>(vobj()))> ret(lhs.Grid());
-  auto ret_v = ret.View(AcceleratorWrite);
-  auto lhs_v = lhs.View(AcceleratorRead);
+  autoView( ret_v, ret, AcceleratorWrite);
+  autoView( lhs_v, lhs, AcceleratorRead);
  accelerator_for(ss,lhs_v.size(),vobj::Nsimd(),{
    coalescedWrite(ret_v[ss] , transposeIndex<Index>(lhs_v(ss)));
  });
@@ -35,8 +35,8 @@ NAMESPACE_BEGIN(Grid);

 template<class obj> Lattice<obj> pow(const Lattice<obj> &rhs_i,RealD y){
  Lattice<obj> ret_i(rhs_i.Grid());
-  auto rhs = rhs_i.View(AcceleratorRead);
-  auto ret = ret_i.View(AcceleratorWrite);
+  autoView( rhs, rhs_i, AcceleratorRead);
+  autoView( ret, ret_i, AcceleratorWrite);
  ret.Checkerboard() = rhs.Checkerboard();
  accelerator_for(ss,rhs.size(),1,{
      ret[ss]=pow(rhs[ss],y);
@@ -45,8 +45,8 @@ template<class obj> Lattice<obj> pow(const Lattice<obj> &rhs_i,RealD y){
 }
 template<class obj> Lattice<obj> mod(const Lattice<obj> &rhs_i,Integer y){
  Lattice<obj> ret_i(rhs_i.Grid());
-  auto rhs = rhs_i.View(AcceleratorRead);
-  auto ret = ret_i.View(AcceleratorWrite);
+  autoView( rhs , rhs_i, AcceleratorRead);
+  autoView( ret , ret_i, AcceleratorWrite);
  ret.Checkerboard() = rhs.Checkerboard();
  accelerator_for(ss,rhs.size(),obj::Nsimd(),{
    coalescedWrite(ret[ss],mod(rhs(ss),y));
@@ -56,8 +56,8 @@ template<class obj> Lattice<obj> mod(const Lattice<obj> &rhs_i,Integer y){

 template<class obj> Lattice<obj> div(const Lattice<obj> &rhs_i,Integer y){
  Lattice<obj> ret_i(rhs_i.Grid());
-  auto ret = ret_i.View(AcceleratorWrite);
-  auto rhs = rhs_i.View(AcceleratorRead);
+  autoView( ret , ret_i, AcceleratorWrite);
+  autoView( rhs , rhs_i, AcceleratorRead);
  ret.Checkerboard() = rhs_i.Checkerboard();
  accelerator_for(ss,rhs.size(),obj::Nsimd(),{
    coalescedWrite(ret[ss],div(rhs(ss),y));
@@ -67,8 +67,8 @@ template<class obj> Lattice<obj> div(const Lattice<obj> &rhs_i,Integer y){

 template<class obj> Lattice<obj> expMat(const Lattice<obj> &rhs_i, RealD alpha, Integer Nexp = DEFAULT_MAT_EXP){
  Lattice<obj> ret_i(rhs_i.Grid());
-  auto rhs = rhs_i.View(AcceleratorRead);
-  auto ret = ret_i.View(AcceleratorWrite);
+  autoView( rhs , rhs_i, AcceleratorRead);
+  autoView( ret , ret_i, AcceleratorWrite);
  ret.Checkerboard() = rhs.Checkerboard();
  accelerator_for(ss,rhs.size(),obj::Nsimd(),{
    coalescedWrite(ret[ss],Exponentiate(rhs(ss),alpha, Nexp));
@@ -25,6 +25,7 @@ void accelerator_inline conformable(GridBase *lhs,GridBase *rhs)
 template<class vobj> class LatticeAccelerator : public LatticeBase
 {
 protected:
+  //public:
  GridBase *_grid;
  int checkerboard;
  vobj     *_odata;    // A managed pointer
@@ -47,7 +48,7 @@ public:
 // The copy constructor for this will need to be used by device lambda functions
 /////////////////////////////////////////////////////////////////////////////////////////
 template<class vobj> 
-class LatticeExprView : public LatticeAccelerator<vobj>
+class LatticeView : public LatticeAccelerator<vobj>
 {
 public:
  // Rvalue
@@ -68,7 +69,12 @@ public:
  accelerator_inline uint64_t end(void)   const { return this->_odata_size; };
  accelerator_inline uint64_t size(void)  const { return this->_odata_size; };

-  LatticeExprView(const LatticeAccelerator<vobj> &refer_to_me) : LatticeAccelerator<vobj> (refer_to_me){}
+  LatticeView(const LatticeAccelerator<vobj> &refer_to_me) : LatticeAccelerator<vobj> (refer_to_me){}
+  LatticeView(const LatticeView<vobj> &refer_to_me) = default; // Trivially copyable
+  LatticeView(const LatticeAccelerator<vobj> &refer_to_me,ViewMode mode) : LatticeAccelerator<vobj> (refer_to_me)
+  {
+    this->ViewOpen(mode);
+  }

  // Host functions
  void ViewOpen(ViewMode mode)
@@ -89,46 +95,20 @@ public:
  }

 };
-
-
-///////////////////////////////////////////////////////////////////////
-// An object to be stored in a shared_ptr to clean up after last view.
-// UserView constructor,destructor updates view manager
-// Non-copyable object??? Second base with copy/= deleted?
-///////////////////////////////////////////////////////////////////////
-class MemViewDeleter {
- public:
-  void *cpu_ptr;
-  ViewMode mode;
-  ~MemViewDeleter(){
-    MemoryManager::ViewClose(cpu_ptr,mode);    
-  }
-};
-template<class vobj> 
-class LatticeView : public LatticeExprView<vobj>
+// Little autoscope assister
+template<class View> 
+class ViewCloser
 {
-#ifndef GRID_UVM
-  std::shared_ptr<MemViewDeleter> Deleter;
-#endif
-public:
-#ifdef GRID_UVM
- LatticeView(const LatticeAccelerator<vobj> &refer_to_me,ViewMode mode) : 
-    LatticeExprView<vobj> (refer_to_me)
-  {
-  }
-#else
- LatticeView(const LatticeView<vobj> &orig) : LatticeExprView<vobj>(orig) {  }
- LatticeView(const LatticeAccelerator<vobj> &refer_to_me,ViewMode mode) : 
-    LatticeExprView<vobj> (refer_to_me), Deleter(new MemViewDeleter)
-  {
-    //    std::cout << "FIXME - copy shared pointer? View Open in LatticeView"<<std::hex<<this->_odata<<std::dec<<" mode "<<mode <<std::endl;
-    this->ViewOpen(mode);
-    Deleter->cpu_ptr = this->cpu_ptr;
-    Deleter->mode    = mode;
-  }
-#endif
+  View v;  // Take a copy of view and call view close when I go out of scope automatically
+ public:
+  ViewCloser(View &_v) : v(_v) {};
+  ~ViewCloser() { v.ViewClose(); }
 };

+#define autoView(l_v,l,mode)				\
+	  auto l_v = l.View(mode);			\
+	  ViewCloser<decltype(l_v)> _autoView##l_v(l_v);
+
 /////////////////////////////////////////////////////////////////////////////////////////
 // Lattice expression types used by ET to assemble the AST
 // 
@@ -142,7 +122,7 @@ template <typename T> using is_lattice = std::is_base_of<LatticeBase, T>;
 template <typename T> using is_lattice_expr = std::is_base_of<LatticeExpressionBase,T >;

 template<class T, bool isLattice> struct ViewMapBase { typedef T Type; };
-template<class T>                 struct ViewMapBase<T,true> { typedef LatticeExprView<typename T::vector_object> Type; };
+template<class T>                 struct ViewMapBase<T,true> { typedef LatticeView<typename T::vector_object> Type; };
 template<class T> using ViewMap = ViewMapBase<T,std::is_base_of<LatticeBase, T>::value >;

 template <typename Op, typename _T1>