Remove Gpu only kernels.

2025-10-20 16:04:45 +01:00 · 2019-06-09 11:20:01 +01:00
parent 9fbcfe612c
commit 3e41b1055c
8 changed files with 64 additions and 321 deletions
--- a/Grid/qcd/action/fermion/DomainWallVec5dImpl.h
+++ b/Grid/qcd/action/fermion/DomainWallVec5dImpl.h
@@ -101,47 +101,6 @@ public:
    mult(&phi(), &UU(), &chi());
 #endif
  }
-#ifdef GPU_VEC
-  static accelerator_inline void copyLinkGpu(int lane,
-					     SiteDoubledGaugeField & UU,
-					     const SiteDoubledGaugeField &U)
-  {
-    UU = U;
-  }
-  static accelerator_inline void multLinkGpu(int lane,
-					     typename SiteHalfSpinor::scalar_object &phi,
-					     const SiteDoubledGaugeField &U,
-					     const typename SiteHalfSpinor::scalar_object &chi,
-					     int mu) 
-  {
-#if 1
-    typedef typename ExtractTypeMap<typename Simd::scalar_type>::extract_type extract_type;
-
-    SiteScalarGaugeLink U_l;
-
-    extract_type * U_mem  = (extract_type *) &U(mu);
-    extract_type * U_stack= (extract_type *) &U_l;
-
-    for(int w=0;w<(sizeof(U_l)/sizeof(extract_type)) ;w++) U_stack[w] = U_mem[w];
-
-    phi() =  U_l() * chi();
-#else
-    auto U_l = U(mu);
-
-    phi() =  U_l * chi();
-#endif
-  }
-#else
-  static accelerator_inline void multLinkGpu(int lane,
-					     SiteHalfSpinor &phi,
-					     const SiteDoubledGaugeField &U,
-					     const SiteHalfSpinor &chi,
-					     int mu) 
-  {
-    auto U_l   = U(mu);
-    phi() =  U_l * chi();
-  }
-#endif

  static accelerator_inline void multLinkProp(SitePropagator &phi,
 					      const SiteDoubledGaugeField &U,
--- a/Grid/qcd/action/fermion/WilsonImpl.h
+++ b/Grid/qcd/action/fermion/WilsonImpl.h
@@ -90,16 +90,6 @@ public:
    auto UU = coalescedRead(U(mu));
    mult(&phi(), &UU, &chi());
  }
-
-  static accelerator_inline void multLinkGpu(int lane,
-					     typename SiteHalfSpinor::scalar_object &phi,
-					     const SiteDoubledGaugeField &U,
-					     const typename SiteHalfSpinor::scalar_object &chi,
-					     int mu) 
-  {
-    auto U_l   = extractLane(lane,U(mu));
-    phi() =  U_l * chi();
-  }
    
  static accelerator_inline void multLinkProp(SitePropagator &phi,
 					      const SiteDoubledGaugeField &U,
--- a/Grid/qcd/action/fermion/WilsonKernels.h
+++ b/Grid/qcd/action/fermion/WilsonKernels.h
@@ -38,7 +38,7 @@ NAMESPACE_BEGIN(Grid);
 ////////////////////////////////////////////////////////////////////////////////////////////////////////////////
 class WilsonKernelsStatic { 
 public:
-  enum { OptGeneric, OptHandUnroll, OptInlineAsm, OptGpu };
+  enum { OptGeneric, OptHandUnroll, OptInlineAsm };
  enum { CommsAndCompute, CommsThenCompute };
  static int Opt;  
  static int Comms;
@@ -100,12 +100,6 @@ public:

 private:
  // Specialised variants
-  static accelerator void GpuDhopSite(StencilView &st,  SiteDoubledGaugeField &U, SiteHalfSpinor * buf,
-				      int Ls, int sF,  int sU, const FermionFieldView &in, FermionFieldView &out);
-  
-  static accelerator void GpuDhopSiteDag(StencilView &st,  SiteDoubledGaugeField &U, SiteHalfSpinor * buf,
-					 int Ls,int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
-
  static accelerator void GenericDhopSite(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
 					  int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
      
@@ -143,25 +137,23 @@ private:
 				int sF, int sU, int Ls, int Nsite, const FermionFieldView &in, FermionFieldView &out);

 // Keep Hand unrolled temporarily  
-#if 1
  static accelerator void HandDhopSite(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
-					      int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
+				       int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
  
  static accelerator void HandDhopSiteDag(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
-						 int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
+					  int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
  
  static accelerator void HandDhopSiteInt(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
-						 int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
+					  int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
  
  static accelerator void HandDhopSiteDagInt(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
-						    int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
+					     int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
  
  static accelerator void HandDhopSiteExt(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
-						 int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
+					  int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
  
  static accelerator void HandDhopSiteDagExt(StencilView &st,  DoubledGaugeFieldView &U, SiteHalfSpinor * buf,
-						    int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
-#endif
+					     int sF, int sU, const FermionFieldView &in, FermionFieldView &out);
 public:
 WilsonKernels(const ImplParams &p = ImplParams()) : Base(p){};
 };
--- a/Grid/qcd/action/fermion/implementation/WilsonKernelsGpuImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/WilsonKernelsGpuImplementation.h
@@ -33,233 +33,6 @@ directory

 NAMESPACE_BEGIN(Grid);

-//////////////////////////////////////////////////////////////
-// Gpu implementation; thread loop is implicit ; move to header
-//////////////////////////////////////////////////////////////
-accelerator_inline int get_my_lanes(int Nsimd) 
-{
-#ifdef __CUDA_ARCH__
-  return 1;
-#else 
-  return Nsimd;
-#endif
-}
-accelerator_inline int get_my_lane_offset(int Nsimd) 
-{
-#ifdef __CUDA_ARCH__
-  return ( (threadIdx.x) % Nsimd);
-#else
-  return 0;
-#endif
-}
-
-accelerator_inline void get_stencil(StencilEntry * mem, StencilEntry &chip)
-{
-#ifdef __CUDA_ARCH__
-  static_assert(sizeof(StencilEntry)==sizeof(uint4),"Unexpected Stencil Entry Size"); 
-  uint4 * mem_pun  = (uint4 *)mem; // force 128 bit loads
-  uint4 * chip_pun = (uint4 *)&chip;
-  * chip_pun = * mem_pun;
-#else 
-  chip = *mem;
-#endif
-  return;
-}
-
-#if 1
-#define GPU_COALESCED_STENCIL_LEG_PROJ(Dir,spProj)			\
-  if (SE._is_local) {							\
-    int mask = Nsimd >> (ptype + 1);					\
-    int plane= SE._permute ? (lane ^ mask) : lane;			\
-    auto in_l = extractLane(plane,in[SE._offset+s]);			\
-    spProj(chi,in_l);							\
-  } else {								\
-    chi  = extractLane(lane,buf[SE._offset+s]);				\
-  }									\
-  synchronise();
-#else 
-#define GPU_COALESCED_STENCIL_LEG_PROJ(Dir,spProj)			\
-  if (SE._is_local) {							\
-    auto in_t = in[SE._offset+s];					\
-    decltype(chi) tmp;							\
-    if (SE._permute) {							\
-      spProj(tmp, in_t);						\
-      permute(chi, tmp, ptype);						\
-    } else {								\
-      spProj(chi, in_t);						\
-    }									\
-  } else {								\
-    chi  = (buf[SE._offset+s];						\
-  }									\
-  synchronise();
-#endif
-
-template <class Impl>
-accelerator_inline void WilsonKernels<Impl>::GpuDhopSiteDag(StencilView &st, SiteDoubledGaugeField &U,
-							    SiteHalfSpinor *buf, int Ls, int s,
-							    int sU, const FermionFieldView &in, FermionFieldView &out)
-{
-  typename SiteHalfSpinor::scalar_object chi;
-  typename SiteHalfSpinor::scalar_object Uchi;
-  typename SiteSpinor::scalar_object   result;
-
-  typedef typename SiteSpinor::scalar_type scalar_type;
-  typedef typename SiteSpinor::vector_type vector_type;
-  constexpr int Nsimd = sizeof(vector_type)/sizeof(scalar_type);
-
-  uint64_t lane_offset= get_my_lane_offset(Nsimd);
-  uint64_t lanes      = get_my_lanes(Nsimd);
-
-  StencilEntry *SE_mem;
-  StencilEntry SE; 
-
-  int ptype;
-  uint64_t ssF = Ls * sU;
-  uint64_t sF  = ssF + s;
-#ifndef __CUDA_ARCH__
-  for(int lane = lane_offset;lane<lane_offset+lanes;lane++){
-#else
-  int lane = lane_offset; {
-#endif
-    SE_mem = st.GetEntry(ptype, Xp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Xp,spProjXp); 
-    Impl::multLinkGpu(lane,Uchi,U,chi,Xp);
-    spReconXp(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Yp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Yp,spProjYp);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Yp);
-    accumReconYp(result, Uchi);
-      
-    SE_mem = st.GetEntry(ptype, Zp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Zp,spProjZp);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Zp);
-    accumReconZp(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Tp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Tp,spProjTp);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Tp);
-    accumReconTp(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Xm, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Xm,spProjXm);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Xm);
-    accumReconXm(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Ym, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Ym,spProjYm);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Ym);
-    accumReconYm(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Zm, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Zm,spProjZm);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Zm);
-    accumReconZm(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Tm, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Tm,spProjTm); 
-    Impl::multLinkGpu(lane,Uchi,U,chi,Tm);
-    accumReconTm(result, Uchi);
-    insertLane (lane,out[sF],result);
-  }
-}
-
-template <class Impl>
-accelerator_inline void WilsonKernels<Impl>::GpuDhopSite(StencilView &st, SiteDoubledGaugeField &U,
-							 SiteHalfSpinor *buf,  int Ls, int s,
-							 int sU, const FermionFieldView &in, FermionFieldView &out) 
-{
-  typename SiteHalfSpinor::scalar_object chi;
-  typename SiteHalfSpinor::scalar_object Uchi;
-  typename SiteSpinor::scalar_object   result;
-
-  typedef typename SiteSpinor::scalar_type scalar_type;
-  typedef typename SiteSpinor::vector_type vector_type;
-  constexpr int Nsimd = sizeof(vector_type)/sizeof(scalar_type);
-
-  uint64_t lane_offset= get_my_lane_offset(Nsimd);
-  uint64_t lanes      = get_my_lanes(Nsimd);
-
-  StencilEntry *SE_mem;
-  StencilEntry SE;
-  int ptype;
-  // Forces some degree of coalesce on the table look ups
-  // Could also use wide load instructions on the data structure
-  uint64_t ssF = Ls * sU;
-  uint64_t sF  = ssF + s;
-
-#ifndef __CUDA_ARCH__
-  for(int lane = lane_offset;lane<lane_offset+lanes;lane++){
-#else
-  int lane = lane_offset; {
-#endif
-    SE_mem = st.GetEntry(ptype, Xp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Xp,spProjXm); 
-    Impl::multLinkGpu(lane,Uchi,U,chi,Xp);
-    spReconXm(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Yp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Yp,spProjYm);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Yp);
-    accumReconYm(result, Uchi);
-      
-    SE_mem = st.GetEntry(ptype, Zp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Zp,spProjZm);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Zp);
-    accumReconZm(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Tp, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Tp,spProjTm);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Tp);
-    accumReconTm(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Xm, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Xm,spProjXp);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Xm);
-    accumReconXp(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Ym, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Ym,spProjYp);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Ym);
-    accumReconYp(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Zm, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Zm,spProjZp);
-    Impl::multLinkGpu(lane,Uchi,U,chi,Zm);
-    accumReconZp(result, Uchi);
-
-    SE_mem = st.GetEntry(ptype, Tm, ssF); get_stencil(SE_mem,SE);
-    GPU_COALESCED_STENCIL_LEG_PROJ(Tm,spProjTp); 
-    Impl::multLinkGpu(lane,Uchi,U,chi,Tm);
-    accumReconTp(result, Uchi);
-
-    insertLane (lane,out[sF],result);
-  }
-};
-
-// Template specialise Gparity to empty for now
-#define GPU_EMPTY(A)							\
-template <>								\
-accelerator_inline void							\
-WilsonKernels<A>::GpuDhopSite(StencilView &st,				\
-			      SiteDoubledGaugeField &U,			\
-			      SiteHalfSpinor *buf, int Ls, int sF,	\
-			      int sU,					\
-			      const FermionFieldView &in,		\
-			      FermionFieldView &out) { assert(0);};	\
-template <>								\
-accelerator_inline void							\
-WilsonKernels<A>::GpuDhopSiteDag(StencilView &st,			\
-				 SiteDoubledGaugeField &U,		\
-				 SiteHalfSpinor *buf, int Ls,int sF,	\
-				 int sU,				\
-				 const FermionFieldView &in,		\
-				 FermionFieldView &out) { assert(0);};
-
-GPU_EMPTY(GparityWilsonImplF);
-GPU_EMPTY(GparityWilsonImplFH);
-GPU_EMPTY(GparityWilsonImplD);
-GPU_EMPTY(GparityWilsonImplDF);

 #define KERNEL_CALL(A) \
      const uint64_t nsimd = Simd::Nsimd(); \
@@ -282,6 +55,13 @@ GPU_EMPTY(GparityWilsonImplDF);
      WilsonKernels<Impl>::A(st_v,U_v,buf,sF,sU,in_v,out_v);	\
  });

+#define ASM_CALL(A) \
+  SIMT_loop( ss, Nsite, {						\
+      int sU = ss;							\
+      int sF = ss*Ls;							\
+      WilsonKernels<Impl>::A(st_v,U_v,buf,sF,sU,Ls,1,in_v,out_v);	\
+  });
+
 template <class Impl>
 void WilsonKernels<Impl>::DhopKernel(int Opt,StencilImpl &st,  DoubledGaugeField &U, SiteHalfSpinor * buf,
 				     int Ls, int Nsite, const FermionField &in, FermionField &out,
@@ -293,17 +73,25 @@ void WilsonKernels<Impl>::DhopKernel(int Opt,StencilImpl &st,  DoubledGaugeField
    auto st_v  =  st.View();

   if( interior && exterior ) { 
-     if (Opt == WilsonKernelsStatic::OptGpu) {
-       KERNEL_CALL(GpuDhopSite);
-     } else {
-       HOST_CALL(GenericDhopSite);
-     }
+     if (Opt == WilsonKernelsStatic::OptGeneric    ) { HOST_CALL(GenericDhopSite); return;}
+#ifndef GRID_NVCC
+     if (Opt == WilsonKernelsStatic::OptHandUnroll ) { HOST_CALL(HandDhopSite);    return;}
+     if (Opt == WilsonKernelsStatic::OptInlineAsm  ) {  ASM_CALL(AsmDhopSite);     return;}
+#endif
   } else if( interior ) {
-     HOST_CALL(GenericDhopSiteInt);
+     if (Opt == WilsonKernelsStatic::OptGeneric    ) { HOST_CALL(GenericDhopSiteInt); return;}
+#ifndef GRID_NVCC
+     if (Opt == WilsonKernelsStatic::OptHandUnroll ) { HOST_CALL(HandDhopSiteInt);    return;}
+     if (Opt == WilsonKernelsStatic::OptInlineAsm  ) {  ASM_CALL(AsmDhopSiteInt);     return;}
+#endif
   } else if( exterior ) { 
-     HOST_CALL(GenericDhopSiteExt);
+     if (Opt == WilsonKernelsStatic::OptGeneric    ) { HOST_CALL(GenericDhopSiteExt); return;}
+#ifndef GRID_NVCC
+     if (Opt == WilsonKernelsStatic::OptHandUnroll ) { HOST_CALL(HandDhopSiteExt);    return;}
+     if (Opt == WilsonKernelsStatic::OptInlineAsm  ) {  ASM_CALL(AsmDhopSiteExt);     return;}
+#endif
   }
-
+   assert(0 && " Kernel optimisation case not covered ");
  }
  template <class Impl>
  void WilsonKernels<Impl>::DhopDagKernel(int Opt,StencilImpl &st,  DoubledGaugeField &U, SiteHalfSpinor * buf,
@@ -315,17 +103,26 @@ void WilsonKernels<Impl>::DhopKernel(int Opt,StencilImpl &st,  DoubledGaugeField
    auto out_v = out.View();
    auto st_v  = st.View();

-    if( interior && exterior ) { 
-      if (Opt == WilsonKernelsStatic::OptGpu) {
-	KERNEL_CALL(GpuDhopSiteDag);
-      } else {
-	HOST_CALL(GenericDhopSiteDag);
-      }
-    } else if( interior ) {
-      HOST_CALL(GenericDhopSiteDagInt);
-    } else if( exterior ) { 
-      HOST_CALL(GenericDhopSiteDagExt);
-    }
+   if( interior && exterior ) { 
+     if (Opt == WilsonKernelsStatic::OptGeneric    ) { HOST_CALL(GenericDhopSiteDag); return;}
+#ifndef GRID_NVCC
+     if (Opt == WilsonKernelsStatic::OptHandUnroll ) { HOST_CALL(HandDhopSiteDag);    return;}
+     if (Opt == WilsonKernelsStatic::OptInlineAsm  ) {  ASM_CALL(AsmDhopSiteDag);     return;}
+#endif
+   } else if( interior ) {
+     if (Opt == WilsonKernelsStatic::OptGeneric    ) { HOST_CALL(GenericDhopSiteDagInt); return;}
+#ifndef GRID_NVCC
+     if (Opt == WilsonKernelsStatic::OptHandUnroll ) { HOST_CALL(HandDhopSiteDagInt);    return;}
+     if (Opt == WilsonKernelsStatic::OptInlineAsm  ) {  ASM_CALL(AsmDhopSiteDagInt);     return;}
+#endif
+   } else if( exterior ) { 
+     if (Opt == WilsonKernelsStatic::OptGeneric    ) { HOST_CALL(GenericDhopSiteDagExt); return;}
+#ifndef GRID_NVCC
+     if (Opt == WilsonKernelsStatic::OptHandUnroll ) { HOST_CALL(HandDhopSiteDagExt);    return;}
+     if (Opt == WilsonKernelsStatic::OptInlineAsm  ) {  ASM_CALL(AsmDhopSiteDagExt);     return;}
+#endif
+   }
+   assert(0 && " Kernel optimisation case not covered ");
  }

 NAMESPACE_END(Grid);
--- a/Grid/qcd/action/fermion/implementation/WilsonKernelsImplementation.h
+++ b/Grid/qcd/action/fermion/implementation/WilsonKernelsImplementation.h
@@ -38,6 +38,19 @@ NAMESPACE_BEGIN(Grid);
 ////////////////////////////////////////////
 // Generic implementation; move to different file?
 ////////////////////////////////////////////
+
+accelerator_inline void get_stencil(StencilEntry * mem, StencilEntry &chip)
+{
+#ifdef __CUDA_ARCH__
+  static_assert(sizeof(StencilEntry)==sizeof(uint4),"Unexpected Stencil Entry Size"); 
+  uint4 * mem_pun  = (uint4 *)mem; // force 128 bit loads
+  uint4 * chip_pun = (uint4 *)&chip;
+  * chip_pun = * mem_pun;
+#else 
+  chip = *mem;
+#endif
+  return;
+}
  
 #define GENERIC_STENCIL_LEG(Dir,spProj,Recon)			\
  SE = st.GetEntry(ptype, Dir, sF);				\
--- a/Grid/util/Init.cc
+++ b/Grid/util/Init.cc
@@ -433,9 +433,6 @@ void Grid_init(int *argc,char ***argv)
    WilsonKernelsStatic::Opt=WilsonKernelsStatic::OptHandUnroll;
    StaggeredKernelsStatic::Opt=StaggeredKernelsStatic::OptHandUnroll;
  }
-  if( GridCmdOptionExists(*argv,*argv+*argc,"--dslash-gpu") ){
-    WilsonKernelsStatic::Opt=WilsonKernelsStatic::OptGpu;
-  }
  if( GridCmdOptionExists(*argv,*argv+*argc,"--dslash-asm") ){
    WilsonKernelsStatic::Opt=WilsonKernelsStatic::OptInlineAsm;
    StaggeredKernelsStatic::Opt=StaggeredKernelsStatic::OptInlineAsm;
--- a/benchmarks/Benchmark_dwf.cc
+++ b/benchmarks/Benchmark_dwf.cc
@@ -177,7 +177,6 @@ int main (int argc, char ** argv)
  if ( WilsonKernelsStatic::Comms == WilsonKernelsStatic::CommsThenCompute) std::cout << GridLogMessage<< "* Using sequential comms compute" <<std::endl;
 #endif
  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptGeneric   ) std::cout << GridLogMessage<< "* Using GENERIC Nc WilsonKernels" <<std::endl;
-  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptGpu       ) std::cout << GridLogMessage<< "* Using Gpu WilsonKernels" <<std::endl;
  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptHandUnroll) std::cout << GridLogMessage<< "* Using Nc=3       WilsonKernels" <<std::endl;
  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptInlineAsm ) std::cout << GridLogMessage<< "* Using Asm Nc=3   WilsonKernels" <<std::endl;
  std::cout << GridLogMessage<< "*****************************************************************" <<std::endl;
@@ -317,7 +316,6 @@ int main (int argc, char ** argv)
  if ( WilsonKernelsStatic::Comms == WilsonKernelsStatic::CommsThenCompute) std::cout << GridLogMessage<< "* Using sequential comms compute" <<std::endl;
 #endif
  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptGeneric   ) std::cout << GridLogMessage<< "* Using GENERIC Nc WilsonKernels" <<std::endl;
-  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptGpu       ) std::cout << GridLogMessage<< "* Using Gpu WilsonKernels" <<std::endl;
  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptHandUnroll) std::cout << GridLogMessage<< "* Using Nc=3       WilsonKernels" <<std::endl;
  if ( WilsonKernelsStatic::Opt == WilsonKernelsStatic::OptInlineAsm ) std::cout << GridLogMessage<< "* Using Asm Nc=3   WilsonKernels" <<std::endl;
  std::cout << GridLogMessage<< "*********************************************************" <<std::endl;
--- a/configure.ac
+++ b/configure.ac
@@ -358,10 +358,7 @@ case ${ax_cv_cxx_compiler_vendor} in
    esac;;
  intel)
    case ${ac_SIMD} in
-      GPU)
-        AC_DEFINE([GPU],[1],[GPU float4 vectors])
-	SIMD_FLAGS='';;
-      VGPU)
+      GPU|VGPU)
        AC_DEFINE([GPU_VEC],[1],[GPU vectorised ])
 	SIMD_FLAGS='';;
      SSE4)