Merge branch 'feature/gpu-port' of https://github.com/paboyle/Grid into feature/gpu-port

Conflicts: Grid/stencil/Stencil.h
2025-10-13 20:54:43 +01:00 · 2019-07-12 17:14:11 +01:00
parent a29b43d755 368c8369ce
commit 705a8098b2
45 changed files with 35 additions and 75 deletions
--- a/Grid/qcd/action/fermion/DomainWallFermion.h
+++ b/Grid/qcd/action/fermion/DomainWallFermion.h
@@ -62,7 +62,7 @@ public:
          LatticeCoordinate(coor, nu + shift);
 	  ph = ph + twist[nu]*coor*((1./(in.Grid()->FullDimensions()[nu+shift])));
 	}
-	in_buf = exp((Real)(2.0*M_PI)*ci*ph*(-1.0))*in;
+	in_buf = exp(Scalar(2.0*M_PI)*ci*ph*(-1.0))*in;
 	if(fiveD){//FFT only on temporal and spatial dimensions
          std::vector<int> mask(Nd+1,1); mask[0] = 0;
@@ -77,7 +77,7 @@ public:
        }
 	//phase for boundary condition
-	out = out * exp((Real)(2.0*M_PI)*ci*ph);
+	out = out * exp(Scalar(2.0*M_PI)*ci*ph);
      };
      virtual void FreePropagator(const FermionField &in,FermionField &out,RealD mass,std::vector<double> twist) {
--- a/Grid/qcd/action/fermion/WilsonCompressor.h
+++ b/Grid/qcd/action/fermion/WilsonCompressor.h
@@ -323,10 +323,8 @@ public:
    this->HaloExchangeOptGather(source,compress);
    double t1=usecond();
    // Asynchronous MPI calls multidirectional, Isend etc...
    //    this->CommunicateBegin(reqs);
    //    this->CommunicateComplete(reqs);
    // Non-overlapped directions within a thread. Asynchronous calls except MPI3, threaded up to comm threads ways.
-    this->Communicate();
+    //    this->Communicate();
    double t2=usecond(); timer1 += t2-t1;
    this->CommsMerge(compress);
    double t3=usecond(); timer2 += t3-t2;
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/CayleyFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/CayleyFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/ContinuedFractionFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/ContinuedFractionFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/DomainWallEOFAFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/DomainWallEOFAFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/MobiusEOFAFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/MobiusEOFAFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/PartialFractionFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/PartialFractionFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonCloverFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonCloverFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonKernelsInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonKernelsInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonTMFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonTMFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
 ../WilsonTMFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/CayleyFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/CayleyFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/ContinuedFractionFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/ContinuedFractionFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/DomainWallEOFAFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/DomainWallEOFAFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/MobiusEOFAFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/MobiusEOFAFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/PartialFractionFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/PartialFractionFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonCloverFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonCloverFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonKernelsInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonKernelsInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonTMFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonTMFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
 ../WilsonTMFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/CayleyFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/CayleyFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/ContinuedFractionFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/ContinuedFractionFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/DomainWallEOFAFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/DomainWallEOFAFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/MobiusEOFAFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/MobiusEOFAFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/PartialFractionFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/PartialFractionFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonCloverFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonCloverFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonKernelsInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonKernelsInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonTMFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonTMFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
 ../WilsonTMFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/CayleyFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/CayleyFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/ContinuedFractionFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/ContinuedFractionFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/DomainWallEOFAFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/DomainWallEOFAFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/MobiusEOFAFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/MobiusEOFAFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/PartialFractionFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/PartialFractionFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonCloverFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonCloverFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonKernelsInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonKernelsInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonTMFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonTMFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
 ../WilsonTMFermionInstantiation.cc.master
--- a/Grid/stencil/Stencil.h
+++ b/Grid/stencil/Stencil.h
@@ -777,7 +777,7 @@ public:
      int permute_slice=0;
      if(permute_dim){
-	int wrap = sshift/rd;
+	int wrap = sshift/rd; wrap=wrap % ly; // but it is local anyway
 	int  num = sshift%rd;
 	if ( x< rd-num ) permute_slice=wrap;
 	else permute_slice = (wrap+1)%ly;
--- a/Grid/tensors/Tensor_SIMT.h
+++ b/Grid/tensors/Tensor_SIMT.h
@@ -69,6 +69,11 @@ void coalescedWrite(vobj & __restrict__ vec,const vobj & __restrict__ extracted,
  //  vstream(vec, extracted);
  vec = extracted;
 }
 template<class vobj> accelerator_inline
 void coalescedWriteNonTemporal(vobj & __restrict__ vec,const vobj & __restrict__ extracted,int lane=0)
 {
  vstream(vec, extracted);
 }
 #else
 accelerator_inline int SIMTlane(int Nsimd) { return threadIdx.y; } // CUDA specific
@@ -92,6 +97,11 @@ void coalescedWrite(vobj & __restrict__ vec,const typename vobj::scalar_object &
 {
  insertLane(lane,vec,extracted);
 }
 template<class vobj> accelerator_inline
 void coalescedWriteNonTemporal(vobj & __restrict__ vec,const vobj & __restrict__ extracted,int lane=0)
 {
  insertLane(lane,vec,extracted);
 }
 #endif
--- a/50
+++ b/50
@@ -1,66 +1,58 @@
 - Lattice_arith - are the mult, mac etc.. still needed after ET engine?
 - LinalgUtils  ssp loop not offloaded
 - Mobius/Domain EOFA cache header implementaiotn has thread_loop
 - ImprovedStaggered accelerate
 - Lattice_reduction - remnant thread_loops must offload. Audit thread_loop in main code for non-accelerated code  
  Lattice_rng
  Lattice_transfer.h
- Stencil.h : Thread loops in exchange code. Need to offload these
+- accelerate A2Autils -- off critical path for HMC
-
+- Lebesque order reintroduction. StencilView should have pointer to it
 - Lebesque order reintroduction. StencilView should have pointer
 - accelerate A2Autils
 GPU branch code item work list
 -----------------------------
-7) Accelerate the cshift
+7) Accelerate the cshift & benchmark
 * 0) Single GPU
 - 128 bit integer table load in GPU code.
- coalescedRead <- threadIdx.x
+- Staggered kernels -> GPU coalesced loop, loop in kernels
 - Gianluca's changes to Cayley into gpu-port
 - GPU accelerate EOFA
 - Staggered kernels -> GPU coalesced loop
 - Staggered kernels inline for GPU -- DONE
-
+* Gianluca merger
 * 2) 5D terms & Gianluca
  - Cayley coefficients -> GPU retention or prefetch
-  - Mobius kernel fusion. -- Gianluca?
+  - Gianluca's changes to Cayley into gpu-port
-  - Make GPU offload reductions optionally deterministic -- Gianluca
+  - Mobius kernel fusion.                     -- Gianluca?
  - Make GPU offload reductions deterministic -- Gianluca merge
  - Lattice_reduction - remnant thread_loops must offload. Audit thread_loop in main code for non-accelerated code  
 * 3) Comms/NVlink
- OpenMP tasks to run comms threads. 
+- OpenMP tasks to run comms threads. Experiment with it 
 - Remove explicit openMP in staggered. 
- Single parallel region around both the Kernel call
+- Single parallel region around both the Kernel call and the comms.
  and the comms.
 - Fix the halo exchange SIMT loop
- Stencil gather
+- Stencil gather ??
 - SIMD dirs in stencil
 * 4) ET enhancements
 - eval -> scalar ops in ET engine
-   - coalescedRead, coalescedWrite in expressions.
+- coalescedRead, coalescedWrite in expressions.
 * 5) Misc
 - Conserved current clean up.
 - multLinkProp eliminate
 8) Merge develop and test HMC
-
+9) Gamma tables on GPU; check this. Appear to work, but no idea why. Are these done on CPU?
 9) Gamma tables on GPU; check this.
 10) Audit
 -     pragma once uniformly
 -     Audit NAMESPACE CHANGES
 -     Audit changes
 =============================================================================================
 - GPU accelerate EOFA                                                  -- DONE
 - LinalgUtils  ssp loop not offloaded                                  -- DONE
 - coalescedRead <- threadIdx.x                                         -- DONE
 - Stencil.h : Thread loops in exchange code. Need to offload these     -- DONE ; pending debug
 - Mobius/Domain EOFA cache header implementaiotn has thread_loop       -- DONE ; pending test
 - Differentiate non-temporal coalescedWrite from temporal              -- DONE
 - Clean up PRAGMAS, and SIMT_loop                                      -- DONE
  thread_loop interface revisit.
  _foreach
		`@@ -1 +0,0 @@`
			`../ContinuedFractionFermion5DInstantiation.cc.master`
		`@@ -1 +0,0 @@`
			`../DomainWallEOFAFermionInstantiation.cc.master`
		`@@ -1 +0,0 @@`
			`../MobiusEOFAFermionInstantiation.cc.master`
		`@@ -1 +0,0 @@`
			`../PartialFractionFermion5DInstantiation.cc.master`
		`@@ -1 +0,0 @@`
			`../WilsonCloverFermionInstantiation.cc.master`
		`@@ -1 +0,0 @@`
			`../WilsonKernelsInstantiationGparity.cc.master`