Merge branch 'feature/gpu-port' of https://github.com/paboyle/Grid into feature/gpu-port

Conflicts: Grid/stencil/Stencil.h
2025-07-26 09:17:08 +01:00 · 2019-07-12 17:14:11 +01:00
parent a29b43d755 368c8369ce
commit 705a8098b2
45 changed files with 35 additions and 75 deletions
--- a/Grid/qcd/action/fermion/DomainWallFermion.h
+++ b/Grid/qcd/action/fermion/DomainWallFermion.h
@@ -62,7 +62,7 @@ public:
          LatticeCoordinate(coor, nu + shift);
 	  ph = ph + twist[nu]*coor*((1./(in.Grid()->FullDimensions()[nu+shift])));
 	}
-	in_buf = exp((Real)(2.0*M_PI)*ci*ph*(-1.0))*in;
+	in_buf = exp(Scalar(2.0*M_PI)*ci*ph*(-1.0))*in;

 	if(fiveD){//FFT only on temporal and spatial dimensions
          std::vector<int> mask(Nd+1,1); mask[0] = 0;
@@ -77,7 +77,7 @@ public:
        }

 	//phase for boundary condition
-	out = out * exp((Real)(2.0*M_PI)*ci*ph);
+	out = out * exp(Scalar(2.0*M_PI)*ci*ph);
      };

      virtual void FreePropagator(const FermionField &in,FermionField &out,RealD mass,std::vector<double> twist) {
--- a/Grid/qcd/action/fermion/WilsonCompressor.h
+++ b/Grid/qcd/action/fermion/WilsonCompressor.h
@@ -323,10 +323,8 @@ public:
    this->HaloExchangeOptGather(source,compress);
    double t1=usecond();
    // Asynchronous MPI calls multidirectional, Isend etc...
-    //    this->CommunicateBegin(reqs);
-    //    this->CommunicateComplete(reqs);
    // Non-overlapped directions within a thread. Asynchronous calls except MPI3, threaded up to comm threads ways.
-    this->Communicate();
+    //    this->Communicate();
    double t2=usecond(); timer1 += t2-t1;
    this->CommsMerge(compress);
    double t3=usecond(); timer2 += t3-t2;
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/CayleyFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/CayleyFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/ContinuedFractionFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/ContinuedFractionFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/DomainWallEOFAFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/DomainWallEOFAFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/MobiusEOFAFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/MobiusEOFAFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/PartialFractionFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/PartialFractionFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonCloverFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonCloverFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermion5DInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermion5DInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonKernelsInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonKernelsInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonTMFermionInstantiationGparityWilsonImplD.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplD/WilsonTMFermionInstantiationGparityWilsonImplD.cc
@@ -1 +0,0 @@
-../WilsonTMFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/CayleyFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/CayleyFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/ContinuedFractionFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/ContinuedFractionFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/DomainWallEOFAFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/DomainWallEOFAFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/MobiusEOFAFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/MobiusEOFAFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/PartialFractionFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/PartialFractionFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonCloverFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonCloverFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermion5DInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermion5DInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonKernelsInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonKernelsInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonTMFermionInstantiationGparityWilsonImplDF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplDF/WilsonTMFermionInstantiationGparityWilsonImplDF.cc
@@ -1 +0,0 @@
-../WilsonTMFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/CayleyFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/CayleyFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/ContinuedFractionFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/ContinuedFractionFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/DomainWallEOFAFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/DomainWallEOFAFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/MobiusEOFAFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/MobiusEOFAFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/PartialFractionFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/PartialFractionFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonCloverFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonCloverFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermion5DInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermion5DInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonKernelsInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonKernelsInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonTMFermionInstantiationGparityWilsonImplF.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplF/WilsonTMFermionInstantiationGparityWilsonImplF.cc
@@ -1 +0,0 @@
-../WilsonTMFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/CayleyFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/CayleyFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../CayleyFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/ContinuedFractionFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/ContinuedFractionFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../ContinuedFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/DomainWallEOFAFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/DomainWallEOFAFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../DomainWallEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/MobiusEOFAFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/MobiusEOFAFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../MobiusEOFAFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/PartialFractionFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/PartialFractionFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../PartialFractionFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonCloverFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonCloverFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../WilsonCloverFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermion5DInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermion5DInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../WilsonFermion5DInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../WilsonFermionInstantiation.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonKernelsInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonKernelsInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../WilsonKernelsInstantiationGparity.cc.master
--- a/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonTMFermionInstantiationGparityWilsonImplFH.cc
+++ b/Grid/qcd/action/fermion/instantiation/GparityWilsonImplFH/WilsonTMFermionInstantiationGparityWilsonImplFH.cc
@@ -1 +0,0 @@
-../WilsonTMFermionInstantiation.cc.master
--- a/Grid/stencil/Stencil.h
+++ b/Grid/stencil/Stencil.h
@@ -777,7 +777,7 @@ public:
      
      int permute_slice=0;
      if(permute_dim){
-	int wrap = sshift/rd;
+	int wrap = sshift/rd; wrap=wrap % ly; // but it is local anyway
 	int  num = sshift%rd;
 	if ( x< rd-num ) permute_slice=wrap;
 	else permute_slice = (wrap+1)%ly;
--- a/Grid/tensors/Tensor_SIMT.h
+++ b/Grid/tensors/Tensor_SIMT.h
@@ -69,6 +69,11 @@ void coalescedWrite(vobj & __restrict__ vec,const vobj & __restrict__ extracted,
  //  vstream(vec, extracted);
  vec = extracted;
 }
+template<class vobj> accelerator_inline
+void coalescedWriteNonTemporal(vobj & __restrict__ vec,const vobj & __restrict__ extracted,int lane=0)
+{
+  vstream(vec, extracted);
+}
 #else
 accelerator_inline int SIMTlane(int Nsimd) { return threadIdx.y; } // CUDA specific

@@ -92,6 +97,11 @@ void coalescedWrite(vobj & __restrict__ vec,const typename vobj::scalar_object &
 {
  insertLane(lane,vec,extracted);
 }
+template<class vobj> accelerator_inline
+void coalescedWriteNonTemporal(vobj & __restrict__ vec,const vobj & __restrict__ extracted,int lane=0)
+{
+  insertLane(lane,vec,extracted);
+}
 #endif


--- a/50
+++ b/50
@@ -1,66 +1,58 @@
 - Lattice_arith - are the mult, mac etc.. still needed after ET engine?
- LinalgUtils  ssp loop not offloaded
- Mobius/Domain EOFA cache header implementaiotn has thread_loop
 - ImprovedStaggered accelerate
- Lattice_reduction - remnant thread_loops must offload. Audit thread_loop in main code for non-accelerated code  
  Lattice_rng
  Lattice_transfer.h

- Stencil.h : Thread loops in exchange code. Need to offload these
-
- Lebesque order reintroduction. StencilView should have pointer
-
- accelerate A2Autils
+- accelerate A2Autils -- off critical path for HMC
+- Lebesque order reintroduction. StencilView should have pointer to it

 GPU branch code item work list
 -----------------------------

-7) Accelerate the cshift
-
+7) Accelerate the cshift & benchmark
 * 0) Single GPU
 - 128 bit integer table load in GPU code.
- coalescedRead <- threadIdx.x
- Gianluca's changes to Cayley into gpu-port
- GPU accelerate EOFA
- Staggered kernels -> GPU coalesced loop
+- Staggered kernels -> GPU coalesced loop, loop in kernels
 - Staggered kernels inline for GPU -- DONE

-
-* 2) 5D terms & Gianluca
+* Gianluca merger
  - Cayley coefficients -> GPU retention or prefetch
-  - Mobius kernel fusion. -- Gianluca?
-  - Make GPU offload reductions optionally deterministic -- Gianluca
+  - Gianluca's changes to Cayley into gpu-port
+  - Mobius kernel fusion.                     -- Gianluca?
+  - Make GPU offload reductions deterministic -- Gianluca merge
+  - Lattice_reduction - remnant thread_loops must offload. Audit thread_loop in main code for non-accelerated code  

 * 3) Comms/NVlink
- OpenMP tasks to run comms threads. 
+- OpenMP tasks to run comms threads. Experiment with it 
 - Remove explicit openMP in staggered. 
- Single parallel region around both the Kernel call
-  and the comms.
+- Single parallel region around both the Kernel call and the comms.
 - Fix the halo exchange SIMT loop
- Stencil gather
+- Stencil gather ??
 - SIMD dirs in stencil

 * 4) ET enhancements
 - eval -> scalar ops in ET engine
-   - coalescedRead, coalescedWrite in expressions.
+- coalescedRead, coalescedWrite in expressions.

 * 5) Misc
-
 - Conserved current clean up.
 - multLinkProp eliminate
- 

 8) Merge develop and test HMC
-
-9) Gamma tables on GPU; check this.
-
+9) Gamma tables on GPU; check this. Appear to work, but no idea why. Are these done on CPU?
 10) Audit
 -     pragma once uniformly
 -     Audit NAMESPACE CHANGES
 -     Audit changes

-
 =============================================================================================
+- GPU accelerate EOFA                                                  -- DONE
+- LinalgUtils  ssp loop not offloaded                                  -- DONE
+- coalescedRead <- threadIdx.x                                         -- DONE
+- Stencil.h : Thread loops in exchange code. Need to offload these     -- DONE ; pending debug
+- Mobius/Domain EOFA cache header implementaiotn has thread_loop       -- DONE ; pending test
+- Differentiate non-temporal coalescedWrite from temporal              -- DONE
+
 - Clean up PRAGMAS, and SIMT_loop                                      -- DONE
  thread_loop interface revisit.
  _foreach
				`@@ -1 +0,0 @@`
				`../ContinuedFractionFermion5DInstantiation.cc.master`
				`@@ -1 +0,0 @@`
				`../DomainWallEOFAFermionInstantiation.cc.master`
				`@@ -1 +0,0 @@`
				`../MobiusEOFAFermionInstantiation.cc.master`
				`@@ -1 +0,0 @@`
				`../PartialFractionFermion5DInstantiation.cc.master`
				`@@ -1 +0,0 @@`
				`../WilsonCloverFermionInstantiation.cc.master`
				`@@ -1 +0,0 @@`
				`../WilsonKernelsInstantiationGparity.cc.master`