CPU-Adam: Fix compile Issue (#1537)

* fixing the softmax masking when using triangular masking * move the TILE declaration outside of the SIMD loop * remove unrelated changes * fix Adagrad compile issue
2021-11-09 11:45:01 -08:00 · 2021-11-09 11:45:01 -08:00 · af443f63f4
--- a/csrc/includes/cpu_adagrad.h
+++ b/csrc/includes/cpu_adagrad.h
@ -32,6 +32,7 @@ public:
        cudaFreeHost(_doubled_buffer[0]);
        cudaFreeHost(_doubled_buffer[1]);
    }
+#if defined(__AVX512__) or defined(__AVX256__)
    template <int span>
    void Step_AVX(size_t* rounded_size,
                  float* _params,
@ -40,11 +41,10 @@ public:
                  size_t param_size,
                  __half* dev_param = nullptr,
                  bool half_precision = false);
-#if defined(__AVX512__) or defined(__AVX256__)
+#endif
    STEP(1)
    STEP(4)
    STEP(8)
-#endif
    inline void SynchronizeStreams()
    {
        for (int i = 0; i < 2; i++) cudaStreamSynchronize(_streams[i]);
--- a/csrc/includes/simd.h
+++ b/csrc/includes/simd.h
@ -5,12 +5,11 @@
 #include <x86intrin.h>
 #endif

+#define TILE (128 * 1024 * 1024)
 #if defined(__AVX512__) or defined(__AVX256__)

 #define ROUND_DOWN(size, step) ((size) & ~((step)-1))

-#define TILE (128 * 1024 * 1024)
-
 #if defined(__AVX512__)
 #define SIMD_STORE(a, d) _mm512_storeu_ps(a, d)
 #define SIMD_LOAD(x) _mm512_loadu_ps(x)