milupHPC/helper_8cu_source.html

#include "../include/helper.cuh"

#include "../include/cuda_utils/cuda_launcher.cuh"

#include <cub/cub.cuh>


CUDA_CALLABLE_MEMBER Helper::Helper() {


}


/*CUDA_CALLABLE_MEMBER Helper::Helper(integer *integerVal, real *realVal, keyType *keyTypeVal, integer *integerBuffer,

                                    real *realBuffer, keyType *keyTypeBuffer) : integerVal(integerVal),

                                    realVal(realVal), keyTypeVal(keyTypeVal), integerBuffer(integerBuffer),

                                    realBuffer(realBuffer) , keyTypeBuffer(keyTypeBuffer) {


}*/


CUDA_CALLABLE_MEMBER Helper::Helper(integer *integerVal, integer *integerVal1, integer *integerVal2,

                                    real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal,

                                    integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2,

                                    integer *integerBuffer3, integer *integerBuffer4,

                                    integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer,

                                    idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1,

                                    keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2) :

            integerVal(integerVal), integerVal1(integerVal1), integerVal2(integerVal2),

            realVal(realVal), realVal1(realVal1), realVal2(realVal2), keyTypeVal(keyTypeVal),

            integerBuffer(integerBuffer), integerBuffer1(integerBuffer1), integerBuffer2(integerBuffer2),

            integerBuffer3(integerBuffer3), integerBuffer4(integerBuffer4),

            sendCount(sendCount), sendCount1(sendCount1), idIntegerBuffer(idIntegerBuffer),

            idIntegerBuffer1(idIntegerBuffer1), realBuffer(realBuffer), realBuffer1(realBuffer1),

            keyTypeBuffer(keyTypeBuffer), keyTypeBuffer1(keyTypeBuffer1), keyTypeBuffer2(keyTypeBuffer2) {


}


CUDA_CALLABLE_MEMBER Helper::~Helper() {


}


/*CUDA_CALLABLE_MEMBER void Helper::set(integer *integerVal, real *realVal, keyType *keyTypeVal, integer *integerBuffer,

                                      real *realBuffer, keyType *keyTypeBuffer) {

    this->integerVal = integerVal;

    this->realVal = realVal;

    this->keyTypeVal = keyTypeVal;

    this->integerBuffer = integerBuffer;

    this->realBuffer = realBuffer;

    this->keyTypeBuffer = keyTypeBuffer;

}*/


CUDA_CALLABLE_MEMBER void Helper::set(integer *integerVal, integer *integerVal1, integer *integerVal2,

                                      real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal,

                                      integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2,

                                      integer *integerBuffer3, integer *integerBuffer4,

                                      integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer,

                                      idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1,

                                      keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2) {


    this->integerVal = integerVal;

    this->integerVal1 = integerVal1;

    this->integerVal2 = integerVal2;

    this->realVal = realVal;

    this->realVal1 = realVal1;

    this->realVal2 = realVal2;

    this->keyTypeVal = keyTypeVal;

    this->integerBuffer = integerBuffer;

    this->integerBuffer1 = integerBuffer1;

    this->integerBuffer2 = integerBuffer2;

    this->integerBuffer3 = integerBuffer3;

    this->integerBuffer4 = integerBuffer4;

    this->sendCount = sendCount;

    this->sendCount1 = sendCount1;

    this->idIntegerBuffer = idIntegerBuffer;

    this->idIntegerBuffer1 = idIntegerBuffer1;

    this->realBuffer = realBuffer;

    this->realBuffer1 = realBuffer1;

    this->keyTypeBuffer = keyTypeBuffer;

    this->keyTypeBuffer1 = keyTypeBuffer1;

    this->keyTypeBuffer2 = keyTypeBuffer2;


}


namespace HelperNS {


    namespace Kernel {

        /*__global__ void set(Helper *helper, integer *integerVal, real *realVal, keyType *keyTypeVal,

                            integer *integerBuffer, real *realBuffer, keyType *keyTypeBuffer) {

            helper->set(integerVal, realVal, keyTypeVal, integerBuffer, realBuffer, keyTypeBuffer);

        }


        void Launch::set(Helper *helper, integer *integerVal, real *realVal, keyType *keyTypeVal,

                         integer *integerBuffer, real *realBuffer, keyType *keyTypeBuffer) {

            ExecutionPolicy executionPolicy(1, 1);

            cuda::launch(false, executionPolicy, ::HelperNS::Kernel::set, helper, integerVal, realVal, keyTypeVal,

                         integerBuffer, realBuffer, keyTypeBuffer);


        }*/


        __global__ void set(Helper *helper, integer *integerVal, integer *integerVal1, integer *integerVal2,

                            real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal,

                            integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2,

                            integer *integerBuffer3, integer *integerBuffer4,

                            integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer,

                            idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1,

                            keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2) {


            helper->set(integerVal, integerVal1, integerVal2,

                        realVal, realVal1, realVal2, keyTypeVal,

                        integerBuffer, integerBuffer1, integerBuffer2,

                        integerBuffer3, integerBuffer4,

                        sendCount, sendCount1, idIntegerBuffer,

                        idIntegerBuffer1, realBuffer, realBuffer1,

                        keyTypeBuffer, keyTypeBuffer1, keyTypeBuffer2);

        }


        void Launch::set(Helper *helper, integer *integerVal, integer *integerVal1, integer *integerVal2,

                         real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal,

                         integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2,

                         integer *integerBuffer3, integer *integerBuffer4,

                         integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer,

                         idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1,

                         keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2) {


            ExecutionPolicy executionPolicy(1, 1);

            cuda::launch(false, executionPolicy, ::HelperNS::Kernel::set, helper, integerVal, integerVal1, integerVal2,

                         realVal, realVal1, realVal2, keyTypeVal,

                         integerBuffer, integerBuffer1, integerBuffer2,

                         integerBuffer3, integerBuffer4,

                         sendCount, sendCount1, idIntegerBuffer,

                         idIntegerBuffer1, realBuffer, realBuffer1,

                         keyTypeBuffer, keyTypeBuffer1, keyTypeBuffer2);

        }

    }

}


namespace HelperNS {


    template <typename A>

    real sortKeys(A *keysToSort, A *sortedKeys, int n) {

        void     *d_temp_storage = NULL;

        size_t   temp_storage_bytes = 0;

        gpuErrorcheck(cub::DeviceRadixSort::SortKeys(d_temp_storage, temp_storage_bytes, keysToSort, sortedKeys, n));

        // Allocate temporary storage

        //Logger(INFO) << "temp storage bytes: " << temp_storage_bytes;

        cuda::malloc(d_temp_storage, temp_storage_bytes);

        //cudaMalloc(&d_temp_storage, temp_storage_bytes);

        // Run sorting operation

        gpuErrorcheck(cub::DeviceRadixSort::SortKeys(d_temp_storage, temp_storage_bytes, keysToSort, sortedKeys, n));

        cuda::free(d_temp_storage);

        return 0.f;

    }

    template real sortKeys<keyType>(keyType *keysToSort, keyType *sortedKeys, int n);


    template <typename A, typename B>

    real sortArray(A *arrayToSort, A *sortedArray, B *keyIn, B *keyOut, integer n) {


        void     *d_temp_storage = NULL;

        size_t   temp_storage_bytes = 0;

        gpuErrorcheck(cub::DeviceRadixSort::SortPairs(d_temp_storage, temp_storage_bytes,

                                                      keyIn, keyOut, arrayToSort, sortedArray, n));

        // Allocate temporary storage

        cuda::malloc(d_temp_storage, temp_storage_bytes);


        // Run sorting operation

        gpuErrorcheck(cub::DeviceRadixSort::SortPairs(d_temp_storage, temp_storage_bytes,

                                                      keyIn, keyOut, arrayToSort, sortedArray, n));


        cuda::free(d_temp_storage);


        return 0.f;

    }


    template real sortArray<real, integer>(real *arrayToSort, real *sortedArray, integer *keyIn, integer *keyOut,

            integer n);

    template real sortArray<real, keyType>(real *arrayToSort, real *sortedArray, keyType *keyIn, keyType *keyOut,

            integer n);

    template real sortArray<integer, integer>(integer *arrayToSort, integer *sortedArray, integer *keyIn,

            integer *keyOut, integer n);

    template real sortArray<integer, keyType>(integer *arrayToSort, integer *sortedArray, keyType *keyIn,

            keyType *keyOut, integer n);

    template real sortArray<keyType, integer>(keyType *arrayToSort, keyType *sortedArray, integer *keyIn,

            integer *keyOut, integer n);

    template real sortArray<keyType , keyType>(keyType *arrayToSort, keyType *sortedArray, keyType *keyIn,

            keyType *keyOut, integer n);


    template <typename T>

    T reduceAndGlobalize(T *d_sml, T *d_aggregate, integer n, Reduction::Type reductionType) {


        // device wide reduction

        void     *d_temp_storage = NULL;

        size_t   temp_storage_bytes = 0;

        switch (reductionType) {

            case Reduction::min: {

                cub::DeviceReduce::Min(d_temp_storage, temp_storage_bytes, d_sml, d_aggregate, n);

                // Allocate temporary storage

                cuda::malloc(d_temp_storage, temp_storage_bytes);

                // Run max-reduction

                cub::DeviceReduce::Min(d_temp_storage, temp_storage_bytes, d_sml, d_aggregate, n);

            } break;

            case Reduction::max: {

                cub::DeviceReduce::Max(d_temp_storage, temp_storage_bytes, d_sml, d_aggregate, n);

                // Allocate temporary storage

                cuda::malloc(d_temp_storage, temp_storage_bytes);

                // Run max-reduction

                cub::DeviceReduce::Max(d_temp_storage, temp_storage_bytes, d_sml, d_aggregate, n);

            } break;

            case Reduction::sum: {

                cub::DeviceReduce::Sum(d_temp_storage, temp_storage_bytes, d_sml, d_aggregate, n);

                // Allocate temporary storage

                cuda::malloc(d_temp_storage, temp_storage_bytes);

                // Run max-reduction

                cub::DeviceReduce::Sum(d_temp_storage, temp_storage_bytes, d_sml, d_aggregate, n);

            } break;

            default: {

                Logger(ERROR) << "Reduction type not available!";

            }

        }


        T reduction;

        gpuErrorcheck(cudaMemcpy(&reduction, d_aggregate, sizeof(T), cudaMemcpyDeviceToHost));

        Logger(INFO) << "reduction = " << reduction;


        switch (reductionType) {

            case Reduction::min: {

                // interprocess reduction

                boost::mpi::communicator comm;

                all_reduce(comm, boost::mpi::inplace_t<T *>(&reduction), 1, boost::mpi::minimum<T>());

            } break;

            case Reduction::max: {

                // interprocess reduction

                boost::mpi::communicator comm;

                all_reduce(comm, boost::mpi::inplace_t<T *>(&reduction), 1, boost::mpi::maximum<T>());

            } break;

            case Reduction::sum: {

                // interprocess reduction

                boost::mpi::communicator comm;

                all_reduce(comm, boost::mpi::inplace_t<T *>(&reduction), 1, std::plus<T>());

            } break;

            default: {

                Logger(ERROR) << "Reduction type not available!";

            }

        }

        Logger(INFO) << "globalized reduction = " << reduction;


        cuda::free(d_temp_storage);


        return reduction;


    }


    template real reduceAndGlobalize<real>(real*, real*, integer, Reduction::Type);


    namespace Kernel {


        template <typename T>

        __global__ void copyArray(T *targetArray, T *sourceArray, integer n) {


            int index = threadIdx.x + blockIdx.x * blockDim.x;

            int stride = blockDim.x * gridDim.x;

            int offset = 0;


            while ((index + offset) < n) {

                targetArray[index + offset] = sourceArray[index + offset];


                offset += stride;

            }

        }


        template <typename T>

        __global__ void resetArray(T *array, T value, integer n) {


            int index = threadIdx.x + blockIdx.x * blockDim.x;

            int stride = blockDim.x * gridDim.x;

            int offset = 0;


            while ((index + offset) < n) {

                array[index + offset] = value;


                offset += stride;

            }

        }


        namespace Launch {


            template<typename T>

            real copyArray(T *targetArray, T *sourceArray, integer n) {

                ExecutionPolicy executionPolicy;

                return cuda::launch(true, executionPolicy, ::HelperNS::Kernel::copyArray, targetArray, sourceArray, n);

            }

            template real copyArray<integer>(integer *targetArray, integer *sourceArray, integer n);

            template real copyArray<real>(real *targetArray, real *sourceArray, integer n);

            template real copyArray<keyType>(keyType *targetArray, keyType *sourceArray, integer n);


            template <typename T>

            real resetArray(T *array, T value, integer n) {

                ExecutionPolicy executionPolicy;

                return cuda::launch(true, executionPolicy, ::HelperNS::Kernel::resetArray, array, value, n);

            }

            template real resetArray<integer>(integer *array, integer value, integer n);

            //template real resetArray<idInteger>(idInteger *array, idInteger value, integer n);

            template real resetArray<real>(real *array, real value, integer n);

            template real resetArray<keyType>(keyType *array, keyType value, integer n);


        }

        /*__global__ void reset(Helper *helper, int length) {


            integer index = threadIdx.x + blockIdx.x * blockDim.x;

            integer stride = blockDim.x * gridDim.x;

            integer offset = 0;


            while ((index + offset) < length) {

                helper->

            }

        }*/

    }


}

ExecutionPolicy
Execution policy/instruction for CUDA kernel execution.
Definition: cuda_launcher.cuh:33

Helper
Definition: helper.cuh:24

Helper::~Helper
CUDA_CALLABLE_MEMBER ~Helper()
Definition: helper.cu:33

Helper::set
CUDA_CALLABLE_MEMBER void set(integer *integerVal, integer *integerVal1, integer *integerVal2, real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal, integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2, integer *integerBuffer3, integer *integerBuffer4, integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer, idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1, keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2)
Definition: helper.cu:47

Helper::integerBuffer3
integer * integerBuffer3
Definition: helper.cuh:58

Helper::realVal1
real * realVal1
Definition: helper.cuh:50

Helper::idIntegerBuffer1
idInteger * idIntegerBuffer1
Definition: helper.cuh:65

Helper::realVal2
real * realVal2
Definition: helper.cuh:51

Helper::keyTypeBuffer1
keyType * keyTypeBuffer1
Definition: helper.cuh:71

Helper::keyTypeBuffer2
keyType * keyTypeBuffer2
Definition: helper.cuh:72

Helper::integerBuffer4
integer * integerBuffer4
Definition: helper.cuh:59

Helper::sendCount
integer * sendCount
Definition: helper.cuh:61

Helper::sendCount1
integer * sendCount1
Definition: helper.cuh:62

Helper::integerVal1
integer * integerVal1
Definition: helper.cuh:46

Helper::integerBuffer
integer * integerBuffer
Definition: helper.cuh:55

Helper::realBuffer1
real * realBuffer1
Definition: helper.cuh:68

Helper::realVal
real * realVal
Definition: helper.cuh:49

Helper::integerVal
integer * integerVal
Definition: helper.cuh:45

Helper::keyTypeVal
keyType * keyTypeVal
Definition: helper.cuh:53

Helper::integerBuffer1
integer * integerBuffer1
Definition: helper.cuh:56

Helper::integerBuffer2
integer * integerBuffer2
Definition: helper.cuh:57

Helper::keyTypeBuffer
keyType * keyTypeBuffer
Definition: helper.cuh:70

Helper::integerVal2
integer * integerVal2
Definition: helper.cuh:47

Helper::idIntegerBuffer
idInteger * idIntegerBuffer
Definition: helper.cuh:64

Helper::realBuffer
real * realBuffer
Definition: helper.cuh:67

Helper::Helper
CUDA_CALLABLE_MEMBER Helper()
Definition: helper.cu:5

Logger
Logger class.
Definition: logger.h:80

gpuErrorcheck
#define gpuErrorcheck(ans)
check CUDA call
Definition: cuda_utilities.cuh:41

CUDA_CALLABLE_MEMBER
#define CUDA_CALLABLE_MEMBER
Definition: cuda_utilities.cuh:30

ERROR
@ ERROR
warning log type
Definition: logger.h:51

INFO
@ INFO
debug log type
Definition: logger.h:48

HelperNS::Kernel::Launch::resetArray< real >
template real resetArray< real >(real *array, real value, integer n)

HelperNS::Kernel::Launch::copyArray< integer >
template real copyArray< integer >(integer *targetArray, integer *sourceArray, integer n)

HelperNS::Kernel::Launch::copyArray< real >
template real copyArray< real >(real *targetArray, real *sourceArray, integer n)

HelperNS::Kernel::Launch::copyArray< keyType >
template real copyArray< keyType >(keyType *targetArray, keyType *sourceArray, integer n)

HelperNS::Kernel::Launch::resetArray< integer >
template real resetArray< integer >(integer *array, integer value, integer n)

HelperNS::Kernel::Launch::resetArray< keyType >
template real resetArray< keyType >(keyType *array, keyType value, integer n)

HelperNS::Kernel::Launch::set
void set(Helper *helper, integer *integerVal, integer *integerVal1, integer *integerVal2, real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal, integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2, integer *integerBuffer3, integer *integerBuffer4, integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer, idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1, keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2)
Definition: helper.cu:112

HelperNS::Kernel::resetArray
__global__ void resetArray(T *array, T value, integer n)
Definition: helper.cu:268

HelperNS::Kernel::set
__global__ void set(Helper *helper, integer *integerVal, integer *integerVal1, integer *integerVal2, real *realVal, real *realVal1, real *realVal2, keyType *keyTypeVal, integer *integerBuffer, integer *integerBuffer1, integer *integerBuffer2, integer *integerBuffer3, integer *integerBuffer4, integer *sendCount, integer *sendCount1, idInteger *idIntegerBuffer, idInteger *idIntegerBuffer1, real *realBuffer, real *realBuffer1, keyType *keyTypeBuffer, keyType *keyTypeBuffer1, keyType *keyTypeBuffer2)
Definition: helper.cu:95

HelperNS::Kernel::copyArray
__global__ void copyArray(T *targetArray, T *sourceArray, integer n)
Definition: helper.cu:254

HelperNS
Definition: helper.cuh:95

HelperNS::sortArray< real, integer >
template real sortArray< real, integer >(real *arrayToSort, real *sortedArray, integer *keyIn, integer *keyOut, integer n)

HelperNS::reduceAndGlobalize< real >
template real reduceAndGlobalize< real >(real *, real *, integer, Reduction::Type)

HelperNS::sortArray< integer, integer >
template real sortArray< integer, integer >(integer *arrayToSort, integer *sortedArray, integer *keyIn, integer *keyOut, integer n)

HelperNS::sortArray< keyType, integer >
template real sortArray< keyType, integer >(keyType *arrayToSort, keyType *sortedArray, integer *keyIn, integer *keyOut, integer n)

HelperNS::sortKeys< keyType >
template real sortKeys< keyType >(keyType *keysToSort, keyType *sortedKeys, int n)

HelperNS::sortArray
real sortArray(A *arrayToSort, A *sortedArray, B *keyIn, B *keyOut, integer n)
Definition: helper.cu:151

HelperNS::sortArray< real, keyType >
template real sortArray< real, keyType >(real *arrayToSort, real *sortedArray, keyType *keyIn, keyType *keyOut, integer n)

HelperNS::sortKeys
real sortKeys(A *keysToSort, A *sortedKeys, int n)
Definition: helper.cu:135

HelperNS::sortArray< integer, keyType >
template real sortArray< integer, keyType >(integer *arrayToSort, integer *sortedArray, keyType *keyIn, keyType *keyOut, integer n)

HelperNS::reduceAndGlobalize
T reduceAndGlobalize(T *d_sml, T *d_aggregate, integer n, Reduction::Type reductionType)
Definition: helper.cu:184

HelperNS::sortArray< keyType, keyType >
template real sortArray< keyType, keyType >(keyType *arrayToSort, keyType *sortedArray, keyType *keyIn, keyType *keyOut, integer n)

Kernel
Definition: device_rhs.cuh:7

cuda::set
void set(T *d_var, T val, std::size_t count=1)
Set device memory to a specific value.
Definition: cuda_runtime.h:56

cuda::free
void free(T *d_var)
Free device memory.
Definition: cuda_runtime.h:81

cuda::malloc
void malloc(T *&d_var, std::size_t count)
Allocate device memory.
Definition: cuda_runtime.h:70

cuda::launch
real launch(bool timeKernel, const ExecutionPolicy &policy, void(*f)(Arguments...), Arguments... args)
CUDA execution wrapper function.
Definition: cuda_launcher.cuh:114

real
double real
Definition: parameter.h:15

keyType
unsigned long keyType
Definition: parameter.h:18

integer
int integer
Definition: parameter.h:17

idInteger
int idInteger
Definition: parameter.h:19

Reduction::Type
Type
Definition: helper.cuh:13

Reduction::sum
@ sum
Definition: helper.cuh:14

Reduction::min
@ min
Definition: helper.cuh:14

Reduction::max
@ max
Definition: helper.cuh:14