Extraire et profiler des noyaux HPC en C++
Bonjour,
J’ai un programme écrit en C++ qui contient des noyaux de calcul HPC utilisant CUDA, OpenMP, etc.
Je cherche à extraire automatiquement ces noyaux et à les exécuter de manière isolée afin de les profiler.
Après quelques recherches, il me semble que Clang LibTooling pourraient être adaptés à cette tâche.
Auriez-vous des recommandations sur les outils les plus appropriés ou des retours d’expérience sur ce type de travail, et des conseils ?
Merci d’avance !