Extraire et profiler des noyaux HPC en C++

Bonjour,

J’ai un programme écrit en C++ qui contient des noyaux de calcul HPC utilisant CUDA, OpenMP, etc.
Je cherche à extraire automatiquement ces noyaux et à les exécuter de manière isolée afin de les profiler.

Après quelques recherches, il me semble que Clang LibTooling pourraient être adaptés à cette tâche.

Auriez-vous des recommandations sur les outils les plus appropriés ou des retours d’expérience sur ce type de travail, et des conseils ?

Merci d’avance !