Функция CUDALAUNCHBLOCKING позволяет заставить CUDA выполнять операции синхронно. 1 Это помогает диагностировать ошибки, связанные с асинхронным выполнением. 1
Чтобы использовать CUDALAUNCHBLOCKING, нужно установить переменную среды CUDALAUNCHBLOCKING в значение 1 перед выполнением любых операций CUDA. 12
Пример установки в скрипте на Python: 1
import osos.environ['CUDA_LAUNCH_BLOCKING'] = '1'< 1/code>
После этого каждый вызов ядра CUDA будет блокировать хост до завершения операции. 1 Если возникает ошибка, она будет сообщена немедленно в точке сбоя, что позволяет получить более точную трассировку стека для отладки. 1