Разница между drop duplicates и SQL-командой DISTINCT заключается в том, как они работают с дубликатами строк в DataFrame. 34
drop duplicates позволяет удалять дубликаты по одному или нескольким столбцам и возвращает новый DataFrame с удалёнными дубликатами. 3 Для этого в качестве аргументов можно указать список столбцов, для которых нужно получить уникальные значения. 4
SQL-команда DISTINCT по умолчанию применяет операцию ко всем столбцам DataFrame. 3 Для её использования нужно предварительно выбрать столбцы, по которым будет применяться дублирование, с помощью метода .select. 2 Возвращённый DataFrame будет содержать только эти выбранные столбцы. 2
Таким образом, drop duplicates даёт возможность работать с подмножеством столбцов, в то время как SQL-команда DISTINCT по умолчанию применяет операцию ко всем столбцам. 23