Apache Spark использует несколько механизмов шифрования для обеспечения безопасности данных, среди них:
- SSL-шифрование. 1 Предпочтительный метод, для его использования требуется правильная настройка ключей и сертификатов. 1 SSL стандартизирован и считается более безопасным. 1
- Шифрование на основе AES. 14 Для включения шифрования также необходимо включить аутентификацию RPC и правильно её настроить. 14 Шифрование AES использует криптографическую библиотеку Apache Commons. 14
- Шифрование на основе SASL. 12 Считается устаревшим, но по-прежнему требуется при обращении к службам shuffle из версий Spark старше 2.2.0. 14
- Шифрование временных данных, записываемых на локальные диски. 25 К таким данным относятся shuffle-файлы, spill-эффект и блоки данных, хранящиеся на диске для кэширования и широковещательных переменных. 25
Также Apache Spark поддерживает отправку приложений в средах, использующих защищённый протокол Kerberos для проверки подлинности компьютерной сети. 2