Технология полностью гомоморфного шифрования позволяет выполнять вычисления с зашифрованными данными без их расшифровки, что обеспечивает безопасность данных при использовании облачных вычислений, и в частности, облачного машинного обучения, так как позволяет не раскрывать содержимое данных перед сторонним сервером.
В данной работе представлено обучение модели логистической регресии для прогнозирования задолженности по услугам ЖКХ с предварительным шифрованием данных на стороне клиента (этап 1) и обучением и оценкой модели на зашифрованных данных на стороне сервера (этап 2), в результате чего были получены следующие результаты:
Параметр | Значение |
---|---|
Вес исходного файла с набором данных (csv) | 38 274 Кбайт |
Вес одного зашифрованного вектора (hex) | 428 Кбайт |
Время шифрования одного массива (2200 × 23) | 45 секунд |
Точность обучения модели на зашифрованных данных | 86.13 % |
Точность обучения модели на незашифрованных данных | 86.13 % |
Среднее время обучения модели на зашифрованных данных | 202 секунды |
Таким образом, точность модели логистической регрессии, обученной на незашифрованных данных совпала с точностью модели, обученной на зашифрованных данных, что демонстрирует применимость технологии полностью гомоморфного шифрования для обеспечения безопасности данных в машинном обучении, так как оно не влияет на качество прогноза, но при этом обеспечивает максимальный уровень защиты данных.
Тем не менее, необходимо отметить, что использование полностью гомоморфного шифрования влечёт за собой дополнительные вычислительные затраты, например, увеличение размера данных и времени обучения модели.