3 сентября 2025 года в Академии состоялся семинар «Теоретические основания синтеза данных. Проект серии национальных стандартов «Синтез Данных».
На семинаре Алексей Владимирович Нейман и Валерий Владимирович Хватов («Ассоциация больших данных», АБД) рассказали о проектах национальных стандартов в области синтеза данных.
Проекты разработаны АБД при участии АНО «Национальный технологический центр цифровой криптографии». В проектах представлены терминология, практики и оценки результатов применения методов создания синтетических данных с использованием систем искусственного интеллекта.
Докладчики сформулировали некоторые важные термины и определения (такие как синтетические данные, дифференциальная приватность, гарантии приватности и другие), определили современные архитектуры систем синтеза данных с гарантиями приватности (в том числе с использованием глубоких нейронных сетей), а также математические конструкции, лежащие в основе оценки эффективности синтеза данных и качества синтетических данных.
В ходе обсуждения докладов на семинаре были поставлены вопросы целесообразности представления в одном стандарте подходов к генерации синтетических данных и обеспечения дифференциальной приватности, необходимости четкого разделения понятий приватности и конфиденциальности, практической применимости предлагаемых стандартов при разработке реальных систем. Также обсуждалась необходимость обоснования: состоятельности предлагаемых методов генерации синтетических данных, корректности использования предлагаемых статистических метрик сходства распределений в многомерном случае, требуемого объема обучающей выборки в зависимости от размерности пространства характеристик синтетических данных, зависимости характеристик синтетических данных, возникающей вследствие применения GAN- и VAE-генераторов, преобразующих малоразмерный вектор эмбеддинга Z в полноразмерный вектор исходного пространства Х.
Присутствующие высоко оценили проделанную работу. По итогам доклада была выражена готовность совместно с Академией криптографии продолжить научную проработку предлагаемых в стандартах методик и математических алгоритмов.