Госданные для нейросетей: кто отвечает, если ошибается алгоритм

В новой версии законопроекта об ИИ хотят разрешить отечественным моделям национального и суверенного уровня обучаться на государственных базах данных. Однако доступ к такой информации дадут только после одобрения со стороны Федеральной службы по техническому и экспортному контролю (ФСТЭК) и ФСБ.

«Госданные — действительно ценный ресурс для машинного обучения. Налоговая статистика, медицинские регистры, транспортные потоки, реестры юридических лиц. Такого "продукта" нет ни на одном открытом наборе данных. Но между "теоретически разрешено" и "практически получено" теперь стоит согласование с ФСТЭК и ФСБ. Это не одна подпись и не одно ведомство. Это процесс, который в корпоративной практике занимает от полугода», — рассказывает Ильдар Саттаров, генеральный директор ООО «Альянс Перспективных Технологий».

Нечистые данные

Богдан Загребельный, основатель и генеральный директор IT-компании devять it, эксперт по запуску продуктов на основе OSINT, Big Data и ИИ для государственных структур, видит в обучении ИИ на госданных еще один важный нюанс — их нельзя отдавать нейросетям «как есть».

«Их нужно паспортизировать, очищать, обезличивать, проверять на актуальность и качество разметки», — отмечает он.

С ним солидарен и Саттаров: по его словам, прежде чем модель чему-то «научится», команде придется потратить 60–70% времени на подготовку и очистку этих данных.

«Регулирование описывает доступ, но не описывает зрелость данных. А именно она определяет, появится ли полезная модель или очередной демонстрационный стенд.
Кому это усложнит работу? Прежде всего тем разработчикам, у которых нет ресурса полугодовых согласований и собственного юридического департамента. Крупные игроки — Сбер, Яндекс, Тинькофф, Газпром — получат структурное преимущество. Это не плохо и не хорошо. Это объективное следствие выбранной модели регулирования», — отмечает Ильдар Саттаров.

Алексей Постригайло, старший партнер IT-интегратора «Энсайн», добавляет, что разрозненные данные могут усложнить процесс обучения.

«Если данные разложены по разным ведомственным системам, описаны по-разному и не имеют единого порядка передачи, разработчик получит не готовый материал для обучения, а долгий этап проверки и согласований. Без этого модель будет учиться на сыром и спорном массиве, а это уже риск для качества результата и для безопасности», — говорит он.

Статус: утеряно

Сергей Гатауллин, ведущий научный сотрудник лаборатории социального моделирования ЦЭМИ РАН, в разговоре со «Сферой» поднимает один из самых важных вопросов — сохранность данных. Ведь именно они в современной экономике превратились в ведущий производственный фактор не только разработчиков моделей искусственного интеллекта, но и всех остальных приоритетных отраслей экономики.

«До объединения обезличенных данных в государственное централизованное хранилище следует внимательно оценить риски деанонимизации, разработав соответствующий регламент и требования к программному обеспечению», — говорит он.

С ним согласен замруководителя московского областного отделения Независимого профсоюза «Новый Труд» Никита Неживой: «Даже обезличенные данные могут содержать чувствительные сведения или создавать возможность косвенной идентификации».

Богдан Загребельный объясняет, что, если произойдет утечка госданных, пострадает не отдельный сервис, а доверие ко всей модели регулирования ИИ.

Алексей Постригайло, старший партнер IT-интегратора «Энсайн», уверен, что на случай ЧП ответственность надо разделить заранее.

«Владелец данных отвечает за то, что именно передано. Разработчик — за обработку и защиту при обучении. Оператор — за эксплуатацию модели и доступ пользователей. Подрядчик по инфраструктуре — за хранение и техническую защиту на своем участке. Если эту цепочку не прописать до запуска, после инцидента начнется спор о том, кто виноват, а не быстрое расследование и ограничение ущерба.

Ильдар Саттаров считает, что в случае с утечками есть как минимум три вещи, которые необходимо дополнительно регламентировать в законопроекте.

«Первое — обязательное применение методов снижения утечек на уровне обучения: внесение математического шума в обучающую выборку, фильтрация чувствительных данных, использование синтетически сгенерированных данных вместо реальных. Второе — процедура независимого аудита моделей перед выпуском. Третье — техническое определение факта утечки именно через модель, а не через смежные системы. Без этого формулировку про ответственность всегда можно растягивать в любую удобную сторону — и за разработчика, и против него», — отмечает он.

Правила реестра

Еще одно ключевое нововведение законопроекта — доверенным будет считаться только тот ИИ, модель которого внесена в реестр. Порядок формирования этого реестра и критерии включения в него будут устанавливаться правительством РФ.

«Что касается реестра доверенного ИИ, то критерии включения в целом понятны, но ведут скорее к закреплению конкурентных преимуществ крупных игроков, чем к созданию благоприятных правовых условий для развития ИИ-технологий, как заявлено в целях законопроекта», — отмечает Сергей Гатауллин.

Богдан Загребельный видит в этом еще один парадокс — приказ ФСТЭК №117 уже обязывает использовать «только доверенные технологии ИИ» (п.61), но определения «доверенной технологии» в действующих нормативных актах пока нет.

«В разборах методики профильные ИБ-эксперты это прямо фиксируют: реестра нет, требований для включения тоже. Методика к приказу №117 регулирует другое — защиту ИС с ИИ, а не оценку самой модели на доверенность», — говорит он.

И добавляет, что для разработчиков это худший сценарий, потому что при инвестировании в продукт с целью «попасть в реестр» нет понимания, что именно будут оценивать.

«Какие метрики применяются, кто проводит аудит, нужно ли после дообучения подтверждать статус заново — открытые вопросы», — отмечает он.

Никита Неживой также считает, что критерии включения в реестр доверенных систем пока выглядят недостаточно прозрачными. А Ильдар Саттаров задает вопросы, ответов на которых еще нет в законопроекте. Они касаются метрик качества, необходимости повторной сертификации и трактования дообучения модели на новых данных.

«У большой языковой модели обновления идут ежемесячно. Что считать "той же самой" моделью в реестре, а что — уже новой, требующей повторной проверки? Уже сегодня технические руководители крупных компаний задают разработчикам один и тот же вопрос: "А если завтра нам потребуется доработать модель под задачу, сколько времени займет повторное согласование?" Внятного ответа рынок пока не услышал.

Сравните с историей 152-ФЗ о персональных данных. Он принят в 2006 году. Реальные методики, судебная практика и устоявшиеся правила реализации отстраивались еще лет десять. С регулированием ИИ будет, скорее всего, быстрее. Но не быстрее, чем за два-три года», — считает Саттаров.

Трансформация рынка

Эксперты в голос говорят о том, что нововведения, которые внесены были в законопроект, имеют верное направление.

«Без качественных данных сильные национальные модели не появятся», — рассказывает Алексей Постригайло.

И все же есть ряд опасений. Одно из них заключается в том, что пережить новые правила смогут не все участники рынка.

«По первой редакции бизнес оценивал рост затрат на внедрение ИИ в 20-40%, а замедление вывода продуктов на рынок — в полтора-два раза. Часть требований смягчили, но логика осталась: повышенные требования к процедурам всегда лучше переносят крупные игроки. Рынок будет консолидироваться. Хорошо это или плохо — зависит от того, что страна хочет получить. Технологическую конкуренцию или несколько национальных чемпионов», — отмечает Ильдар Саттаров.

Из позитивных моментов, по словам Саттарова, также можно отметить отказ от требования, чтобы разработчиками «национальных» моделей были только граждане РФ.

«Это была технически бессмысленная норма - в современной ИИ-разработке такого ограничения нет ни в одной стране мира, и оно бы не сработало. Хорошо, что услышали отраслевую критику», — говорит он.

Юлия Шорина, AI-предприниматель, трекер IT-стартапов, считает, что рынок так или иначе ждет трансформация: спрос на российские ИИ-решения будет расти, но одновременно возрастут требования к безопасности, прозрачности и соблюдению законодательных норм.

«Ключевой вопрос не в том, нужен ли такой закон, а в том, каким он будет в итоговой редакции, ведь правила, на мой взгляд, не должны превращаться в барьеры», — резюмирует она.

Поэтому остается только ждать и надеется, что законодатели в очередной раз прислушаются к критике и внесут новые поправки в инициативу.

Изображение создано Magnific, www.magnific.com

Нечистые данные

Статус: утеряно

Правила реестра

Трансформация рынка

Рекомендуем