В этой статье на примере Москвы и других крупных городов рассмотрено, как работает распознавание лиц в системах уличного видеонаблюдения, чем полезно и опасно такое применение Data Science, а также какие ML-алгоритмы используются для компьютерного зрения и аналитики больших данных.
Прежде всего стоит пояснить, что распознавание лиц с помощью камер наружного наблюдения – это частный случай видеоаналитики – технологии, которая использует методы компьютерного зрения для автоматизированного получения данных на основании анализа изображений с видеокамер в режиме реального времени или из архивных записей. Видеоаналитика автоматизирует четыре основных функции охраны [1]:
Сегодня распознавание лиц на основе биометрических методов считается «вершиной» видеоаналитики, позволяя решать сложные задачи с помощью различных математических средств и ML-алгоритмов, обеспечивающих следующие функции [2]:
Кроме этого системы видеоаналитики обеспечивают ряд специфических функций, таких как [2]:
Из коммерческих приложений видеоаналитики с распознаванием лиц наиболее частыми считаются следующие [2]:
С точки зрения безопасности на государственном и муниципальном уровнях видеоаналитика – отличный инструмент для поиска пропавших без вести и разыскиваемых людей, например, преступников или подозреваемых в правонарушениях. Однако, именно это применение сегодня вызывает негативную реакцию населения, что будет рассмотрено далее.
Еще в 2016 году Департамент информационных технологий (ДИТ) Москвы запустил пилотный проект системы распознавания лиц для городских камер видеонаблюдения, которых на тот момент было установлено около 150 тысяч во всей столице [3]. В 2020 году таких камер примерно 200 тысяч, из них более 100 тысяч установлено на подъездах жилых домов, более 20 тысяч – на дворовых территориях и около 4 тысяч – в местах массового скопления людей. ДИТ сообщает, что в 2019 году с помощью городской системы видеонаблюдения было зафиксировано более 200 тысяч нарушений в сфере городского благоустройства и раскрыто около 4300 преступлений, в т.ч. особо тяжких [4].
Сегодня московская система городского видеонаблюдения с распознаванием лиц считается самой крупной в мире. Разработчиком технологии распознавания лиц в видеопотоке является российская компания NtechLab, известная своим мобильным приложением FindFace [5]. С января 2020 года технология распознавания лиц от NtechLab внедрена во все московские камеры видеонаблюдения, за что мэрия Москвы заплатила более 200 миллионов рублей. Сам процесс распознавания лица на видео реализован следующим образом [6]:
Таким образом, система видеоаналитики работает с деперсонифицированными снимками, а непосредственную личность граждан устанавливают сотрудники правоохранительных органов в соответствии с законом [6]. Это замечание можно рассматривать как своего рода ответ на жалобы активистов, наиболее известными из которых сегодня считаются прецеденты с оппозиционным политиком Владимиром Миловым и правозащитницей Аленой Поповой. В январе 2020 года они подали судебный икс к столичному МВД и ДИТ с требованием запретить систему распознавания лиц на городских улицах и удалить изображения граждан из баз данных, т.к. они попали туда без их согласия. Районный суд Москвы не удовлетворил требования активистов [3].
Возвращаясь к столичной системе видеонаблюдения, стоит подчеркнуть, что, при высокой степени интеграции с компанией NtechLab, она позиционируется как мультивендорная. В результате конкурсов на поставку алгоритмов было определено несколько поставщиков, алгоритмы которых дополняют друг друга. Помимо Ntechlab, Москва заключила договора с компаниями Visionlabs (входит в экосистему Сбербанка) и Tevian. Впрочем, успешность распознавания лиц зависит не только от самих ML-алгоритмов. На результат также влияют внешние условия: частота видеопотока, мощность устройств. С точки зрения вычислительных ресурсов наиболее затратным является детектирование объектов в видеопотоке [6]. Поэтому в ноябре 2019 года принадлежащая столичной мэрии компания «Электронная Москва» объявила конкурс на поставку серверов, устройств обработки данных и компьютеров с графическими ускорителями Nvidia. Согласно техническому заданию, общая емкость закупаемого оборудования должна измеряться около 9 Пбайт, в т.ч. 454 сервера, в каждом из которых должно быть по два 18-ядерных процессора. Также в госзакупке указаны 50 компьютеров с восемью графическими ускорителями Nvidia Tesla T4, мощность которых равна производительности 30-40 обычных компьютеров, а также хранилище данных из 192 дисков емкостью почти 1,5 петабайта (1,5 тысячи терабайт) [3]. Победителем конкурса стала телекоммуникационная компания «Максима-Телеком», оператор единого крупнейшего в Европе Wi-Fi-пространства, предложив цену 1,15 миллиардов рублей за серверы. Согласно контракту, в обязанности «Максима-Телеком» входит не только поставка оборудования, но и и его интеграция в существующую систему городского видеонаблюдения [7].
Пока из наиболее значимых результатов, достигнутых текущей системой столичного видеонаблюдения с распознаванием лиц, Правительство Москвы отмечает следующие [3]:
При том, что наиболее крупные внедрения систем видеоаналитики с распознаванием лиц наблюдаются в столице, другие города России также пробуют эту DS-технологию. В частности, в октябре 2019 года в казанском метро запустили видеокамеры с функцией распознавания лиц. Работающие в пилотном режиме камеры на улицах города Альметьевска помогли задержать 7 преступников, которые находились в федеральном розыске, а также 49 человек, не уплативших штрафы за административные нарушения. Аналогичный проект по установке камер видеонаблюдения планируется в Калуге в рамках программы «Безопасный город»: к 2021 году там должно появиться больше 340 видеокамер с функцией распознавания лиц. В Тюмени такая программа уже запущена и к ней подключено 1984 камер уличного видеонаблюдения. Внедрение системы видеоналитики также планируется в общественном транспорте Белгорода.
В Академическом районе Екатеринбурга тестируется новая интеллектуальная система безопасности, сканирующая лица и запоминающая номера автомобилей. К ней будет подключено около 4 тысяч камер для анализа изображения в режиме онлайн, чтобы распознавать неадекватные действия отдельного человека или группы людей. При этом любой попавший на запись объект (человеческое лицо или номер автомобиля) автоматически сканируется, после чего можно вычислить всю историю его передвижения [8].
Однако, пока региональные внедрения систем видеоаналитики еще слишком малы по сравнению со столичной практикой. Именно Москва входит в ТОП-20 «самых просматриваемых» мегаполисов, расположившись на 18-м место в мире по числу видеокамер, обогнав Дели и Берлин (рис.1). Сегодня на 1 тысячу москвичей приходится около 12 видеоустройств. В ТОП-50 «самых просматриваемых» городов также вошел Санкт-Петербург, на каждую тысячу жителей которого насчитывается примерно 6 камер. А первое место в списке занимает китайский мегаполис Чунцин, на каждую тысячу жителей которого приходится 168 устройств видеонаблюдения. Вообще пятерку лидеров этого списка занимают именно китайские города [9]. Впрочем, сегодня распознавание лиц в Китае стало привычным явлением повседневной жизни, на базе которого строятся множество социальных процессов и государственных услуг, что и рассмотрено далее.
Еще в 2016 году в Китае работало минимум 176 миллионов камер, расположенных на городских улицах и внутри зданий. В 2020 году правительство планирует установить еще 450 миллионов, чтобы сделать максимально просматриваемым каждый город страны. Примечательно, эта национальная система видеонаблюдения с распознаванием лиц является частью комплексного проекта по оценке благонадежности граждан. Каждому человеку присваивается рейтинг, от которого зависит его жизнь, включая образование, кредитование, международные путешествия, страхование и прочие государственные услуги, муниципальные сервисы и бизнес-приложения (рис. 2). Например, граждане с высоким социальным рейтингом могут получать скидки на электроэнергию, брать вещи в аренду без залога и даже получать сниженный процент по кредиту в банке. А китайский сайт знакомств Baihe даже продвигает учетные записи таких граждан в топ, оставляя неблагонадежных где-то внизу рейтинга.
Даже в общеобразовательных школах китайцы активно внедряют системы видеонаблюдения, размещая над доской три камеры. Они передают видеопоток на сервера, где данные обрабатывают ML-алгоритмы. Таким образом, нейросети отслеживают тех учеников, кто отвлекается, смотря в окно или разговаривая с соседом. Информация о недобросовестных учениках передается учителю, и тот принимает меры. Тестирование такой системы в нескольких школах существенно повысило успеваемость: ученики стараются не отвлекаться, занимаясь уроками в учебное время [10].
В мае 2020 года администрация китайского города Ханчжоу, где расположена штаб-квартира Alibaba Group, сообщила о создании постоянно действующей на государственном уровне рейтинговой системы для оценки здоровья граждан. Она работает по принципу системы Alipay Health Code, запущенной в Китае в феврале 2020 года для отслеживания физических контактов с зараженными COVID-19. Система создана на базе приложения Alipay, разработанного дочерней структурой Alibaba. Так администрация Ханчжоу предлагает использовать QR-коды с мобильного телефона для считывания рейтинга его владельца. Например, если человек употребляет алкоголь или курит сигареты, его рейтинг будет понижаться, а если ходит в фитнес-центр — повышаться. Данные об этом планируется получать автоматически из анализа видеоизображений с городских улиц. Российский вице-премьер Максим Акимов раскритиковал такую идею социального рейтинга граждан на основании их персональных данных, отметив неприемлемость ее внедрения в России [11].
Однако, повсеместное внедрение «умных» видеокамер с функцией распознавания лиц в столице и других крупных городах дает повод усомниться в этом. В любом случае, современные системы видеоаналитики – это мощный инструмент государственного контроля за населением, при пользовании которым надо найти баланс между безопасностью и приватностью.
Резюмируя отечественный и мировой опыт использования систем видеоаналитики с функцией распознавания лиц, стоит отметить этические риски поспешного внедрения этих DS-технологий. Главным здесь является «презумпция виновности», когда система считается правым в спорной ситуации. Из виду упускается возможность ошибок 1-го или 2-го рода, когда ML-алгоритм распознал личность неверно из-за влияния внешних условий (тусклое освещение, помехи в передаче сигналов) или наличия некорректных данных в базе поиска. Из-за этого система распознавания может упустить человека, находящегося в розыске, или же идентифицировать невинного в качестве преступника, как это произошло в 2018 году с российским активистом Акселем, фотографии которого случайно попали в базу с правонарушителями [8].
Еще одним риском является возможность утечки биометрических данных из систем видеонаблюдения, как это случилось в декабре 2019 года, когда на черном рынке данных продавалась информация с московских камер [12]. Наконец, с точки зрения обывателя повсеместное видеонаблюдение вторгается в его личную жизнь, лишая права на приватность. Поэтому в некоторых городах на использование этой технологии накладывается мораторий до тех пор, пока не будут разработаны правила ее легитимного применения без ущерба приватности жителей. Например, в Сан-Франциско власти временно запретили полиции и другим ведомствам использовать функцию распознавание лиц в системах городского видеонаблюдения, пока не появятся соответствующие регламенты [10]. В России государство стремится по максимуму контролировать своих граждан, однако осознает необходимость тщательной проработки юридических аспектов цифровизации, к которой относится городское видеонаблюдением с распознаванием лиц.
Источники