За вами следят: машинное обучение в городском видеонаблюдении

В этой статье на примере Москвы и других крупных городов рассмотрено, как работает распознавание лиц в системах уличного видеонаблюдения, чем полезно и опасно такое применение Data Science, а также какие ML-алгоритмы используются для компьютерного зрения и аналитики больших данных.

Что такое видеоаналитика и при чем тут распознавание лиц

Прежде всего стоит пояснить, что распознавание лиц с помощью камер наружного наблюдения – это частный случай видеоаналитики – технологии, которая использует методы компьютерного зрения для автоматизированного получения данных на основании анализа изображений с видеокамер в режиме реального времени или из архивных записей. Видеоаналитика автоматизирует четыре основных функции охраны [1]:

обнаружение;
слежение;
распознавание;
прогнозирование.

Сегодня распознавание лиц на основе биометрических методов считается «вершиной» видеоаналитики, позволяя решать сложные задачи с помощью различных математических средств и ML-алгоритмов, обеспечивающих следующие функции [2]:

обнаружение объектов (object detection) через их локализацию в кадре;
слежение за объектами (object tracking) – непрерывный мониторинг за движением человека в толпе на длинной траектории;
классификация объектов (object classification)для фильтрации оперативных уведомлений или результатов поиска, когда нужно отделить человека от автомобиля, дерева или рекламного стенда. Алгоритмы классификации в современных системах видеоаналитики могут определить пол, возрастную группу и другие категориальные признаки, характерные для людей.
идентификация объектов (object identification), что на бытовом уровне и считается непосредственным распознаванием личности по биометрии лица, походке или другим индивидуальным признакам.

Кроме этого системы видеоаналитики обеспечивают ряд специфических функций, таких как [2]:

распознавание тревожных ситуаций, например, конфликтное поведение, драка, падение и пр.
прогнозирование поведения объекта или возникновения ситуаций, таких как образование очереди на кассе через 15 минут с учетом числа зашедших покупателей и числа работающих касс;
интеллектуальное сжатие видеоконтента с учетом интереса потребителя, например, передавая диспетчеру только видео с тревожными ситуациями;
ранжирование (определение приоритета) событий;
удаление персональных данных из видеоряда, например, с помощью детектора лиц.

Из коммерческих приложений видеоаналитики с распознаванием лиц наиболее частыми считаются следующие [2]:

подсчет людей, таких как пассажиры в общественном транспорте или аэропортах, посетители торговых центров, болельщики на стадионе и пр.;
оценка эффективности визуальной рекламы, когда анализируется время, которое каждый прохожий потратил на просмотр информации со стенда, витрины и иного рекламного носителя;
анализ длины очереди, когда ML-алгоритм идентифицирует на видео головы людей, стоящих друг за другом в кассу магазина или пропускной пункт, исключая тени, блики, посторонние предметы и прочие нецелевые объекты.

С точки зрения безопасности на государственном и муниципальном уровнях видеоаналитика – отличный инструмент для поиска пропавших без вести и разыскиваемых людей, например, преступников или подозреваемых в правонарушениях. Однако, именно это применение сегодня вызывает негативную реакцию населения, что будет рассмотрено далее.

Распознавание лиц в Москве: крупнейшая система видеонаблюдения в мире

Еще в 2016 году Департамент информационных технологий (ДИТ) Москвы запустил пилотный проект системы распознавания лиц для городских камер видеонаблюдения, которых на тот момент было установлено около 150 тысяч во всей столице [3]. В 2020 году таких камер примерно 200 тысяч, из них более 100 тысяч установлено на подъездах жилых домов, более 20 тысяч – на дворовых территориях и около 4 тысяч – в местах массового скопления людей. ДИТ сообщает, что в 2019 году с помощью городской системы видеонаблюдения было зафиксировано более 200 тысяч нарушений в сфере городского благоустройства и раскрыто около 4300 преступлений, в т.ч. особо тяжких [4].

Сегодня московская система городского видеонаблюдения с распознаванием лиц считается самой крупной в мире. Разработчиком технологии распознавания лиц в видеопотоке является российская компания NtechLab, известная своим мобильным приложением FindFace [5]. С января 2020 года технология распознавания лиц от NtechLab внедрена во все московские камеры видеонаблюдения, за что мэрия Москвы заплатила более 200 миллионов рублей. Сам процесс распознавания лица на видео реализован следующим образом [6]:

камера формирует видеопоток из огромного числа кадров, в каждом из которых детектор ищет и фиксирует изображения лиц, т.е. сначала выполняется поиск лица в кадре (детектирование объекта);
затем алгоритм преобразует изображение в уникальный цифровой код, трансформируя биометрические черты в числа;
далее происходит непосредственно распознавание найденного лица, когда цифровая биометрия сверяется с существующими базами данных. При этом устанавливается не однозначное соответствие, а степень схожести двух изображений – детектированного и из базы розыска.
В случае высокой степени совпадения, сотрудник правоохранительных органов получает оповещение, где искать возможного правонарушителя.

Таким образом, система видеоаналитики работает с деперсонифицированными снимками, а непосредственную личность граждан устанавливают сотрудники правоохранительных органов в соответствии с законом [6]. Это замечание можно рассматривать как своего рода ответ на жалобы активистов, наиболее известными из которых сегодня считаются прецеденты с оппозиционным политиком Владимиром Миловым и правозащитницей Аленой Поповой. В январе 2020 года они подали судебный икс к столичному МВД и ДИТ с требованием запретить систему распознавания лиц на городских улицах и удалить изображения граждан из баз данных, т.к. они попали туда без их согласия. Районный суд Москвы не удовлетворил требования активистов [3].

Возвращаясь к столичной системе видеонаблюдения, стоит подчеркнуть, что, при высокой степени интеграции с компанией NtechLab, она позиционируется как мультивендорная. В результате конкурсов на поставку алгоритмов было определено несколько поставщиков, алгоритмы которых дополняют друг друга. Помимо Ntechlab, Москва заключила договора с компаниями Visionlabs (входит в экосистему Сбербанка) и Tevian. Впрочем, успешность распознавания лиц зависит не только от самих ML-алгоритмов. На результат также влияют внешние условия: частота видеопотока, мощность устройств. С точки зрения вычислительных ресурсов наиболее затратным является детектирование объектов в видеопотоке [6]. Поэтому в ноябре 2019 года принадлежащая столичной мэрии компания «Электронная Москва» объявила конкурс на поставку серверов, устройств обработки данных и компьютеров с графическими ускорителями Nvidia. Согласно техническому заданию, общая емкость закупаемого оборудования должна измеряться около 9 Пбайт, в т.ч. 454 сервера, в каждом из которых должно быть по два 18-ядерных процессора. Также в госзакупке указаны 50 компьютеров с восемью графическими ускорителями Nvidia Tesla T4, мощность которых равна производительности 30-40 обычных компьютеров, а также хранилище данных из 192 дисков емкостью почти 1,5 петабайта (1,5 тысячи терабайт) [3]. Победителем конкурса стала телекоммуникационная компания «Максима-Телеком», оператор единого крупнейшего в Европе Wi-Fi-пространства, предложив цену 1,15 миллиардов рублей за серверы. Согласно контракту, в обязанности «Максима-Телеком» входит не только поставка оборудования, но и и его интеграция в существующую систему городского видеонаблюдения [7].

Пока из наиболее значимых результатов, достигнутых текущей системой столичного видеонаблюдения с распознаванием лиц, Правительство Москвы отмечает следующие [3]:

ежемесячно системы видеоаналитики на нескольких станциях метро позволяют задерживать 5-10 преступников без увеличения личного состава полиции;
в 2019 году с помощью 1000 «умных» камер на подъездах жилых домов было задержано 90 человек;
за 2019 год МВД с помощью системы удалось задержать 200 преступников;
с марта по июнь 2020 года городская система видеоаналитики активно использовалась для отслеживания передвижений москвичей во время карантинных мир из-за пандемии коронавируса COVID-19;
в дальнейшем систему планируют также использовать для поиска криминогенных мест в городе и точек сбора нелегальных мигрантов.

Распознавание лиц в России и в мире

При том, что наиболее крупные внедрения систем видеоаналитики с распознаванием лиц наблюдаются в столице, другие города России также пробуют эту DS-технологию. В частности, в октябре 2019 года в казанском метро запустили видеокамеры с функцией распознавания лиц. Работающие в пилотном режиме камеры на улицах города Альметьевска помогли задержать 7 преступников, которые находились в федеральном розыске, а также 49 человек, не уплативших штрафы за административные нарушения. Аналогичный проект по установке камер видеонаблюдения планируется в Калуге в рамках программы «Безопасный город»: к 2021 году там должно появиться больше 340 видеокамер с функцией распознавания лиц. В Тюмени такая программа уже запущена и к ней подключено 1984 камер уличного видеонаблюдения. Внедрение системы видеоналитики также планируется в общественном транспорте Белгорода.

В Академическом районе Екатеринбурга тестируется новая интеллектуальная система безопасности, сканирующая лица и запоминающая номера автомобилей. К ней будет подключено около 4 тысяч камер для анализа изображения в режиме онлайн, чтобы распознавать неадекватные действия отдельного человека или группы людей. При этом любой попавший на запись объект (человеческое лицо или номер автомобиля) автоматически сканируется, после чего можно вычислить всю историю его передвижения [8].

Однако, пока региональные внедрения систем видеоаналитики еще слишком малы по сравнению со столичной практикой. Именно Москва входит в ТОП-20 «самых просматриваемых» мегаполисов, расположившись на 18-м место в мире по числу видеокамер, обогнав Дели и Берлин (рис.1). Сегодня на 1 тысячу москвичей приходится около 12 видеоустройств. В ТОП-50 «самых просматриваемых» городов также вошел Санкт-Петербург, на каждую тысячу жителей которого насчитывается примерно 6 камер. А первое место в списке занимает китайский мегаполис Чунцин, на каждую тысячу жителей которого приходится 168 устройств видеонаблюдения. Вообще пятерку лидеров этого списка занимают именно китайские города [9]. Впрочем, сегодня распознавание лиц в Китае стало привычным явлением повседневной жизни, на базе которого строятся множество социальных процессов и государственных услуг, что и рассмотрено далее.

Рис.1. ТОП-20 городов мира с самым большим числом камер видеонаблюдения

Распознавание лиц в Китае

Еще в 2016 году в Китае работало минимум 176 миллионов камер, расположенных на городских улицах и внутри зданий. В 2020 году правительство планирует установить еще 450 миллионов, чтобы сделать максимально просматриваемым каждый город страны. Примечательно, эта национальная система видеонаблюдения с распознаванием лиц является частью комплексного проекта по оценке благонадежности граждан. Каждому человеку присваивается рейтинг, от которого зависит его жизнь, включая образование, кредитование, международные путешествия, страхование и прочие государственные услуги, муниципальные сервисы и бизнес-приложения (рис. 2). Например, граждане с высоким социальным рейтингом могут получать скидки на электроэнергию, брать вещи в аренду без залога и даже получать сниженный процент по кредиту в банке. А китайский сайт знакомств Baihe даже продвигает учетные записи таких граждан в топ, оставляя неблагонадежных где-то внизу рейтинга.

Даже в общеобразовательных школах китайцы активно внедряют системы видеонаблюдения, размещая над доской три камеры. Они передают видеопоток на сервера, где данные обрабатывают ML-алгоритмы. Таким образом, нейросети отслеживают тех учеников, кто отвлекается, смотря в окно или разговаривая с соседом. Информация о недобросовестных учениках передается учителю, и тот принимает меры. Тестирование такой системы в нескольких школах существенно повысило успеваемость: ученики стараются не отвлекаться, занимаясь уроками в учебное время [10].

Рис. 2. Принцип социального рейтинга в Китае

В мае 2020 года администрация китайского города Ханчжоу, где расположена штаб-квартира Alibaba Group, сообщила о создании постоянно действующей на государственном уровне рейтинговой системы для оценки здоровья граждан. Она работает по принципу системы Alipay Health Code, запущенной в Китае в феврале 2020 года для отслеживания физических контактов с зараженными COVID-19. Система создана на базе приложения Alipay, разработанного дочерней структурой Alibaba. Так администрация Ханчжоу предлагает использовать QR-коды с мобильного телефона для считывания рейтинга его владельца. Например, если человек употребляет алкоголь или курит сигареты, его рейтинг будет понижаться, а если ходит в фитнес-центр — повышаться. Данные об этом планируется получать автоматически из анализа видеоизображений с городских улиц. Российский вице-премьер Максим Акимов раскритиковал такую идею социального рейтинга граждан на основании их персональных данных, отметив неприемлемость ее внедрения в России [11].

Однако, повсеместное внедрение «умных» видеокамер с функцией распознавания лиц в столице и других крупных городах дает повод усомниться в этом. В любом случае, современные системы видеоаналитики – это мощный инструмент государственного контроля за населением, при пользовании которым надо найти баланс между безопасностью и приватностью.

Заключение

Резюмируя отечественный и мировой опыт использования систем видеоаналитики с функцией распознавания лиц, стоит отметить этические риски поспешного внедрения этих DS-технологий. Главным здесь является «презумпция виновности», когда система считается правым в спорной ситуации. Из виду упускается возможность ошибок 1-го или 2-го рода, когда ML-алгоритм распознал личность неверно из-за влияния внешних условий (тусклое освещение, помехи в передаче сигналов) или наличия некорректных данных в базе поиска. Из-за этого система распознавания может упустить человека, находящегося в розыске, или же идентифицировать невинного в качестве преступника, как это произошло в 2018 году с российским активистом Акселем, фотографии которого случайно попали в базу с правонарушителями [8].

Еще одним риском является возможность утечки биометрических данных из систем видеонаблюдения, как это случилось в декабре 2019 года, когда на черном рынке данных продавалась информация с московских камер [12]. Наконец, с точки зрения обывателя повсеместное видеонаблюдение вторгается в его личную жизнь, лишая права на приватность. Поэтому в некоторых городах на использование этой технологии накладывается мораторий до тех пор, пока не будут разработаны правила ее легитимного применения без ущерба приватности жителей. Например, в Сан-Франциско власти временно запретили полиции и другим ведомствам использовать функцию распознавание лиц в системах городского видеонаблюдения, пока не появятся соответствующие регламенты [10]. В России государство стремится по максимуму контролировать своих граждан, однако осознает необходимость тщательной проработки юридических аспектов цифровизации, к которой относится городское видеонаблюдением с распознаванием лиц.

Источники