Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

DEVELOPMENT OF AN INTELLIGENT OBJECT RECOGNITION SYSTEM FOR SOLVING THE PROBLEMS OF SITUATIONAL MANAGEMENT IN THE CITY

Sulitskiy M.V. 1 Zelenskiy I.S. 1 Sadovnikova N.P. 1 Finogeev A.G. 2 Katerinina S.Yu. 1
1 Volgograd State Technical University
2 Penza State University
Within the framework of this work, the authors consider the issue of urban infrastructure situational management on the example of traffic situations. The relevance of the study is due to the difficult situation in the field of citizens problems response. The authors propose to develop an intelligent data collection tool aimed at timely detection of traffic situations that require operative solving of situational management tasks. The text describes the developing and testing process of a traffic situation recognition system. In particular, the processes of data collecting and additional training of the Mask R-CNN artificial neural network model for recognizing new types of vehicles, visualization of detected situations using OpenCV, as well as obtaining and using a test data set are described. In addition, in this article, the authors describe examples of real-life situations, the occurrence of which leads to the emergence of situational management problems and the need for their prompt solution. The developed system is designed to increase the speed of collecting and processing operational data on changes in the state of urban infrastructure systems using methods for recognizing objects in the processes under study on frames of a video stream taken from urban video surveillance cameras. The study was supported by a grant from the Russian Science Foundation and the Administration of the Volgograd Region No. 22-11-20024, https://rscf.ru/project/22-11-20024/. The results of the part «Results of the study and their discussion» were obtained under a grant from the Russian Science Foundation (RSF, project No. 20-71-10087).
Pattern recognition
machine vision
digital image processing
situational management

Тема настоящего исследования находится на пересечении областей работы с геоданными, инфографики и исследования социальных явлений в различных слоях общества. Кроме того, важным элементом является сбор и анализ видеоданных с городских камер наблюдения с целью дальнейшего использования их для принятия решений в задачах ситуационного управления [1].

Ежедневно на инфраструктурных объектах происходят события, требующие ведения систематического контроля [1]. Ситуационным управлением называют деятельность уполномоченных органов, при которой решения и управляющие воздействия основываются на анализе вариантов возможных решений с учетом: текущего состояния объекта управления, располагаемых вариантов действий и прогноза последствий принимаемых управленческих воздействий. Принципы систем управления позволяют извлечь максимум выгоды для лица, принимающего решение, исходя из особенностей конкретных управленческих ситуаций, совокупности всех внешних и внутренних факторов, которые определяют условия функционирования объекта управления, что позволяет принимать и реализовывать решения не в некие установленные плановые периоды, а по мере возникновения проблем [1].

Актуальность исследования обусловлена сложной ситуацией в области реагирования на проблемы граждан, т.к. роль автоматизированных интеллектуальных систем в данной сфере в нашей стране на текущий момент мала. Научная новизна работы заключается в использовании методов распознавания объектов на видео с городских камер наблюдения для обнаружения дорожных ситуаций, требующих решения задач ситуационного управления. Внедрение данных методов позволит оперативно консолидировать информацию о реальном состоянии городской транспортной системы и предоставлять ответственным лицам актуальную информацию о происходящих событиях, а в будущем и оперативно предлагать возможные методы урегулирования ситуации. Практической ценностью работы следует считать возможность снижения фактора человеческих ошибок, автоматизацию сбора данных и сокращения времени реагирования на происходящие события.

Таким образом, целью работы является ускорение анализа состояния системы городской дорожной инфраструктуры за счет автоматизации сбора данных о его изменении с помощью методов распознавания объектов на кадрах видеопотока с камер наблюдения.

Материалы и методы исследования

Примерами ситуаций, порождающих задачи ситуационного управления, могут служить следующие ситуации на дорогах [2; 3]:

– заторы на дорогах [2];

– ДТП [2; 3];

– загруженность общественного транспорта и мест его ожидания;

– загрязнённость (засорённость) городских территорий [4].

В рамках настоящей статьи было решено сконцентрироваться на распознавании автомобилей на кадрах видеопотока, снятого с камер наблюдения за городскими дорогами.

Для решения задач распознавания дорожной обстановки часто применяются методы машинного обучения [5-7], в частности искусственные нейронные сети (далее – «нейросети») [8]. В рамках настоящего исследования было также принято решение для распознавания автомобилей на кадрах видеопотока использовать нейросеть Mask R-CNN [9; 10], работающую по принципу сегментации изображений, а также библиотеку OpenCV для работы с графической информацией [11] для визуализации данных. Пример применения нейросети Mask R-CNN в связке с OpenCV для решения задачи распознавания людей на изображениях представлен на рисунке 1.

Алгоритм работы разработанного на базе Mask R-CNN и OpenCV инструмента включает следующие шаги:

1) получение входного видеопотока;

2) разбиение видеопотока на отдельные кадры с помощью функций OpenCV;

3) обработка полученного массива кадров нейросетью Mask R-CNN для распознавания объектов на нём;

4) визуализация.

В результате визуализации сегментированные нейросетью кадры [9; 10] будут вновь «собраны» средствами OpenCV [11] в единые изображения, после чего на них будут наложены полученные нейросетью данные, такие как идентификатор (ID) объекта, вероятность верного обнаружения объекта, рамка видимого объекта и сама маска. Затем полученный массив кадров будет вновь объединён в цельный видеопоток. Для наглядности результатов было принято решение накладывать на объекты в каждый момент времени маски различного цвета, что позволит явно отслеживать изменения наблюдаемого видео. В качестве средства реализации инструмента был выбран язык программирования Python.

missing image file

Рис. 1. Пример работы нейросети Mask R-CNN

Изначально было принято решение использовать публично доступную предварительно обученную на наборе данных MS COCO [12] модель нейросети Mask R-CNN. Данная модель обучена распознавать на изображениях не только транспортные средства, но и самые разнообразные другие объекты [12]. В рамках решения задач настоящего исследования список интересующих классов был ограничен следующими: человек, автомобиль (в том числе грузовики и автобусы), велосипед и дорожное полотно.

В процессе первичного тестирования было обнаружено, что выборка MS COCO, использованная при обучении открыто доступной модели, включает транспорт только иностранного происхождения. Как следствие, данная модель оказалась неспособна с достаточной точностью распознавать на кадрах видеопотока, к примеру, автомобили марки «ГАЗель». Модель идентифицировала представителей данной автомобильной марки как «грузовик» (truck) c точностью ~53%, «автобус» (bus) c точностью ~57% и «автомобиль» (car) с точностью ~55%, однако такой результат нельзя было назвать удовлетворительным.

Было принято решение о сборе дополнительных фото- и видеоданных с участием представителей данной автомобильной марки для дополнительного обучения модели [13; 14]. Решение этой задачи также было призвано подготовить почву для дальнейшего распознавания автомобилей скорой помощи, часто являющихся представителями той же автомобильной марки с несколькими дополнительными отличительными признаками.

Сбор данных проходил на площадке города Волгограда собственными силами без привлечения внешних источников в течение зимне-весеннего периода. Выбор временного промежутка для сбора данных был обусловлен замыслом ввести для модели следующие дополнительные условия:

– в указанный период автомобили достаточно загрязнены, чтобы усложнить их распознавание, однако успешное решение этой задачи в дальнейшем увеличит точность модели: усложненные данные должны повысить эффективность обучения;

– модель будет подготовлена к реальным ситуациям: поскольку данный вид транспорта эксплуатируется в достаточно тяжелых условиях, его внешний вид, по статистике, будет чаще именно загрязнённым.

Итогом сбора данных стали 3 гигабайта изображений и 10 гигабайт видеоматериалов с участием автомобилей «ГАЗель» в различных ракурсах. Следует уточнить, что количество видеоматериала было невелико, и такой объём данных обусловлен качеством изображения, снятого камерой высокого разрешения. Решение о сборе данных именно такого качества было принято для упрощения ручной работы разметки отдельных кадров. Примеры полученных в результате сбора данных фото- и видеоданных приведены на рисунках 2 и 3.

missing image file

Рис. 2. Пример собранных фотоданных

missing image file

Рис. 3. Пример собранных видеоданных

Результаты исследования и их обсуждение

Для апробации и отладки модели распознавания объектов была необходима дополнительная тестовая выборка фото- и видеоданных с реальных систем городского видеонаблюдения. В качестве площадки для тестирования был также выбран город Волгоград. С получением доступа к муниципальным камерам городского видеонаблюдения возникли сложности, было решено перейти к рассмотрению сторонних сервисов общественного наблюдения. В конечном итоге выбор пал на проект «Город на ладони» от компании Powernet [15]. Данный проект по запросу предоставляет доступ к просмотру данных, полученных с общественных камер видеонаблюдения, расположенных на дорогах города Волгограда, города Волжского и других населённых пунктов Волгоградской области. Небольшим недостатком в данном случае можно считать тот факт, что камеры расположены на большой высоте над дорожным полотном: такое удаление камер может оказывать некоторый негативный эффект на качество распознавания из-за размеров объектов в кадре. Для получения доступа к данным было отправлено формальное обращение к сотрудникам Powernet. В результате были получены записи с участков ул. им. Константина Симонова – ул. 8-й Воздушной Армии и ул. 30-летия Победы – ул. Константина Симонова. Общая продолжительность полученных видеоматериалов составила порядка 20 часов.

Также следует упомянуть проведённый для нужд настоящего исследования мониторинг данных сервиса «Яндекс.Пробки» (расширение «Яндекс.Карт») с целью сбора информации о ситуации на автомобильных дорогах города Волгограда и Волжского. Было выявлено, что для дорожной сети характерна пиковая нагрузка по понедельникам, четвергам и пятницам в промежутки времени с 8:00 до 10:00 и с 16:00 до 19:00 часов. На основе собранной информации была сформирована почасовая выборка данных, характеристика которой приводится в таблице.

Пропуск отдельных временных промежутков означает отказ от использования данных за данный промежуток в связи с их малой рентабельностью на фоне данных за пиковые часы нагрузки на дорожную сеть.

Выборка видеоданных по часам

День/час

8

9

10

11

16

17

18

19

Понедельник

+

+

+

+

+/–

+

+

+/–

Четверг

+

+

+

+/–

+

+

+/–

Пятница

+

+

+

+

+

missing image file

Рис. 4. Определение ДТП на кадрах видеопотока

missing image file

Рис. 5. Определение затора на кадрах видеопотока

На рисунках 4 и 5 представлены примеры работы разработанного инструмента: определение ДТП и транспортного затора на кадрах видеопотока.

В дальнейшем получаемые от модели данные можно будет использовать не только для детектирования дорожных ситуаций, приводящих к возникновению задач ситуационного управления, но и для поддержки принятия решений в подобных задачах как применительно к управлению транспортными потоками города, так и, например, для решения задач построения экологически чистых маршрутов (в обход участков с обнаруженными с помощью обученной модели загрязнениями и/или автомобильными заторами, порождающими загрязнение воздуха) [4].

Выводы

В результате проведённого исследования были получены следующие выводы:

1) при тестировании системы для распознавания дорожных заторов были выявлены следующие недостатки:

− в связи с количеством автомобилей типа «ГАЗель» на дорогах, несмотря на дополнительное обучение модели, вероятность ложноположительных и ложноотрицательных распознаваний моделью данного вида объектов в транспортном потоке по-прежнему сохраняется, из-за чего возможно некорректное наложение и отображение масок объектов;

− поскольку камеры расположены на значительном удалении от дорожного полотна, распознаваемые объекты могут иметь достаточно небольшой размер (можно пронаблюдать на рисунке 4), вследствие чего сохраняется вероятность ложноположительных и ложноотрицательных распознаваний;

2) при тестировании системы на кейсе загруженности остановочных пунктов значимых недостатков выявлено не было;

3) при тестировании системы для распознавания загрязненности участков дорожного полотна были выявлены следующие недостатки:

− некорректное наложение маски на объекты, относящиеся к типу «отходы», в связи с удаленностью камеры от объекта;

4) затраты времени на анализ состояния системы городской инфраструктуры сократились с часов (время, затраченное на ручную обработку видео для обучающей выборки) до минут.

В результате проведенного исследования был создан инструмент детектирования и распознавания дорожных ситуаций, требующих оперативного решения задачи ситуационного управления. Также был произведён сбор данных, сформирована и использована выборка фото- и видеоматериалов для дополнительного обучения нейросети Mask R-CNN распознаванию автомобилей модели «ГАЗель», а также проведено тестирование полученной модели на реальных данных, собранных с действующих камер видеонаблюдения за дорожной сетью города Волгограда.

Авторы выражают благодарность коллегам по лаборатории городских вычислений UCLab и кафедре «Цифровые технологии в урбанистике, архитектуре и строительстве» ИАиС ВолгГТУ, принимавшим участие в разработке проекта.