Практический опыт применения алгоритмов машинного обучения

Ишиев Н.Л., Директор технологического центра; Ракунов С.В., Директор департамента
Компания ПРАЙМ ГРУП, г. Москва, web: www.primegroup.ru

Practical Application of Machine Learning and GIS

 


Объем информационных систем, использующих пространственные данные, растет в геометрической прогрессии. Об этом, например, пишет Ananya Narain в своей статье на тематическом сайте по геопространственным технологиям www.geospatialworld.net. А геоинформационные технологии широко востребованы и используются практически во всех областях бизнеса, экономики, управления. В своей основе генезис ГИС-платформ (решения и программное обеспечение) заключается в получении, обработке и анализе пространственной и непространственной информации и предоставлении средств ее визуализации эффективными картографическими способами.

Но на самом деле рынок ГИС постоянно расширяется. Он охватывает и такие быстро растущие направления, как инженерные и проектно-строительные разработки, 3D-моделирование с применением пространственных данных, интеграционные корпоративные и ведомственные платформы, область геолокационной аналитики и многие другие сферы, способствуя целостному пониманию обстановки и обеспечивая предоставление информации об активах и процессах в режиме реального времени. Джек Данджермонд (Jack Dangermond), основатель и президент компании Esri, постоянно подчеркивает важность и уникальные возможности сегмента ГИС и геоаналитики и говорит о применимости геоинформационных технологий практически во всех областях человеческой деятельности. При этом он отмечает, что опытные пользователи пространственной информации, десятилетиями успешно применяющие ГИС в своей работе, будут играть все более значимую роль в происходящей на наших глазах технологической эволюции и преобразованиях всего общества.

В настоящее время технологии ГИС стремительно развиваются и внедряются в процесс цифровой трансформации государственного управления и бизнеса. Специалисты выделяют следующие технологические направления развития геоинформационных технологий в России и за рубежом:

  • 3D ГИС. Постоянно усложняющиеся производственные процессы и стремительно растущий объем доступной информации требуют изменения подхода к ее визуализации. Развитие 3D технологий, в том числе и 3D ГИС, позволяет с высокой точностью визуализировать уже существующие объекты и обстановку, а также играть важную роль в решении сложных управленческих и прочих задач.
  • Большие данные (Big Data). Понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках, в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики, например, машинное обучение. Средством для работы с большими данными, их анализа и отображения часто выступают ГИС.
  • Искусственный интеллект. Функциональные возможности пространственного анализа в ГИС постоянно совершенствуются и дополняются новыми инструментами геообработки. В то же время математический аппарат в приложении к многомерному пространственному анализу, предоставляющий развитые методы и алгоритмы исследования геометрии, топологии и других свойств абстрактных объектов, их множеств и структур, пока задействован в ГИС далеко не в полной мере. Но этот процесс идет довольно быстрыми темпами, в том числе путем подключения к ГИС программных средств, базирующихся на технологиях и методах искусственного интеллекта (ИИ — «раздела информатики, изучающего методы, способы и приемы моделирования и воспроизведения с помощью ЭВМ разумной деятельности человека, связанной с решением задач»). Интеграция таких возможностей в общую аналитическую среду усиливает значимость и ценность географической информации в системах поддержки принятия решений.
  • Цифровые близнецы – это понятие объединяет искусственный интеллект, компьютерное обучение и программное обеспечение со специальными данными для создания живых цифровых моделей. Эти «цифровые близнецы» постоянно обновляются вслед за изменением физических прототипов. Цифровые копии создаются с целью оптимизации работы физических прототипов, целых систем и производственных процессов. При создании живых цифровых моделей для ряда промышленных процессов возникает необходимость в использовании возможностей ГИС.
  • Карты высокого разрешения (HD Maps). Направлением самоуправляемых машин сейчас занимаются как ведущие игроки рынка информационных технологий, так и крупные компании автомобильной отрасли (Volvo, Ford, Porsche, Google, Apple, Tesla, Yandex и др.), при этом очевидно, что для полноценной реализации технологии автономных «беспилотников» не обойтись без карт высокого разрешения (погрешность от 3 до 10 см). Прогнозируется увеличение потребности в покрытии HD-картами крупных городов Мира и точной геолокации на основе технологии ГИС.
  • Использование машинного обучения (Machine Learning). С ростом вычислительных мощностей стали актуальны открытые в 20 веке методы глубокого обучения (Deep Learning). Это позволило создавать сложные архитектуры нейронных сетей, обладающие достаточной производительностью и позволяющие решать широкий спектр задач. В ГИС искусственный интеллект находит применение в широком диапазоне областей: от классификации изображений до обнаружения пространственных паттернов и многомерного прогнозирования.
  • Промышленный интернет вещей (Industrial Internet of Things, IoT) — многоуровневая система, включающая данные с датчиков и контроллеров, установленных на узлах и агрегатах промышленных объектов, средства оперативной передачи собираемых данных и их визуализации, а также мощные аналитические инструменты интерпретации получаемой информации. Для того чтобы значительно улучшить понимание передаваемых потоков данных с целью получения более полезной и полной информации, настраивается и применяется тесная интеграция ГИС с IoT.
  • Дополненная реальность (Augmented Reality, AR), — это еще одно перспективное направление для расширения прикладных возможностей интеграции с технологией ГИС. Дополненная реальность позволяет совмещать виртуальный и реальный мир, размывая грань между видимым и скрытым. В 2017 году компания Apple выпустила новую мобильную операционную систему iOS 11, которая включает в себя ARKit – мощный инструментарий, позволяющий разработчикам быстро создавать мобильные приложения для iPhone и iPad. Появление набора инструментов ARKit спровоцировало выпуск большого количества приложений, использующих технологию AR: навигаторы, игры, планировщики внутреннего пространства помещений и др.

В ближайшее время технологии искусственного интеллекта найдут применение во многих областях прикладных систем. Рынок информационных технологий все больше движется в сторону так называемых SaaS решений (программное обеспечение как услуга). Сервисы, основанные на технологиях искусственного интеллекта, демонстрируют стремительный рост. Согласно статистическим исследованиям, в 2017 году рынок приложений глубокого обучения (Deep Learning) в США достиг 80 миллионов долларов, прогнозируется, что в ближайшие годы он будет быстро расти, в том числе и в России. По мнению экспертов, для успешной конкуренции компании должны широко применять современные технологии обработки и анализа данных, а также «выращивать» специалистов в таких областях, как AR, Machine Learning и смежных направлениях.

Компания ПРАЙМ ГРУП отслеживает тренды передовых технологий ГИС и активно развивает свои компетенции в ГИС и смежных областях. Особый интерес наши специалисты проявляют к применению технологий машинного обучения в геоинформатике для решения задач анализа больших данных, создания базы геоданных, распознавания объектов на данных дистанционного зондирования, полученных в результате космической, аэрофотографической съемок и съемок с беспилотных летательных аппаратов.

Специалисты ПРАЙМ ГРУП имеют практический опыт использования технологий машинного обучения в процессе обслуживания геоинформационной системы объектов электросетевого хозяйства. ГИС построена на продуктах и технологиях Esri и Oracle (рис. 1), включает в себя как базовую пространственную информацию (картографическую основу и данные ДЗЗ), так и множество тематических наборов данных: «паспортные» данные объектов электросетевой инфраструктуры, данные мониторинга, информация о техническом состоянии, текущие показатели функционирования сети, результаты измерений и наблюдений, информация из внешних источников и другие. Ключевыми являются данные об опорах, о пролетах, об анкерных участках, о трассах линий электропередач (ЛЭП). Возникла необходимость оптимизации базы геоданных, вызванная следующими причинами:

Рис. 1. Структура ГИС объектов электросетевого хозяйства.

  1. Большой объем картографической информации: более 50 слоев пространственных данных, несколько миллионов объектов.
  2. Очень детальное описание объектов в базе геоданных: до фазных проводов.
  3. Необходимость обновления данных несколько раз в год: новые данные не всегда содержат полный набор атрибутивной информации.

Основной объект учета в ГИС электросетевого хозяйства – это ЛЭП, расположение которых описывается опорами. Далее из опор формируются пролеты – участки между двумя близлежащими опорами. Для расчёта связей нужно выбрать близлежащие опоры и проанализировать их на возможность построения пролетов между ними. Две близлежащие опоры, для которых возможно проведение связи, мы назвали «парой кандидатов».

Для расчета «пар кандидатов» можно использовать разные методы, основанные на:

  1. Нумерации опор (но не все опоры имеют «понятные» номера, есть опоры с дробными числами и иными значениями).
  2. Расположении опор в пространстве (но могут быть повороты ЛЭП, обходы препятствий, длинные промежутки и другое).
  3. Идентификаторе объекта, внесенного в базу – Object ID (но могут быть изменения, дополнения и прочее, вносимое не по порядку).
  4. Другие методы.

В результате проведенных модельных экспериментов, для расчета «пар кандидатов» специалисты ПРАЙМ ГРУП предпочли использовать технологии машинного обучения. Была выбрана 5-ти уровневая полносвязанная нейронная сеть, в которой каждый нейрон слоя связан со всеми нейронами предыдущего слоя (рис. 2), использовался метод обучения «с учителем».

Рис. 2. Схема полносвязанной нейронной сети.

Входными данными для нейронной сети являлись признаки «пар кандидатов», такие как номер опоры, расстояние между опорами, признак не численного названия опоры, углы поворотов трасс и другие (всего около 100 признаков). На выходе получили только один обобщающий показатель для каждой «пары кандидатов» – это степень похожести от «0» до «1» (чем ближе к «1», тем вероятнее, что «пара кандидатов» является границами пролета).

Данная технология активно используется и в других приложениях, например, при решении таких задач, как кредитный скоринг, измерение показателей успешности маркетинговых компаний, прогнозирование доходов с определенного продукта, вычисление возможности землетрясения в конкретный день и другие. Также, данная технология показала высокую эффективность при решении конкретной ГИС-задачи – формирование базы геоданных пролетов по переменным признакам. В результате эксперимента было установлено, что вероятность формирования «правильного» пролета между опорами составляет 99,99%.

Но на практике задача оказалась сложнее. Для перехода через инженерные сооружения и естественные преграды на прямых участках ЛЭП устанавливают анкерные опоры. Анкерный пролет, представляющий собой участок ЛЭП между двумя близлежащими анкерными опорами, является объектом электросетевого хозяйства и должен быть представлен в базе геоданных ГИС. Как правило, анкерный пролет включает в себя несколько промежуточных пролетов. Также заранее нет однозначного ответа на вопрос: «Является ли новая опора границей анкерного участка?».

Для решения этой задачи («является ли конкретная опора границей анкерного участка») нами была выбрана и обучена сверточная нейронная сеть (рис. 3). Входными данными для нейронной сети является таблица векторных признаков опор и пролетов (всего около 40 признаков). На выходе также получили только один обобщенный показатель для каждой опоры – это степень похожести от «0» до «1» (чем ближе к «1», тем вероятнее, что опора является границей анкерного участка). Примеры идентификации и представления электросетей с применением технологии машинного обучения приведены на рисунках 4, 5.

Рис. 3. Схема сверточной нейронной сети.

Рис. 4. Отображение опор.

Рис. 5. Отображение рассчитанных пролетов.

В практической работе необходимо учитывать ограничения, которые могут возникнуть при обучении и применении полносвязанной и сверточной нейронных сетей, такие как:

  • Для каждой «пары кандидатов» выстраивается своя логика.
  • Ситуация переобучения сети (Overfitting).

Кроме того, для принятия решения о практическом использовании нейронных сетей на этапе эксперимента важно определить такой момент, как «Сеть обучается или научилась распознавать данные, на которых ее обучали».

На основании полученного опыта в ходе экспериментов и практической работы для обучения сетей специалисты ПРАЙМ ГРУП используют неполный объем всех имеющихся в их распоряжении данных: 80% используется для обучения и 20% – для тестирования. Также идет совершенствование технологии применения сетей для практической работы по формированию базы геоданных электросетевого хозяйства, разрабатываются собственные алгоритмы и программное обеспечение, которое будет функционировать в рамках ГИС на платформе ArcGIS компании Esri и усилит конкурентную способность внедрения таких подходов компанией ПРАЙМ ГРУП в приложении к рынку ГИС.

В заключение необходимо подчеркнуть, что популярность и значимость геоинформационных технологий в России растет. Об этом свидетельствует и то, что многие крупные игроки рынка информационных технологий, такие как АО «Сбербанк-Технологии», ГК «Ростех», АО «Концерн «РТИ Системы», ПАО «Ростелеком» и другие, развивают собственные компетенции и продукты в области ГИС. Конкурентная среда на российском рынке ГИС уплотняется. Российские поставщики ГИС-услуг стараются «идти в ногу со временем» и соответствовать мировым трендам развития геоинформационных технологий в мире, создавать собственные инновационные решения в области ГИС, разрабатывать стек технологических инструментов, расширять спектр услуг и другие направления, чтобы выделить свою уникальность. Это и есть положительная тенденция, которая является драйвером роста российского рынка ГИС, И в ней заинтересован Заказчик, потому что в результате этого роста качество, технологичность и разнообразие ГИС-услуг будут постоянно повышаться и улучшаться.