Картографирование неструктурированных данных
Даррон Пустем, компания Esri
Turn Unstructured Data into Maps with ArcGIS LocateXT Extension
Новый дополнительный модуль ArcGIS LocateXT предназначен для поиска, извлечения и нанесения на карту данных из обычного текста, включая географические координаты в разных форматах, названия мест и другую связанную с местоположением информацию. Такие сведения могут содержаться во многих источниках: отчетах, рабочих таблицах, на веб-сайтах, в соцсетях, в сообщениях электронной почты, презентациях и других ресурсах. При этом могут изучаться и анализироваться любые массивы неструктурированного или полу-структурированного текста в цифровом виде, в том числе и геотеги изображений с датами. Найденные в тексте целевые данные можно быстро представить на карте и на их основе решать разные типы аналитических, ситуационных, тематических и операционных задач.
Недавно выпущенный компанией Esri дополнительный модуль для ArcGIS Pro, ArcMap и ArcGIS Enterprise, названный ArcGIS LocateXT, предоставляет вам возможность быстро сканировать неструктурированный текст, выявлять и извлекать из него гео-координаты, создавая новые связи внутри имеющихся в вашем распоряжении и вновь анализируемых данных.
Этот модуль предназначен для широкого круга пользователей, а не только для ГИС-специалистов.
В ряде прикладных областей постоянно возникают проблемы обработки больших объемов данных, содержащих текстовую информацию, которая хотя и связана с местоположениями, но не представлена в традиционных структурированных пространственных форматах, в явном виде содержащих географические координаты. Вместо этого ее связь с географией скрыта в неструктурированных или полу-структурированных форматах на основе обычного текста. И, как следствие, из нее нельзя сразу извлечь важные для решения многих задач данные, отобразить их в наглядном картографическом виде, быстро проанализировать и поделиться с другими.
ArcGIS LocateXT – дополнительный модуль ArcGIS для гео-сканирования текста из разнообразных информационных источников.
Такие данные могут, например, содержаться в офисных документах, презентациях PowerPoint, файлах PDF, простых текстах Notepad, сообщениях в Интернете, в содержимом веб-сайтов или в стандартных формах отчетов.
Теперь появился удобный инструмент для решения подобных задач.
Данные из любого источника
Представленные в модуле LocateXT инструменты позволяют извлекать информацию со «скрытой» (неявной) географией практически из любых источников неструктурированных данных, включая сообщения в СМИ, рабочие отчеты, брифинги, социальные сети, сайты, переписку в электронной почте и т.д. Они также позволяют обнаруживать и сопоставлять данные из документов Microsoft Office (Word, Excel, PowerPoint), Adobe PDF, XML, HTML, обычных текстовых файлов, геотегов изображений с датами и многого другого.
ArcGIS LocateXT позволяет легко выявлять и извлекать значения гео-координат и другой пространственный контекст из неструктурированного текста, обнаруживать новые взаимосвязи в ваших данных.
При этом исходные, содержащиеся в теле текста, ссылки на гео-координаты могут быть представлены в самых разных форматах. Они, например, могут сочетать величины DD, DM, DMS (градусы, минуты и секунды, отображаемые в значениях от 0 до 60 или от 0 до 100), системы прямоугольных координат UTM и MGRS, отображающиеся в виде буквенно-цифровой строки, и т.д.
А процедура извлечения данных по названиям мест может формироваться и настраиваться на основе содержимого тематических геопространственных слоев или материалов географических справочников.
После этого обнаруженные данные могут быть быстро сгруппированы, проанализированы и сразу нанесены на карту в виде гео-меток с привязкой к соответствующим местоположениям. Помимо массового поиска данных с гео-привязкой, можно настраивать рабочие процессы и использовать фильтры, в том числе по заданным названиям или ключевым словам. То есть появляется возможность целевой обработки исходных и извлеченных данных и создания новых связей внутри них.
Автоматизация рабочих процессов поиска и извлечения гео-ссылок
Этот модуль включает набор инструментов геообработки, которые можно использовать в визуальном конструкторе ModelBuilder и встраивать в автоматизированные рабочие процессы. С их помощью вы можете автоматически извлекать данные с атрибутами в базы геоданных, классы объектов, сервисы объектов, шейп-файлы и файлы KML. Текстовый контент до и после извлеченного местоположения (Pre-Text и Post-Text), включенный в выходные данные, обеспечивает критически важный контекст для последующего целевого использования.
С помощью нового инструмента «Извлечь местоположения» вы можете просто выделить нужные гео-сведения в документах и сохранить их в ArcGIS.
Хранение данных и обмен результатами их обработки
Источники неструктурированных текстовых данных, а также результаты их сканирования и обработки могут быть сохранены в базу геоданных, проанализированы и представлены на карте средствами ArcGIS Desktop. Кроме того, их можно связать с сервисами объектов, опубликованными на портале на основе ArcGIS Enterprise и в облачной инфраструктуре ArcGIS Online для дальнейшего распространения. Там же в качестве сервисов геообработки можно опубликовать настроенные рабочие процессы LocateXT.
Пример работы с неструктурированными данными
Допустим, департамент полиции ведет базу данных обо всех случаях криминальной активности в городе или районе в виде текстовых документов Microsoft Word. С течением времени он собрал сотни отчетов, содержащих даты, время, местоположения и типы инцидентов, таких как кражи, ограбления, хулиганство, вандализм, нелегальная продажа наркотиков и т.д. Для повышения эффективности своей работы по защите населения и имущества офицеры хотели бы использовать материалы этих отчетов для определения горячих точек и закономерностей правонарушений, чтобы уделять этим местам и противоправным действиям больше внимания и распределять свои ограниченные ресурсы оптимальным образом.
Технология LocateXT использует поиск закономерностей регулярных выражений (REGEX) и может работать в сочетании с другой функциональностью геообработки ArcGIS при выполнении сложных рабочих процессов для выявления геолокаций.
В прошлом это означало многие часы чтения каждого отчета из архива, выделение типа и других характеристик инцидента, добавление на карту разных меток в местах происшествий по каждому из их типов. Теперь, используя новый инструмент LocateXT «Извлечь местоположения» (Extract Locations), вы можете просто перетащить эти документы или папку с документами в приложение ArcGIS Pro. Остальное выполнит программа, и сделает это намного быстрее и точнее.
Быстрый поиск и наглядное отображение
Технология ArcGIS LocateXT разработана для широкого круга людей с разными профессиональными интересами ‑ от опытных пользователей ГИС до аналитиков и руководителей, которым необходима специализированная обработка текстовых данных, сопоставление рабочей информации с территорией и ее наглядная визуализация в пространственном контексте. Эта технология позволяет быстро сканировать документы, мгновенно извлекая из них объекты, явления и события с привязкой к соответствующим географическим местоположениям, добавлять их на карту и получать общее понимания ситуации, в том числе с высокой детальностью и наглядностью отображения.
Альтернативой является утомительный процесс, включающий многие часы чтения, извлечения, копирования, вставки текстовых (буквенно-цифровых) материалов с запуском формул для обработки, например, электронных таблиц – те рабочие процессы с элементами ручного труда, которые особенно утомительны и чреваты человеческими ошибками. При этом всегда существует вероятность, что важные пространственные сведения и закономерности будут пропущены или проигнорированы из-за монотонности и огромного объема работы для поиска, определения и картографирования гео-пространственных ссылок, содержащихся в текстовых данных. Кумулятивный эффект этой проблемы приводит к тысячам затраченных, порой впустую, часов, низкой производительности и продуктивности этого процесса, неудовлетворенности пользователей полученными результатами и меньшему количеству извлеченных и помещенных в корпоративную среду данных.
Интеграция LocateXT в среду ГИС предоставляет уникальные возможности использования этой функциональности на всей платформе ArcGIS.
Основной целью дополнительного модуля ArcGIS LocateXT является предоставление возможности легко определять и извлекать географические координаты и другой пространственный контекст из многих источников неструктурированных данных. Это позволяет пользователям мгновенно создавать интеллектуальную картографическую информацию и делиться этой информацией внутри группы, организации и за ее пределами.
Технология LocateXT использует метод расширенного поиска закономерностей регулярных выражений (REGEX) и может работать в сочетании с другой функциональностью геообработки ArcGIS при выполнении сложных рабочих процессов для выявления геолокаций. Её интеграция в ГИС предоставляет уникальные возможности использования этой функциональности, в том числе за счет встраивания в корпоративную среду и выполнения продвинутой аналитики. Это позволяет без дополнительных усилий преобразовать текстовые данные со скрытой географической информацией в геопространственные объекты на карте для анализа, отображения и интеллектуального поиска.
ArcGIS позволяет работать с разными типами данных, в том числе с неструктурированным текстом.
Более подробно о возможностях модуля LocateXT и том, как эта технология может обогатить ваши рабочие процессы с применением ArcGIS, см. на странице esri.com/en-us/arcgis/products/locatext/overview.
Эта статья основана на публикации в блоге Esri. Ее автор, Даррон Пустем (Darron Pustam) является менеджером по продуктам ArcGIS Earth (изучение, визуализация и публикация в 3D), ArcGIS LocateXT (структурированные и неструктурированные данные) и ArcGIS Mission (управление миссиями и тактическая ситуационная осведомленность).