Знакомимся с пространственной статистикой и геостатистикой

 

По материалам Esri

 

Understanding Spatial Statistics and Geostatistics

 

Как применяются статистика, пространственная статистика и геостатистика в ГИС-проектах? Этому и некоторым другим связанным с этой тематикой вопросам посвящена беседа сотрудников Esri Мэтта Артца (Matt Artz), менеджера по применению ГИС для научных целей, и д-ра Лорен Скотт (Dr. Lauren Scott), специалиста по разработке инструментов геообработки для ArcGIS и использованию статистических методов в геопространственном контексте. Ниже она представлена в виде вопросов/ответов.

Чем отличаются традиционная статистика, пространственная статистика и геостатистика?

Традиционная или непространственная статистика используется, как правило, в двух случаях. В первом мы имеем большой набор числовых данных, которые хотим изучить, и используем описательную статистику, чтобы их систематизировать и обобщить. Во втором случае у нас есть выборка данных, и мы хотим понять, насколько хорошо она отражает генеральную совокупность.

Когда возникает потребность в пространственной статистике?

Методы пространственной статистики разработаны специально для пространственных, географических данных. Для них характерны такие понятия, как пространство-площадь, длина, близость, направление, ориентация или какое-либо взаимодействие объектов в наборе данных, выраженное математическим языком. Именно этим методы пространственной статистики отличаются от традиционных статистических методов.

Какие имеются разновидности пространственной статистики?

Их довольно много. Есть описательная пространственная статистика, схожая с традиционной описательной статистикой. Например, если на карте есть множество точек, мы можем найти центр координат этих точек. (В традиционной статистике ему соответствует среднее значение набора значений данных). Мы можем также определить степень разброса этих точек относительно центра (что примерно соответствует традиционному стандартному отклонению для набора значений).

В других статистических методах анализируются пространственные закономерности: мы выясняем, как структурированы изучаемые данные. Например, объединены ли пространственные объекты в кластеры или они более или менее равномерно рассеяны? Сосредоточены ли большие значения в одном месте? Есть ли в данных «горячие пятна»? Инструменты анализа пространственных закономерностей помогают выявить нетипичные картины распределения потребительских расходов: найти области с аномально высоким процентом заболеваемости, преступности или пожаров или отследить распространение загрязнителей окружающей среды. Для этих методов существует множество прикладных и научных применений.

Есть также разновидность пространственной статистики, связанная с идентификацией и количественной оценкой пространственных отношений. Представим, что перед нами карта «горячих пятен» звонков в службу 911, и мы хотим понять, почему из таких мест поступило большое число звонков. Мы можем использовать регрессию и пространственный регрессионный анализ для изучения отношений и идентификации факторов, отвечающих за пространственное распределение, которое мы наблюдаем – факторов, которые могут объяснить, почему число звонков в службу 911 так велико.

А что такое геостатистика?

Геостатистика – это разновидность пространственной статистики. В качестве примера можно привести кригинг, мощный геостатистический метод, расширяющий возможности обычной интерполяции. В нем для создания эффективных и точных прогнозов в областях, где отсутствуют данные измерений или наблюдений, используются не только близлежащие пространственные объекты, но и пространственные отношения.

Традиционно, геостатистика используется для анализа геологических данных и данных об окружающей среде, например, данных о дождевых осадках или рельефе. Целью является создание поверхности из набора точек. Методы геостатистики широко используются в нефтегазовой отрасли и горном деле. Но на самом деле геостатистика идеально подходит для анализа и прогнозирования данных, относящихся практически к любому типу пространственно непрерывных или пространственно протяженных явлений.

Какие инструменты геостатистики и пространственной статистики есть в продуктах Esri?

Многие наверное слышали о дополнительном модуле ArcGIS Geostatistical Analyst, содержащем набор инструментов геостатистики. Он наиболее полезен для работы с выборкой данных о пространственно-непрерывном явлении, таком как дождевые осадки, температура, геология или почвы, и там, где целью является создание поверхности – поверхности вероятности, поверхности прогноза или поверхности ошибки. Этот программный продукт совершенствуется на протяжении много лет, и теперь его возможности уже далеко превосходят функцию создания поверхностей. Инструменты этого модуля можно использовать для решения широкого круга научно-исследовательских и прикладных задач.

В ядре ArcGIS любого уровня лицензии в числе прочего имеется также набор инструментов пространственной статистики (Spatial Statistics Toolbox) с инструментами для анализа пространственных распределений, закономерностей, процессов и отношений. Эти статистические инструменты позволяют решать ряд задач, в том числе определять основную тенденцию или идентифицировать общее направление изменений, горячие и холодные пятна или пространственные выбросы, оценивать совокупные картины кластеризации или рассеяния и моделировать пространственные отношения. И этими инструментами уже пользуется много людей, они широко востребованы!

Доступны ли пользователям ArcGIS другие статистические инструменты?

Конечно. В модуле Esri Business Analyst есть инструменты, использующие статистические методы для идентификации доли рынка, зон обслуживания, территорий продаж и потенциальных клиентов. И вместе с модулем поставляется множество данных для этих инструментов. Дополнительный модуль ArcGIS Spatial Analyst включает статистические инструменты, помогающие классифицировать растровые данные, в том числе данные дистанционного зондирования. Кроме того, статистические инструменты имеются и в других продуктах ArcGIS. И среда геообработки в ArcGIS может быть легко расширена путем подключения к традиционным статистическим пакетам. Вы также можете создавать ваши собственные инструменты; эти пользовательские инструменты будут работать так же, как и любой другой готовый инструмент геообработки.

Тем, кто использует программное обеспечение SAS, предлагается совместный продукт компаний SAS и Esri под названием SAS Bridge, который позволяет c легкостью работать одновременно в двух программных средах. Есть также примеры скриптов, которые можно загрузить с сайта ресурсов Esri (resources.arcgis.com), например, для использования R, статистического пакета с открытым исходным кодом, в среде ArcGIS.

Какое преимущество дает использование пространственной статистики и геостатистики?

Когда вы анализируете ваши данные вне их пространственного контекста, то из рассмотрения теряются такие их важные составляющие как пространство и время. В результате вы видите лишь половину всей истории. Ведь всё происходит в пространстве и во времени, и если мы это игнорируем, наш анализ становится неполным. Это важное отличие традиционной статистики от пространственной: в традиционной статистике часто делается допущение, что данные не имеют так называемой пространственной автокорреляции.

Что такое пространственная автокорреляция?

Несмотря на мудреное название, ее концепция очень проста: пространственная автокорреляция означает, что в ваших данных есть пространственная структура. Этой структурой могут быть кластеры, какой-либо тип рассеяния и другие особенности. Но в любом случае она означает, что распределение ваших пространственных объектов или значений данных, связанных с вашими пространственными объектами, не является случайным. Вакансии, дома, производство, покупки, автодороги или скважины распределяются на местности не случайным образом; они группируются в кластеры в городах, округах и различных зонах землепользования. Данные, имеющие пространственную автокорреляцию, не соответствуют допущениям, принятым в некоторых традиционных статистических методах, и поэтому часто рассматриваются традиционными статистиками как помеха для анализа.

ГИС-аналитики и пространственные статистики, напротив, оживляются, когда видят пространственную автокорреляцию в их данных, когда они наблюдают кластеризацию данных на местности, поскольку она свидетельствует об активных пространственных процессах. И это замечательно! Что-то является причиной этой кластеризации или структуры, что-то порождает различные типы отношений и пространственных закономерностей; и это «что-то» часто является как раз тем, что нас больше всего интересует и что помогает их полнее анализировать. Почему люди умирают раньше в этой части страны? Какими факторами можно объяснить то, что дети в данном школьном округе постоянно показывают высокие результаты на экзаменах?

Пространственные процессы часто не видны «невооруженным» глазом, однако используя инструменты из наборов пространственной статистики (Spatial Statistics Toolbox) для измерения их силы и масштаба результатов – пространственной кластеризации или рассеяния, горячих пятен или пространственных выбросов – мы узнаем о них значительно больше и начинаем лучше понимать наши данные.

Какое заблуждение в отношении пространственной статистики чаще всего присуще людям в ГИС-сообществе?

Чаще всего в ГИС-сообществе бытует заблуждение о ее сложности! Люди слышат слово «статистика», и у них сразу же возникают неприятные воспоминания, связанные с университетским курсом, после чего они просто теряют интерес к теме. И это вызывает большое сожаление потому, что, по мнению многих специалистов, в том числе и практиков, традиционная статистика интересна, а пространственная статистика так и просто увлекательна! И они не так сложны, как кажутся вначале. Некоторые разделы пространственной статистики оперируют очень простыми понятиями, но, тем не менее, дают мощные результаты и являются важным подспорьем при проведении анализа.

Можно привести пример простого, но мощного статистического инструмента?

Простейшим инструментом в Spatial Statistics Toolbox является инструмент Усредненный центр. Он вычисляет среднее значение всех X-координат и затем среднее значение всех Y-координат. Усредненным центром является точка с этими средними X- и Y-координатами. Что может быть проще? Но с помощью этого инструмента можно получить очень значимые результаты. Например, мы изучали данные о численности населения штата Калифорния по округам за последние 100 лет. Мы хотели найти центр численности населения и посмотреть, менялся ли он со временем. Поэтому мы вычислили взвешенный усредненный центр. В начале столетия центр численности населения находился рядом с г. Сан-Франциско, отражая развитие банковской отрасли. С каждым последующим десятилетием центр численности населения смещался на юг. Сначала это смещение происходило очень быстро, благодаря экономическому росту Южной Калифорнии, связанному с нефтедобычей, Голливудом, аэрокосмической промышленностью и пр. Однако к концу столетия процесс замедлился.

То есть даже такой простейший инструмент позволяет визуализировать сложную пространственную тенденцию; скорость и направление перемещения усредненного центра дает интересную информацию о пространственных процессах, лежащих, в данном случае, в основе этого перемещения населения на юг.

Но некоторые инструменты все же не так просты, как усредненный центр?

Да, это так. Большинство ГИС-инструментов очень просты. Вы просто вводите параметры и запускаете инструмент. Однако, некоторые инструменты пространственной статистики сложнее: перед тем, как их использовать, необходимо подумать о пространственных отношениях, масштабе анализа, границах изучаемой области и т.д. Поэтому Esri проводит большую работу по включению в документацию ArcGIS хороших описаний, объясняющих, как правильно использовать инструменты и выбирать подходящие параметры для той или иной аналитической задачи.

Где можно получить больше информации об использовании статистики в ГИС-проектах?

В книге The Esri Guide to GIS Analysis, Volume 2: Spatial Measurements and Statistics (Руководство ESRI по ГИС анализу. Том 2: Пространственные измерения и статистика; автор Энди Митчелл) каждая глава посвящена одному из инструментов Spatial Statistics Toolbox. Это отличный ресурс для тех, кто пока мало знаком с пространственной статистикой, ее методами и преимуществами.

Книга Spatial Statistical Data Analysis for GIS Users (Анализ данных с помощью пространственной статистики для пользователей ГИС; автор Константин Криворучко, один из основных разработчиков модуля ArcGIS Geostatistical Analyst). Эта книга выпущена в электронном виде на компакт-диске. В ней не только объясняются методы и инструменты пространственного статистического анализа, но и представлены примеры реальных мест и обстоятельств их применения в разных районах мира. Поскольку наборы пространственных данных для рассматриваемых случаев доступны на том же диске, читатели могут их загрузить в ArcGIS и следовать изложению, выполняя все описанные в примерах шаги и представляя полученные результаты посредством карт. Автор объясняет связь между неопределенностью в данных и неопределенностью в модели, обсуждает возможные источники неопределенности и ошибок, проводит наглядную проверку типичных статистических распределений, представляет методы проведения анализа чувствительности и неопределенности. Также в книге рассматриваются различия между непрерывными, региональными и дискретными данными, преимущества и недостатки детерминированных и статистических моделей. Первая (вводная) часть книги Statistical approach to GIS data Analysis (Статистический подход к анализу данных ГИС) с массой поясняющих иллюстраций и ее содержание доступны в виде отдельных PDF-файлов.

Обе книги выпущены издательством Esri Press. Кроме того, несколько бесплатных вэбинаров и учебных руководств доступны в учебном центре Esri (Esri Virtual Campus: www.esri.com/training/main), на сайте ресурсов по ArcGIS (resources.arcgis.com). В блоге GISandScience.com также есть несколько познавательных ресурсов, дающих общее представление о пространственной статистике и пространственном анализе.


Книга «Анализ данных с помощью пространственной статистики для пользователей ГИС» Константина Криворучко, до Esri работавшего зав. лабораторией в Международном экологическом университете (ранее институт радиоэкологии) им. А.Д. Сахарова (Минск, Беларусь)