Прогнозирование местообитаний морских водорослей: ArcGIS и Машинное обучение

Орхан Айдин, компания Esri

Seagrasses Grow: ArcGIS and Machine Learning

 


Машинное обучение (МО) становится неотъемлемой частью нашей жизни, например, помогая подсчитать количество шагов, пройденных за день, или предсказывая будущую цену нашего дома. МО является новым подходом, предназначенным для понимания вселенной на основе выявления закономерностей на основе данных и прогнозирования возможных исходов без использования эмпирических моделей. В Esri мы фокусируемся на реализации полного потенциала данных, имеющихся в распоряжении пользователя, используя науку о местоположении (The Science of Where). Пересечение областей ГИС и МО является новой отправной точкой для изучения и более глубокого понимания пространственных данных. При этом используется множество способов интеграции этих мощных технологий для получения ответов на вопросы, которые ранее казались необъяснимыми. Так, недавно был проведен анализ для прогноза местообитаний водорослей путем задействования часто используемых библиотек МО в sci-kit learn, (ресурс для разработок под МО в среде Python) а также мощи средств пространственного анализа в ArcGIS.

Почему нас так волнуют морские водоросли

Произрастающие на морском дне водоросли играют важную роль в нашей жизни, в том числе и в сражении с глобальным потеплением (рис. 1). По сравнению с наземными тропическими лесами, они могут поглотить в 100 раз больше двуокиси углерода. Но несмотря на столь значительную роль морских водорослей, проведение экспедиций в каждый затерянный уголок океана для их тщательного изучения не представляется возможным. Мы задались целью построить модель прогноза наличия/отсутствия и состояния водорослей, которая может быть полезной при изучении их роли в глобальной экосистеме.

Рис. 1. Эти произрастающие на морском дне водоросли играют важную роль в противостоянии глобальному потеплению.

Как можно спрогнозировать места произрастания морских водорослей

Придонные морские водоросли обычно встречаются в неглубоких областях вдоль береговых линий по всему миру. Нам известны некоторые общие характеристики мест произрастания водорослей, например, температура океана, соленость и содержание питательных элементов. Кроме того, у нас имеются глобальные данные для каждой из этих характеристик, полученные из набора данных морских экологических единиц (Ecological Marine Units dataset), доступного через Esri. Мы также можем использовать общедоступные детальные данные по морским водорослям из морского кадастра США (https://marinecadastre.gov), которые покрывают всю береговую область страны (рис. 2). Эти данные мы используем в качестве нашего обучающего набора данных. Общий рабочий процесс таков: 1) точная оценка океанических условий между измеренными значениями, 2) построение модели машинного обучения для поднабора данных вдоль берегов США с помощью метода классификации Случайный лес (Random Forest), 3) проверка точности модели с помощью других данных, и 4) выполнение прогноза глобального произрастания морских водорослей.

Рис. 2. Морские водоросли у берегов Флориды, фрагмент интерактивной карты.

Использование кригинга для создания глобального набора данных

Глобальные данные океанических параметров (таких как температура, соленость, содержание элементов питания и минералов) доступны лишь по отдельным местоположениям, но нашей задачей является прогноз наличия морских водорослей в любой точке мирового океана. Поэтому мы начнем исследование с использования доступного в ArcGIS мощного инструмента пространственного анализа Эмпирическй байесовский кригинг
(ЭБК) для интерполяции дискретных данных измерений океанических параметров в статистически корректные непрерывные поверхности. Формирование такого непрерывного глобального набора данных позволит нам протестировать модель, выполняющую прогноз наличия морских водорослей на основе океанических параметров у побережья США, и в итоге выполнить прогноз мест их произрастания для всего мира (рис. 3).

Рис. 3. Глобальный оценка пригодности основных мест произрастания морских водорослей.

Теперь, когда у нас есть все необходимые данные, мы будем использовать классификатор Случайный лес для моделирования отношений между океаническими параметрами и наличием морских водорослей. Вы можете отслеживать весь процесс выполнения анализа, а также получать детальную информацию о решениях, стоящих за этими методами, о параметрах и многом другом, рекомендуем также пользоваться преимуществами ресурса arcpy package (этот пакет обеспечивает множество простых и удобных элементов для работы в среде Python), еще одной замечательной опцией для такого типа интеграции является библиотека ArcGIS API for Python.

Примечание 1: Поскольку следующим шагом нашего анализа является использование классификатора Случайный лес для прогноза произрастания морских водорослей в мировом масштабе, мы подумали, что будет полезно описать, хотя бы в виде концепции, что это означает в контексте нашего анализа.

Случайные леса используют деревья решений для классификации и прогноза. Это широко используемая методика в МО, поскольку для этого требуется небольшое число входных параметров, что делает их доступными для большинства пользователей, что иллюстрирует рисунок 4.

Рис. 4. Иллюстрация дерева решений для классификации в контексте прогноза морских водорослей.


Обучающие данные для этой иллюстрации показывают, что морские водоросли всегда растут в условиях, когда температура воды имеет значение выше 10 градусов Цельсия. Однако, если температура ниже 10 градусов, то вступает в силу влияние солености на рост водорослей. Хотя деревья классификации предоставляют гибкий и мощный способ выполнения прогноза и классификации, они обычно страдают от слишком сильного упрощения данных. Это означает, что они прекрасно подходят для прогнозирования по конкретному набору данных, но могут возникнуть затруднения с прогнозом или классификацией других данных. Классификатор Случайных лесов преодолевает данное ограничение, создавая множество деревьев решений для случайно выбранных поднаборов данных. Поэтому, для выполнения классификации, вместо одного дерева классификации используется множество деревьев. Необходимо учитывать, что реальный анализ использует деревья решений, включающих дополнительные переменные, специфичные для этого анализа.

Итак, первым шагом нашего анализа Произвольного леса является обучение модели на поднаборе наличия морских водорослей в США, а затем тестирование производительности модели с использованием остальных данных. Мы были потрясены тем фактом, что наши результаты показали точность 97,8%!

Примечание 2: Даже учитывая точность 97,8%, нам необходимо обдумать, возможно ли применение созданной модели ко всему набору данных. Как и любая статистическая модель, инструмент Случайный лес имеет свои ограничения. И хотя он является мощным средством интерполяции, в то же время он не является хорошим экстраполятором. Поэтому мы не можем точно предсказать области, в которых океанические условия будут соответствовать подобным условиям вдоль берегов США. Чтобы разобраться с данным ограничением, мы исключим области, близкие к полюсам, которые не попадают в ограничения, применяемые к обучающим данным.

В итоге, мы выполнили прогнозирование, и для лучшего понимания пространственных закономерностей произрастания морских водорослей была создана поверхность плотности, основанная на полученных результатах (рис. 5). То есть, можно считать нашу цель достигнутой.

Рис. 5. Глобальный прогноз местообитания водорослей, фрагмент интерактивной карты.

Пересечение областей ГИС и МО

Данный рабочий процесс иллюстрирует аналитическую мощь взаимодействия ГИС и Машинного обучения (МО) при решении сложных пространственных задач. Пересечение областей ГИС и МО дарит нам возможности лучшего понимания сложных проблем, получения преимуществ от обработки огромных объемов пространственных и пространственно-временных данных, собранных внутри наших организаций и полученных от мирового сообщества. Мы в Esri активно работаем над созданием инструментов, которые помогут вам интегрировать существующие методы и технологии, а также снять всевозможные ограничения, мешающие машинному обучению стать полностью пространственным.

Эта статья размещена в блоге Esri, ее автор Орхан Айдин (Orhun Aydin), исследователь и инженер-разработчик группы пространственной статистики. Он увлечен созданием методов, которые применяют подход «Где» для понимания «Почему и Как».

Дополнение. Недавно компания Esri запустила новую веб-страницу по взаимосвязи ГИС с искусственным интеллектом и машинным обучением, где, в числе прочего, доступна электронная книга (см.: Putting AI and Location Intelligence to Work) с описанием текущих трендов и наглядных практических примеров совместного использования этих технологий в разных бизнес-проектах и исследованиях.