ArcGIS как инструмент визуализации данных из онлайн социальных сетей

Габдрахманов Н.К. (ngabdrahmanov@hse.ru), Бабкина Т.С.
Институт Образования НИУ ВШЭ, г. Москва

Online social networks data visualization with ArcGIS software

На основе обработки данных социальной сети «ВКонтакте» и использования инструментов геоинформационной системы ArcGIS показаны возможности пространственного анализа и картографического представления информации из образовательных сетей разных уровней.

Геоинформационные системы все чаще используются в качестве инструмента пространственного анализа в демографических и социальных исследованиях. В 2013 году в журнале ArcReview вышла одна из первых отечественных публикаций, посвященных возможностям использования ГИС в переписи населения [1]. Сегодня одно из наиболее распространенных направлений применения ГИС в сфере бизнеса, например, в ритейле – геомаркетинг и геоаналитика. Любой геомаркетинг строится на анализе размещения потребителей и поставщиков в определенных границах пространства. Поэтому сведения о населении, его качественных и количественных характеристиках являются наиболее востребованной информацией для дальнейшего анализа. При этом, до недавнего времени основным источником информации о социально-экономических, психографических и прочих характеристиках граждан являлись данные переписи и социологических опросов населения. Однако с появлением и быстрым проникновением в нашу жизнь социальных сетей появился новый источник подобной информации с достаточно высокой репрезентативностью и широким охватом.

Один из интересных проектов, который в основе своей использует данные социальных сетей и мощные возможности геоинформационных систем, – это масштабное коллективное исследование «Виртуальное население России», выполняемое под руководством Надежды Замятиной [2] (рис. 1).


Рис. 1. Главная страница проекта «Виртуальное население России».

В последнее десятилетие социальные сети настолько прочно вошли в повседневный образ жизни человека, что по данным из профилей в социальных сетях можно составить достаточно полную картину об интересующей личности или группе. Например, пользователи самой распространенной социальной сети в России «ВКонтакте» могут оставлять на своих страницах так называемые цифровые следы – данные об образовании, работе, текущем статусе, увлечениях, интересах, друзьях и прочих особенностях [3]. Те данные, которые находятся в открытом доступе, можно выгрузить в анонимном виде. Всё это дает новый виток в сборе и анализе информации в научных и практических целях. Конечно, к данным из социальных сетей следует относиться с некоторой осторожностью, так как они не являются официальным источником информации. В некотором смысле их можно сравнить с опросными данными: кто-то относится серьезно к участию в том или ином опросе, кто-то же оставляет умышленно искаженные данные, исходя из личных предпочтений и по другим причинам [4].

Прикладными и научными возможностями использования данных социальных сетей являются также исследования на их основе и их наглядное представление в виде разнообразных картографических продуктов, таких как карты политических мнений, карты благотворительности, гражданских интересов и настроений, разных аспектов образования и др. [5, 6]. Важное преимущество, которое дает информация из социальных сетей, заключается в том, что выгрузка такого рода данных может быть организована как непрерывный автоматизированный процесс. То есть мы можем получить актуальные и обновляемые данные, дающие реалистичную картину настоящего, и проводить сравнение в пространственно-временном контексте.

Большим потенциалом для подобных исследований являются данные о полученном образовании. Как известно, говоря о сфере высшего образования, можно также говорить в определенной степени о рынке – рынке образовательных услуг, в котором есть продукты (услуги), их потребители и поставщики. Поэтому сбор и представление данных о пространственном распределении потенциальных потребителей этих услуг и организаций, которые эти услуги могут оказать, являются одной из актуальнейших задач. Даже первичный анализ, сделанный нами с помощью инструмента «буфер» в ArcGIS, позволяет найти зоны концентрации университетов на карте России. В целом, размещение вузов соответствует «Главной полосе размещения населения», однако есть места, в которых абитуриенты оказываются в зоне так называемых «образовательных пустынь» (рис. 2).


Рис. 2. Пространственное распределение университетов и образовательные пустыни на карте России.

Информация из социальных сетей может являться источником данных и о потенциальных потребителях образовательных услуг. В частности, можно получить сведения о том, в какие высшие учебные заведения поступают выпускники определенной школы, определенного региона.

Так, на рисунке 3 показано распределение высших учебных заведений, в которых продолжают свое образование выпускники лицея №29 города Ижевска. Заметим, что выпускники этого лицея характеризуются высоким баллом ЕГЭ, что подтверждает высокое качество образования. Результатом этого является обширная география вузов, в которых выпускники лицея продолжают учебу. Многие из них продолжают образование в своем родном городе, но многие уезжают и в столичные города ближайших регионов, Москву и Санкт-Петербург (рис. 3).


Рис. 3. Распределение выпускников лицея №29 города Ижевск в вузах России; по данным социальной сети «ВКонтакте».

Для сравнения, на рисунке 4 показано аналогичное распределение высших учебных заведений для выпускников средней образовательной школы №40 города Ижевска. Видно, что география распределения выпускников данного образовательного учреждения значительно уже. В основном, они продолжают учебу в Ижевске, а незначительная часть – в Москве и Санкт-Петербурге.


Рис. 4. Распределение выпускников СОШ №40 города Ижевск в вузах России; по данным социальной сети «ВКонтакте».

Таким образом, можно говорить о существовании в пространстве университетов-«магнитов», которые выступают в качестве аттрактора (центра притяжения и концентрации) выпускников школ. Наиболее наглядным примером являются ведущие вузы России, участники «проекта 5-100», аттрактивная сила которых наиболее существенна. Для того чтобы точнее и полнее оценить эту аттрактивную функцию и представить результаты анализа в наглядном виде, наиболее удобным, на наш взгляд, также является развитый инструментарий ArcGIS. Используя принципы закона всемирного тяготения Ньютона, можно провести близкую аналогию с вузами. В данном случае, согласно упомянутому закону, аттрактивная функция вуза будет прямо пропорциональна произведению численности студентов искомого региона и региона донора и обратно пропорциональна квадрату расстояния между населенными пунктами. Используя инструменты, рассчитывающие географическую близость объектов (Анализ близости) и интерполяцию, мы с легкостью можем оценить «географическое тяготение» университета в заданном пространстве (рис. 5).


Рис. 5. Гравитационная сила Казанского федерального университета в Приволжском федеральном округе.

Сеть «ВКонтакте» является самой распространённой социальной сетью в России, объединяющей миллионы людей. Используемые нами данные были скачаны в обезличенном виде с помощью стандартных методов работы с API (интерфейс прикладного программирования) на базе Университетского консорциума исследователей больших данных [7]. Поиск осуществлялся по критерию школы, которую указал пользователь этой социальной сети. Затем у найденных пользователей была выгружена информация о первом высшем учебном заведении, в которое пользователь поступил сразу после окончания школы. Построение карты выбора высших учебных заведений, исходя из географического местоположения школы, позволяет нам получить представление об основных направлениях образовательной миграции молодежи. Аналогичную карту можно построить и для потенциальных абитуриентов – учеников, которые заканчивают среднюю школу в настоящем году. Таким образом, можно собирать информацию о количестве абитуриентов, их гендерном соотношении, их интересах к высшим учебным заведениям (через подписки в социальной сети «ВКонтакте»), образовательным дисциплинам и т.д.

Информация о географических перемещениях пользователя социальной сети дает возможность значительно углубить общее представление о современных образовательных миграциях – миграциях с целью получения дальнейшего образования (рис. 6). Отдельно взятый пользователь может обозначить все учебные заведения, в которых он учился, начиная со школы и закачивания высшим образованием, аспирантурой и трудоустройством. Фиксация и географическая привязка этой информации дают полную траекторию образовательной миграции, что практически нереально получить из сводных данных официальной статистики. Помимо сведений о полученном образовании цифровые следы пользователя включают в себя и его социальный профиль, который может быть использован в рамках исследований образовательных миграций и в других целях. Таким образом, данные социальных сетей и пространственный фактор размещения абитуриентов являются наиболее логичным массовым источником предварительной информации, в том числе для планирования приемной кампании вуза. Ведь в условиях нешуточной конкурентной борьбы за талантливую молодежь нужно оперировать актуальной и достоверной информацией.


Рис. 6. Охват выпускников школ рядом вузов России (МГУ, ВШЭ, САФУ, УрФУ, ТГУ, СВФУ).

В связи с этим, представляется весьма актуальной и востребованной задача сбора и сохранения сведений о пространственных перемещениях людей и характеризующих их дополнительных переменных, которые могут быть получены из социальной сети. В подобной поставке вопроса технология геоинформационных систем (ГИС) представляется наиболее удобным и эффективным способом организации, хранения, наглядной визуализации и разностороннего анализа таких наборов данных. Аналитические исследования, использующие уникальные возможности ГИС, имеют очевидный научный и прикладной потенциал и могут послужить удобным связующим мостом между данными из онлайн социальных сетей и вопросами образовательной (и отнюдь не только образовательной) миграции.

Литература

  1. Тимонин С.А., Анискина Т.А., Пьянкова А.И. Возможности использования геоинформационных технологий в переписи населения в России (2013). ArcReview 4(67). https://www.dataplus.ru/news/arcreview/detail.php?ID=11166&SECTION_ID=288
  2. http://webcensus.ru/о-проекте/
  3. https://vk.com/
  4. Casler K., Bickel L., & Hackett E. (2013). Separate but equal? A comparison of participants and data gathered via Amazon’s MTurk, social media, and face-to-face behavioral testing. Computers in Human Behavior, 29(6), 2156-2160.
  5. Замятина Н.Ю. (2012). Метод изучения миграций молодежи по данным социальных Интернет-сетей: Томский государственный университет как «центр производства и распределения» человеческого капитала (по данным социальной Интернет-сети «ВКонтакте»). Региональные исследования, (2), С. 15-28.
  6. Бабкина Т., Гойко В., Мундриевская Ю., Сухарева М., Богданов А., Мягков М. Траектория выпускников российских вузов на данных социальных медиа // в кн.: Управление развитием крупномасштабных систем MLSD’2018 Т.2: Секции 8-16. Институт проблем управления им. В.А. Трапезникова РАН, 2018. С. 489-491.
  7. http://opendata.university/ru/