Языковый картографический сервер

По статье в журнале ArcUser, январь-март 2006 г., и материалам доклада
на Всемирной конференции пользователей ESRI 2005 г.

Судя по имеющимся оценкам, сейчас во всем мире существует около 7000 языков. Однако основная масса людей, за исключением специалистов, ничего или очень мало знает о том, где именно на каком языке говорят. Важный шаг в заполнении этого пробела сделан в отделении лингвистики Стокгольмского Университета. Его сотрудники создали языковый картографический сайт на основе ArcIMS, демонстрирующий лингвистическое богатство в пространственном и физическом контекстах. Предложена новая методика картирования, а в качестве тестового полигона для ее проверки был выбран Кавказ.

Языковая картография сегодня

Превалирующий подход к языковому картографированию в виде бумажных атласов или разных электронных карт состоит в использовании полигонов для показа примерных границ отдельных языков или языковых групп. Но по ряду причин такая методика не пригодна для картирования большей части современных языков. Основные ограничения связаны с видимостью, особенно для малых языков, точностью показываемых местоположений и путями моделирования языковых областей с учетом географических перспектив. Подробное обсуждение этих тем было представлено в GISLI (GISinLinguistics – ГИС в Лингвистике) – Интерактивном Атласе Языков, исследовательском проекте, представленном в Шведский исследовательский Совет в 2005 г. Здесь представлен сокращенный вариант этого исследования.

Обратите внимание на следующую простую статистику из Ethnologue: Languages of the World – онлайновой базы данных по этнологии:

  • На Земном шаре говорят на 6912 языках.
  • Из языков мира только на 347 (около 5%) говорят более миллиона человек.
  • На оставшихся 95% языков мира говорит всего 6% населения Земли.

Таким образом, большинство языков мира можно отнести к «малым» с точки зрения числа говорящих на них людей. Малые языки представлены на традиционных картах наименее эффективным способом, а часто они и вовсе отсутствуют. Пример одной из лучших традиционных карт приведен на рис. 1. Эта карта Кавказа изначально была составлена Центральным разведывательным управлением США, а затем попала в коллекцию карт Техасского университета.


Рис. 1.
Традиционная карта языков Кавказа.

Данная карта передаёт реальное разнообразие населения и языков на Кавказе. Этот район весьма напоминает языковой пазл (картинку-головоломку). Однако и у этой карты тоже имеются ограничения по использованию:

  • Ее можно просматриваться только «как есть», на карте показано очень мало дополнительной информации.
  • Места распространения языков только примерные.
  • Добавление дополнительных сведений о нанесенных на карту языках приводит к информационной перегруженности изображения.
  • Языки, на каждом из которых говорит 50 000 человек и менее, за исключением рутульского, табарастана и сахура, на карте не показаны. А это существенное упущение, поскольку в этом регионе имеется более 20 таких языков.
  • На карте не показаны источники информации, поэтому её трудно проверить.

Например, область распространения рутульского языка (позиция 11 легенды) на этой карте показана не полностью, если сравнить с данными, приведенными в книге «Языки народов СССР» под редакцией Виктора Виноградова(1967). Согласно Виноградову, в Азербайджане есть еще несколько сел, где говорят по-рутульски. При их нанесении на карту распространение рутульского языка не будет представлять собой единый регион. По мнению авторов, языки, на которых говорят несколько тысяч человек и менее, должны наноситься на карту на уровне поселений. Это становится возможным с помощью ГИС, ведь связывание отдельных языков с определенными обжитыми местами – это процедура геокодирования языков.

Ограничения для полигонов

Помимо вопросов точности мест распространения и отображения информации о малых языках, использование полигонов для картографирования языков имеет другой серьёзный недостаток. Карта на рисунке 2 показывает Кавказский регион согласно сведениям картографической службы Global Mapping International (imf.geocortex.net/mapping/worldmap/launch.html). Эта карта использует тот же подход, что и предыдущая. Она даёт ложное представление, что языки и диалекты распространены дискретно с чётко определёнными границами. На самом деле, большинство лингвистов сейчас придерживается мнения, что точные границы распространения языка установить невозможно.


Рис. 2.
В этой картографической службе использован старый подход. Он дает ложное представление о том, что области распространения языков и диалектов дискретны и имеют чётко определённые границы. Большинство лингвистов считает, что установление чётких границ невозможно.

Другая серьёзная проблема касается языково-диалектного распознавания. Любой, кто имеет начальные познания в лингвистике, знает, что установление различий между языками и диалектами – один из важнейших вопросов науки о языках. Определение того, из чего состоит язык, обычно включает политические, культурные и прочие факторы. Различия редко базируются исключительно на лингвистических особенностях.

Уровень детализации, предоставляемый инструментами ГИС, делает возможным проектирование языковой картографической системы, которая будет достаточно гибкой для отображения не только различных видов деления отдельных языков и различных уровней группирования языков. Использование для обозначения языков и диалектов точечных файлов вместо полигонов позволяет обойтись без установления не существующих в реальности границ, что особенно актуально для малых языков, которых в мире большинство.

Пилотный проект: Малые языки Кавказа

Созданное авторами демонстрационное приложение ориентировано на малые языки Кавказа, позволяет рассмотреть этот во многом уникальный с точки зрения лингвистики географический регион, включающий Дагестан и смежные области юга России, Грузию, Азербайджан, Армению, северную часть Турции и Ирана. Живущие здесь люди говорят на более чем 60 языках четырёх языковых семейств: Индо-Европейское, Алтайское, Северокавказское и Картвельское на Южном Кавказе. Для публикации в картографической службе были геокодированы малые языки Северного Кавказа, на которых говорят не более 50 000 человек.

Основные сведения о картируемых языках были почерпнуты из энциклопедической работы Языки народов СССР. Информация о населённых пунктах взята из баз данных правительственных картографических служб США. Отсутствующие в них поселения были добавлены согласно российским топографическим картам советского периода. При несогласованности источников приоритет отдавался российским данным.

База данных приложения содержит информацию об отдельных языках, такую как диалекты, число носителей языка и места, где говорят на данном языке. Эта информация может быть легко связана с данными по этнологии и по населённым пунктам, а также с другими базами данных. База данных нормализована и построена таким образом, что дополнительная информация о языках и диалектах может быть быстро добавлена без необходимости перестройки имеющихся таблиц.


Рис. 3.
Разработанная авторами картографическая служба показывает этнолингвистические группы в Кавказском регионе.

Интерфейс картографической службы достаточно прост и удобен в использовании (рис. 3). На представленной карте на модели рельефа региона отображен слой данных по малым языкам северокавказского семейства. Картографическая служба позволяет отображать или скрывать следующие слои:

  • Группы высокого уровня северокавказского семейства языков
  • Отдельные языки
  • Основные города
  • Все населённые пункты
  • Политические границы
  • Растровые слои с топографической информацией

Нанесённые на карту языки перечислены вместе с их диалектами. Каждый диалект геокодирован (связан с определёнными поселениями). Языковые вариации могут отображаться на карте по трём уровням: языковые группы высокого уровня, отдельные языки и уровни диалектов.

Типичная картографическая Интернет-служба позволяет использовать такие функции как изменение масштаба, вывод на печать и сохранение изображения на локальном компьютере. Запрос к базе данных может быть отправлен с помощью кнопки Идентификация, функции Поиска по введенному тексту или через инструмент построения Запроса в виде выражения SQL или логического запроса. Процедуру запроса предполагается усовершенствовать и сделать более удобной для пользователей.

Технические подробности

В настоящее время и база данных, и картографическая служба установлены на компьютере под управлением Windows XP, планируется перенести их на отдельный сервер.

Для службы изображений используется вьюер HTML, работающий под управлением ArcMap ImageServer. Такой выбор имеет свои преимущества и недостатки в сравнении с использованием ArcIMS ImageServer. Преимущества состоят в том, что файлы конфигурации карты могут быть заданы в приложении ArcMap, имеющем более развитые картографические инструменты, чем ArcIMS Author. Недостаток такого подхода заключается в меньшем удобстве работы с таблицей содержания и легендой. Кроме того, функция вывода на печать не удовлетворила авторов и была временно исключена из панели инструментов.

Точечные шейп-файлы генерируются из базы данных Access и используются для представления языковых слоев. Другие слои в виде точечных шейп-файлов населённых пунктов и основных городов, а также полигональные шейп-файлы государственных границ и растровые изображения взяты из базы данных GlobalGIS DVD. Хотя, по техническим причинам, растровые файлы не включены в таблицу содержания, они отображаются в легенде.

Выводы

Языковый картографический сервер, представленный как демонстрационное приложение (см. http://ling-map.ling.su.se/website/, предоставляет многие преимущества, недоступные при использовании традиционных карт распространения языков. К его основным достоинствам можно отнести следующие:

  • Настройка содержания и вида представляемых карт согласно личным предпочтениям;
  • Места распространения языков и диалектов по возможности уточнены, приведены ссылки на источник/источники информации;
  • База данных и, следовательно, картографическая служба могут быть легко расширены, чтобы покрывать и показывать другие виды информации.

Необходимо отметить, что в настоящем приложении задействована лишь сравнительно небольшая часть функциональных возможностей, предоставляемых технологией ГИС. Тем не менее, оно наглядно показывает преимущества нетрадиционного подхода к картографированию распространения языков посредством ГИС. В настоящее время на этом веб-сайте представлены два проекта – по Кавказу и Аляске. Авторы в сотрудничестве с другими университетами предполагают расширить разработанную картографическую службу на основе ArcIMS на другие регионы мира.

Об авторах

Остен Даль (Osten Dahl, e-mail: oesten@ling.su.se) – профессор лингвистики Стокгольмского Университета. Одной из основных областей его научных интересов является языковая топология (сравнительное исследование структуральных особенностей языков мира), особенно местная топология, исследование географического распространения лингвистических особенностей и сил, под действием которых это происходит. Он является соавтором Всемирного атласа языковых структур, выпущенного издательством оксфордского университета в 2005 году. Он также является одним из редакторов подготавливаемого языкового тома Национального Атласа Швеции.

Люба Веселинова (Ljuba Veselinova, e-mail: ljuba@ling.su.se) получила степень доктора в отделении лингвистики Стокгольмского Университета в 2003 году. Её работа с системами ГИС явилась естественным продолжением исследований по топологии языков и разработке соответствующих баз данных, результатом длительного интереса к географии и языкам. Она также соавтор Всемирного атласа языковых структур. Сейчас она работает над ГИС-проектом по городской социолингвистике и планирует нанести на карту языки, на которых разговаривают в регионе Детройта, штат Мичиган.