«Русский язык и новые технологии» составитель Гасан Гусейнов
Башкирский сегмент Интернета: семиотика и лингвистика (отрывок)
Некогда Интернет был создан как единая компьютерная сеть, главным достоинством которой была глобальность. Гипертекстовый принцип предполагал, что, пройдя по ссылке, с любой страницы можно попасть на любую другую страницу. В нем не было государственных границ, а до определенного момента и языковых барьеров, потому что страницы можно было создавать только на одном языке, английском, и в единственной — латинской — графике.
Большая часть этих качеств Интернета сохраняется и по сей день, но по мере развития технологий, добавления новых кодировок и шрифтов, по мере роста всей конструкции и числа пользователей внутри глобальной Сети постепенно возникают естественные локальные образования. Наиболее очевидное деление, заложенное в самой архитектуре Интернета, — это деление сайтов на группы в зависимости от так называемых доменных имен первого уровня. Например, сайты, как первоначально предполагалось, коммерческой тематики, адрес которых заканчивается на «.com», привычно называются «доткомами» и выделяются в специальную группу, которая уже имеет свою новейшую историю[1]. Доменная зона «.ru» также получила свое имя — Рунет. Но со временем это слово приобрело расширительное значение и теперь понимается не столько как перечень сайтов, зарегистрированных в доменной зоне «.ru», сколько как сообщество людей, которые пишут и читают в Интернете на русском языке, и систему используемых ими сетевых сервисов (они могут иметь какое угодно доменное имя). Внутри этого сообщества быстро сформировались свой этикет общения, набор прецедентных текстов и прочие элементы культурного языка, активно изучаемого сейчас лингвистами, культурологами и антропологами.
По аналогии с Рунетом появились и другие понятия, распространяющиеся на сообщества, которые не связаны напрямую с доменами первого уровня. Например, вполне устойчивым и употребительным понятием является «Татнет», то есть татарский сегмент Всемирной паутины[2]. Татарстан пока не имеет собственной доменной зоны, так что в данном случае приняты другие принципы идентификации. Прежде всего это язык сайта или его географическая привязка. Последнее в Интернете более чем условно: сайт, созданный программистом, живущим в одной стране, и посвященный проблемам другой, может работать на сервере, физически располагающемся в третьей. Какая из этих географических точек будет определяющей, сказать сложно. Как уже говорилось, Интернет по-прежнему не имеет государственных границ. Так что, по сути, язык сайта остается единственным надежным критерием отнесения его к той или иной подсистеме Сети.
Ввиду малого объема и числа пользователей башкирским Интернетом до сих пор не интересовались. Никто не пытался рассматривать Башнет как нечто целое. Между тем такое явление существует и требует своего систематического осмысления.
Собственно, аналогичным образом можно охарактеризовать исследовательский интерес к практически любой «национальной» области Интернета, если речь идет о миноритарном языке. Трудно судить даже об объемах таких сегментов. Вероятно, некоторое представление об их размерах могла бы дать Википедия на соответствующем языке. К примеру, на странице статистики данной интернет-энциклопедии на конец января 2012 г. можно было получить такие цифры: каталанский — 370 279 статей, валлийский — 35 614, бенгальский — 23 211, шотландский (гэльский) — 9792, нижнесаксонский — 4741. Для сравнения: для энциклопедий на некоторых российских национальных языках эти цифры выглядят так: якутский — 8132, удмуртский — 3066, кабардино-черкесский — 649. Для башкирского этот показатель составляет 15 935.
В то же время количество статей — весьма условный показатель. В качестве отрезвляющего примера можно привести историю Википедии на несуществующем «сибирском» языке, открытой для чтения и редактирования с октября 2006 по ноябрь 2007 г. Этот раздел энциклопедии содержал 7100 статей. При этом сама Википедия была на тот момент чуть ли не единственным сайтом, размещавшим материалы на «сибирском» языке, и ее размер никак не отражал реальный объем «Сибнета».
Мы попытаемся дать системную характеристику Башнета на основе материала, который получен нами в результате нескольких измерительных операций, осуществленных автоматическим способом.
Под Башнетом мы будем понимать совокупность доступных в сети Интернет текстовых документов, написанных на башкирском языке. Разумеется, это понимание неполное, потому что в него следовало бы включить и разнообразные мультимедийные ресурсы (аудио и видео). Однако наше определение операционально: продуктивные методики автоматического анализа мультимедиа нам пока недоступны, в то же время текстовые документы способны вполне адекватно отразить тематический, жанровый и лингвистический состав этого сегмента Сети.
Кроме того, говоря о национальном Интернете, в его объем включают этноориентированные сайты, созданные на других языках (главным образом на русском). Этот класс документов нами также не рассматривается, потому что он не позволил бы сосредоточиться на собственно лингвистической проблематике.
Прежде всего, характеризуя Башнет, следует сказать о его величине. По нашим данным, на конец января 2012 г. объем башкирского сегмента составляет 66 199 страниц[3]. Примечательно, что эта величина не находится в линейной зависимости от численности говорящих на башкирском языке. Для того чтобы сделать такой вывод, достаточно сравнить полученные данные с объемом Рунета. Постоянно растущий (и ускоряющий темпы роста) Рунет составлял на февраль 2004 г. 42 857 110[4] документов, на декабрь 2005 г. — приблизительно 253 8106 документов [Сегалович и др. 2006], на осень 2009 г. — 382 5 106 страниц [Контент Рунета]. Таким образом, по самой грубой оценке, современный объем Рунета не может быть менее 5 млрд документов, то есть разница с объемом Башнета составляет 5 порядков. Оценить количество русскоговорящего населения Земли крайне сложно, поэтому мы возьмем за основу население России, принимая в качестве исходной посылки, что все жители России владеют русским языком, и помня, что это будет сильно заниженная оценка (особенно учитывая то, что русские, как известно, являются самым крупным разделенным народом Европы). По оценке Росстата, население России на 1 января 2012 г. составляет 143 030 106 человек [Росстат. Демография]. При этом число говорящих на башкирском языке в Российской Федерации в 2002 г., по данным переписи, составляло 1 379 727 человек3. Таким образом, разница в числе говорящих составляет два порядка (и не более, потому что число носителей русского языка в любом случае не достигает миллиарда, но и не менее, потому что с 2002 г. количество носителей башкирского языка не уменьшилось до менее чем миллиона).
Разумеется, Интернет — это особая область проявления языковой компетенции. Помимо числа говорящих для количественной оценки этой сферы имеет значение и число пользователей Интернета среди носителей языка. Президент Башкортостана Рустэм Хамитов в своем блоге в записи от 30 сентября 2011 г. назвал следующие цифры: «В республике только чуть более 30 % населения постоянно пользуются интернетом. В России — около 40 %»[5]. Таким образом, доля пользователей среди русскоговорящего и башкироговорящего населения сопоставима, а вот пропорции к числу сайтов на этих языках — нет.
Ясно, что пользователей Интернета больше среди городских жителей, чем на селе. «Последними переписями населения (1979, 1989 и 1994 гг.) в городах Башкортостана зафиксирован устойчивый рост численности башкир (соответственно 12,1 %, 14,5 %, и 14,9 % городского населения). По переписи 1989 г., 42,3 % всего башкирского населения республики проживает в городах, причем, по прогнозам демографов, в следующем столетии больше половины башкир будут городскими жителями» [Киекбаев 1998: 9]. По данным переписи 2002 г., доля городских башкир составляла 42,4 %, доля сельского населения — 57,6 % [Хомай].
Таким образом, несмотря на рост потенциальных пользователей Интернета среди башкир, Башнет остается крайне ограниченной областью Всемирной сети.
В проведенном нами замере участвовало 30 доменных имен. Это не выборка, а более-менее полный перечень сайтов, которые вообще содержат тексты на башкирском языке. При этом благодаря исследованию А. Тутубалина известно, что на 2008 г. в Уфе был зарегистрирован 1001 домен [Тутубалин]. Теперь очевидно, что лишь мизерная их доля используется для нужд Башнета.
Многие из обследованных сайтов являются дву- (и более) язычными. Они содержат тексты как на башкирском, так и на русском и на английском языках. Таким образом, строго говоря, исследовались не все страницы этих 30 сайтов, а только те, которые содержат башкирские слова. Нахождение именно башкирского текста на интернет-странице представляет собой некоторую техническую проблему, от решения которой зависят конечные статистические данные. Самым простым этапом является отделение английского текста от всех остальных. Очевидно, что текст, написанный латинскими буквами, не является башкирским, и на этом основании его можно отсечь сразу. Иная ситуация с дифференциацией русского и башкирского языков, так как они оба используют графику на основе кириллицы. Использовать подключаемые словари или иную подобную методику распознавания языка было признано неэффективным: живой язык (а тем более язык Интернета) всегда больше и разнообразнее любого словаря. В качестве рабочей гипотезы было принято, что в строке башкирского текста будут обязательно присутствовать слова, содержащие специфические для башкирской графики и отсутствующие в русском языке буквы: . Только такие строки и брались для расчета.
Показательно, что в Рунете, по данным компании «Яндекс» на 2009 г., опубликовано около 2,3 трлн слов [Контент Рунета]. Методика подсчета специалистов «Яндекса» такова, что Башнет входит в эту цифру. По нашим данным, в Башнете содержится 27 252 251 слово. Таким образом, разница в объемах Рунета и Башнета в словоупотреблениях будет составлять те же 5 порядков, что и при сравнении страниц.
Литература
Башкортостан 1996 — Башкортостан: Краткая энциклопедия.
Уфа: НИ Башкирская энциклопедия, 1996.
Киекбаев 1998 — Киекбаев М. Дж. Башкиры в городах Башкортостана: история и современность (опыт историко-этнографического и этносоциального исследования). Уфа: Нур—Полиграфиздат, 1998.
Контент Рунета — Контент Рунета: [Инф. бюллетень компании «Яндекс»:] [Электрон. ресурс:] http://company.yandex.ru/researches/ reports/ya_content_09.xml.
Кронгауз 2007 — Кронгауз М. А. Русский язык на грани нервного срыва. М.: Языки славянских культур, 2007.
Ляшевская, Шаров 2009 — Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка на материалах Национального корпуса русского языка. М.: Азбуковник, 2009.
Росстат. Демография — Росстат. Демография: [Электрон. ресурс:] http://www.gks.ru/wps/wcm/connect/rosstat/rosstatsite/main/population/ demography.
Сегалович и др. 2006 — Сегалович И. В., Зеленков Ю. Г., Нагорнов Ю. Г. Методы сравнительного анализа современных поисковых систем и определения объема Рунета // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Восьмая Всерос. науч. конф. Суздаль, 17–19 окт. 2006 г. Суздаль, 2006: [Электрон. ресурс:] http://download.yandex.ru/company/paper_76_v1.pdf.
Сибгатуллин 2008 — Сибгатуллин А. Татарский Интернет. Нижний Новгород: ИД «Медина», 2008.
Сиразитдинов 1995 — Частотный словарь языка произведений Даута Юлтыя / Сост. З. А. Сиразитдинов / УНЦ РАН; АН Респ. Башкортостан. Уфа: Гилем, 1995.
Сиразитдинов 1997 — Сиразитдинов З. А. Частотный словарь башкирского языка. Т. 1 (Наука). Уфа: Гилем, 1997.
Сиразитдинов 2002 — Сиразитдинов З. А. Частотный словарь башкирского языка. Т. 2 [указано: Т. 1] (Проза). Уфа: Гилем, 2002.
Тарасенко 2000 — Тарасенко В. В. Антропология Интернет: самоорганизация человека кликающего // Общественные науки и современность. 2000. № 5. С. 111–120.
Тутубалин — Тутубалин А. Рунет в марте 2008 года: домены, хостинг, география сайтов: [Электрон. ресурс:] http://www.rukv.ru/ runet-2008.html.
Хомай — РОО «Хомай — Народные традиции Башкортостана»:
[Электрон. ресурс:] http://homay.ru/traditions/4.
[1] В 2000 г. произошел печально знаменитый «крах доткомов» — масштабный кризис в интернет-секторе экономики, который сопровождался обвалом акций сетевых компаний, регистрировавших свои сайты в доменной зоне «.com».
[2] Существуют и статья «Татнет» в Википедии (http://ru.wikipedia.org/?oldid= 39263025), и специально посвященная предмету вышедшая двумя изданиями книга Айнура Сибгатуллина «Татарский Интернет» [Сибгатуллин 2008].
[3] Весь объем сайтов, которые публикуют тексты на башкирском языке, составляет 87 462 страницы, из них 21 263 не содержат башкирских текстов.
[4] Данные Росстата: http://www.perepis2002.ru/ct/doc/TOM_04_04.xls.
[5] http://blog-rkhamitov.livejournal.com/44543.html.