Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался на текст Библии, Элдридж — на текст газетных статей, другие авторы — на выборки из различных писем. Да и объем исследуемого материала был невелик. В двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж начинают работу над серией больших частотных словарей английского языка. Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного словаря. Обработав различные тексты общим объемом в восемнадцать миллионов слов, ученые привели в своем словаре тридцать тысяч слов, которые встретились в этих текстах.
В настоящее время частотные словари созданы почти по всем европейским языкам. Словарь испанского языка, составленный Гарсиа Осом, создан на основании подсчетов четырехсот тысяч слов; словарь чешского языка — одного миллиона двухсот тысяч слов, польского — семи миллионов, французского — полутора миллионов и т. д.
Пришел черед и для частотного словаря русского языка. В настоящее время составлено пять таких словарей.
Пять частотных словарей
Интерес к русскому языку возрастает во всем мире. Русский учат в США и Анголе, в Японии и на Кубе, в Финляндии и Монголии, в Канаде и Эфиопии. Сколько же слов надо знать иностранцу, чтобы читать произведения русской классики? вести деловой разговор? объясниться с прохожим, приехав гостем в СССР?
Мы уже говорили о картотеке Института русского языка, где зарегистрировано четыреста сорок тысяч слов. В семнадцатитомном «Словаре современного русского языка» приводится сто пятьдесят тысяч различных слов. Вряд ли целесообразно иностранцу, решившему постичь великий и могучий русский язык, заучивать все эти слова, которые в полном объеме неведомы и русским людям. Ему нужен на первых порах минимум, слова самые употребительные, самые частые.
В 1953 году в американском городе Детройте выходит в свет первый частотный словарь русского языка. Его составитель Г. Г. Джоссельсон использовал тексты общим объемом в один миллион слов. Но так как основным материалом для анализа Джоссельсон взял произведения дореволюционных писателей, то в список часто употребляемых слов попало слово
барини другие подобные ему умершие в социальном смысле слова. Да и методика обработки материала была несовершенной. Короче говоря, словарь этот не отражал реальной картины современного русского языка и был лишь первым опытом.
Десять лет спустя в Таллине вышел «Частотный словарь современного русского литературного языка», составленный Э. А. Штейнфельдт на основании обработки четырехсот тысяч слов.
Однако и этого словаря оказалось недостаточно. Объем текстов, взятых для словаря Штейнфельдт, был невелик. Причем четвертую часть его составляли произведения детской литературы. Естественно, это повлияло и на общую картину: в список частых попали такие слова, как
пионер, штаби т. п.
В 1966 году университет штата Огайо выпустил частотный словарь «разговорного русского языка». Составлен он был на основании обработки пьес. Мы же, как известно, далеко не всегда говорим так, как персонажи пьес классических и даже современных. Вот почему университет дружбы народов имени П. Лумумбы в Москве выпустил в 1968 году свой словарь, более точно отражающий разговорную лексику. В словарь вошло две тысячи триста восемьдесят наиболее употребительных слов русской разговорной речи.
Наконец настал черед и монументального «Частотного словаря русского языка». Такой словарь был издан в нашей стране в 1977 году и занял почти тысячу страниц. Его составителями были сотрудники филологического факультета Ленинградского университета и лаборатории семиотики НИИ прикладной математики и кибернетики при Горьковском университете. С помощью ЭВМ они обработали тексты объемом в миллион слов,
В словаре в алфавитном порядке от союза
адо прилагательного
ящичныйприводится около сорока тысяч различных слов, встречавшихся в тексте. Рядом со словом дана его частота, сначала общая, а затем по основным четырем категориям, на которые были разделены все тексты (художественная проза; драматургия; научные и публицистические тексты; газетные и журнальные тексты). Тут же приведено и число разных текстов, в которых встречалось данное слово (ведь эта характеристика не менее важна, чем абсолютная частота, которая, как уже говорилось, может зависеть от специфики текста, сюжета и т. п.).
Вслед за алфавитно-частотным словарем идет частотный. Слова даны здесь в порядке убывания частот. На первом месте стоит предлог
в.Вместе со своим вариантом предлогом
воон встретился в текстах почти сорок три тысячи раз! На втором месте по частоте употребления идет союз
и,он встретился более тридцати шести тысяч раз. Отрицание
не— на третьем месте (около двадцати тысяч раз), на четвертом — предлог
на(свыше семнадцати тысяч). Местоимение
язанимает пятое место — оно встретилось в текстах около четырнадцати тысяч раз.
Верхнюю часть списка наиболее употребительных слов занимают предлоги, союзы, частицы, местоимения. Лишь в четвертом десятке этих слов появляется глагол
мочь,числительное
один,а на шестом десятке — существительное
годи прилагательное
большой.Зато потом эти части речи занимают львиную долю списка.
Текстообразовательная способность
Третья часть «Частотного словаря русского языка» посвящена статистическим данным. И статистика, приводимая в ней, нужна не только специалистам по математической лингвистике или теории вероятностей. Она имеет важное значение в практике, в отборе слов для изучения русского языка.
В текстах, объемом в миллион слов встретилось около сорока тысяч словоупотреблений. Но свыше тринадцати тысяч различных слов употреблены были всего лишь один раз, около шести тысяч — два раза. Ясно, что слова эти редкие, их нельзя включить в словари-минимумы. Столь же ясно, что слова, имеющие частоту в несколько тысяч, в эти словари должны быть включены обязательно. Легко провести черту между очень частыми и очень редкими словами. Но как провести ее между словами не очень частыми и скорее частыми, чем редкими? Сколько нужно слов для словаря-минимума?
Вопрос этот мы уже задавали в самом начале нашего рассказа. Теперь, когда вы узнали о частотных словарях, переформулируем его: какую часть слов из списка самых частых мы должны брать — сотню слов? тысячу? десять тысяч?
На помощь лингвистике вновь приходит статистика.
Обратимся к нашему «Частотному словарю русского языка». Первые десять слов (ничтожнейшая часть от общего числа различных слов) покрывают почти двадцать процентов всего текста. Первая сотня самых частых слов составляет лишь четверть процента словаря. Зато в тексте она покрывает свыше сорока процентов всех слов. Первая тысяча слов, два с половиной процента всех слов словаря, покрывает свыше шестидесяти семи процентов текста.
Около девяти тысяч слов встретилось в текстах десять и более раз. Слова эти составляют менее четверти всего словаря. Зато покрывают они более девяноста процентов текста. Остальные же тридцать тысяч слов не покрывают и восьми процентов всех текстов. Очевидно, заучивать эти тридцать тысяч слов нецелесообразно. Знание же слов с частотой «десять» и более позволит понимать практически весь текст.
Может быть, и в списке слов, имеющих частоты «десять» и выше, также можно сделать сокращения? Первая тысяча слов частотного словаря, будь то русский, испанский, английский, французский, немецкий или любой другой язык, покрывает значительную часть текста, Какую — зависит не только и не столько от конкретного языка, сколько от стиля, типа речи.
В английском языке тысяча самых употребительных слов покрывает около семидесяти процентов литературных текстов и свыше восьмидесяти процентов — научных. Во французском языке та же тысяча самых частых слов покрывает около восьмидесяти процентов литературных текстов и свыше девяноста — разговорной речи.
Но какими бы ни были вариации, ясно, что чем больше мы будем удаляться от «верхушки» частотного словаря, тем больше понадобится нам различных слов для покрытия (а стало быть, и перевода) текста.
Возьмем французский язык. Первая тысяча слов дала возможность покрыть свыше девяноста процентов разговорной речи. Но если мы добавим еще тысячу слов, то прирост будет равен всего четырем процентам. А следующие три тысячи слов увеличат покрываемость текста немногим более трех процентов.
Примерно та же картина получится, если мы возьмем другие языки или другие стили. В среднем первая тысяча самых частых слов покрывает около восьмидесяти процентов всего текста. Увеличение списка еще на одну тысячу дает прирост порядка шести процентов. Добавление следующей, третьей, тысячи позволит покрыть около трех процентов, четвертой — около двух процентов, пятой — немногим более одного процента текста.
«Пользуясь этими данными, можно разумно планировать введение лексики в ходе преподавания иностранного языка, — пишут советские специалисты, говоря о помощи, которую статистика и лингвистика оказывают преподаванию языков. — Так, если согласиться с тем, что за одно занятие учащиеся неспециального вуза могут усвоить 12–18 словоформ, то через 7—10 занятий они должны будут знать не менее 120 словоформ, покрывающих более чем 50 % текста. В этом случае учащийся должен узнавать и переводить по отдельности каждое второе слово неадаптированного текста данной специальности. Через 30–40 занятий учащемуся будет знакомо уже около 500 словоформ, покрывающих в среднем около двух третей всех словоупотреблений текста, а к концу первого учебного года учащийся сможет узнавать около 1000 словоформ, покрывающих около 80 % текста».
Словари, словари, словари…
В чем отличие частотного словаря от любого другого? Прежде всего в том, что вместе со словом в нем приводится и частота употребления этого слова в тексте. Слова могут идти либо в алфавитном порядке, либо по убыванию частот. В «Частотном словаре русского языка», как мы уже говорили, дается и алфавитный, и частотный списки. Частотный словарь может быть полным, когда в нем приводится список всех слов, встретившихся в тексте, и неполным, когда дается лишь список слов, встретившихся с определенной частотой. Так, алфавитный список «Частотного словаря русского языка» — полный, а частотный — неполный, он дает лишь список слов с частотой «десять» и более, остальные тридцать тысяч слов, менее употребительных, в него не включены.
Объем материала, который лег в основу словаря, в значительной мере влияет и на состав этого словаря. В зависимости от того, сколько тысяч или миллионов слов текста обследовалось — или просчитывалось на электронно-вычислительной машине — выделяют малые, средние и большие частотные словари (так, первые частотные словари английского языка были, безусловно, малыми, а словарь Торндайка и Лорджа, составленный по текстам в восемнадцать миллионов слов, относится, разумеется, к большим).
Однако на словарь влияет и стиль, и тематика, и жанр, и авторская принадлежность того или иного текста. Вот почему различают частотные словари устной и письменной речи, словари общие (вроде нашего «Частотного словаря русского языка») и отраслевые (например, Е. А. Калининой с помощью ЭВМ составлен частотный словарь русского подъязыка электроники). Есть словари отдельных произведений, как классиков, так и современных авторов. Составлены «персональные» частотные словари — Пушкина, Шекспира, Шевченко и других.
Не менее важно и то, что именно фиксируется в словаре: исходная форма слова, словоформа, то есть слово в различных грамматических формах, основа слова или словосочетание. В таких языках, как китайский, разница между словарем основ и словоформ практически неощутима. В английском языке она уже заметна. Когда же мы обращаемся к такому языку, как русский, где множество падежей, глагольных форм и т. д., различие между исходной формой слова и словоформой огромно. Например, частотный словарь русского подъязыка электроники, составленный по текстам в двести тысяч слов, дал свыше двадцати одной тысячи различных словоформ и менее семи тысяч слов!
Частоты, приводимые рядом со словами, также различны. Это может быть абсолютная частота, указывающая, сколько раз в тексте встретилось то или иное слово. Частота эта может быть относительной, выраженной в процентах или вероятностях (ведь объемы словарей могут быть разными, в зависимости от них различны и абсолютные частоты). Во многих словарях приводятся и другие числовые характеристики, например количество источников, в которых встретилось то или иное слово.
Наконец, словари могут различаться по способу анализа материала. Обычно их составляют на основании выборок. Так, для «Частотного словаря русского языка» брались отрывки из произведений различных авторов — писателей и драматургов, ученых и публицистов. В их числе были Ленин и Калинин, Леонов и Шолохов, Вавилов и Тарле, Тимирязев и Ферсман.
Однако есть и другой метод — сплошное расписывание текста. Именно так составляется словарь языка писателя. Подобного рода словари начали составляться давно. В них включаются все слова, которые употребил тот или иной автор в своих произведениях. Существует уже множество словарей, посвященных отдельным произведениям, например «Божественной комедии» Данте, «Неистовому Орланду» Торквато Тассо, «Улиссу» Джеймса Джойса и другим (кстати сказать, «Улиссу» принадлежит своеобразный рекорд по числу различных слов: если в «Божественной комедии» их пять тысяч восемьсот шестьдесят, в «Неистовом Орланде» — восемь тысяч четыреста семьдесят четыре, то Джойс ухитрился употребить почти тридцать тысяч разных слов в одном романе!)
Словарь языка писателя нетрудно сделать и частотным — для этого надо только указать, как часто употреблялось то или иное слово. Именно таким словарем является «Словарь языка Пушкина», выпущенный в нашей стране в четырех томах. В нем приводятся данные о том, сколько раз встречается то или иное слово в Полном собрании сочинений Пушкина, в каких именно произведениях, в каких значениях и грамматических формах.
Около шестисот тысяч слов содержат все пушкинские тексты. Из них двадцать одна тысяча двести слов — различные. Свыше ста раз встречается лишь семьсот двадцать слов. Зато один раз во всех пушкинских текстах употребляется шесть тысяч четыреста сорок различных слов, два раза — две тысячи восемьсот восемьдесят слов, три раза — одна тысяча восемьсот слов. Это — не «опровержимое и точное свидетельство богатства Пушкинского словаря, своеобразия его лексики.
Это, так сказать, общая статистическая картина. В последнее время в нашей стране появляются работы, в которых делается попытка на основании частотного словаря дать характеристику своеобразной модели мира, которая лежит в основе творчества каждого большого поэта. Большие поэты, как известно, проходят на своем пути этапы развития, вехи которых — поэтические сборники или поэмы. Сопоставление частотных словарей, составленных по отдельным сборникам, позволяет выразить в числах и точно сформулировать то, что интуитивно чувствует читатель.
Вот, например, сравнение частотных словарей по сборнику стихов Бориса Пастернака «Сестра моя жизнь» и Осипа Мандельштама «Камень» (сборники эти вышли почти одновременно и признаны едва ли не высшими достижениями в творчестве этих поэтов). Если откинуть все служебные слова, союзы и прочий «грамматический фон», то самым частым существительным у Пастернака является
ночь,вслед за ним идут слова
глаза, губы, звезда, сад.В «Камне» Мандельштама самое частое существительное —
Рим,затем
мир, сердце, печаль.
Еще более разительный контраст получается, если сгруппировать существительные по «смысловым полям»: природа, вещи, человек, культура и история. Слова, относящиеся к «полям» человек и вещи, употребляются обоими поэтами примерно одинаково. Но если у Пастер» нака «поле» природа включает половину всех слов, то у Мандельштама — менее тридцати процентов. И, наоборот, «поле» культура и история у Пастернака занимает три процента слов, а у Мандельштама — почти двадцать!
Смысловое «поле» флора у Пастернака содержит свыше сотни названий растений и слов, имеющих прямое отношение к растительному царству (грядка, шишка и т. п.). У Мандельштама в «Камне» лишь двенадцать названий растений. Пастернаковский «зоопарк» состоит почти из полусотни названий живых существ, от бациллы и стафилококка до ехидны и мамонта. Еще двадцать пять слов связаны с животным миром (рыба, гнездо, хвост и т. п.). Фауна Мандельштама бедней, всего лишь двадцать одно животное.
Сопоставление подобного рода смысловых «полей», частот отдельных слов и групп слов ярко показывает различие между моделью мира, запечатленной Пастернаком в сборнике «Сестра моя жизнь», где чувства человека слиты в неразрывное целое с окружающей природой, и моделью мира Мандельштама, выраженной в сборнике «Камень», где история и культура органически связаны с человеческим бытием. А если бы у нас был частотный словарь по произведениям Маяковского, написанных в ту же пору, когда писались «Камень» и «Сестра моя жизнь», мы бы наглядно убедились в том, что модель мира великого пролетарского поэта была совсем иной, она обращена была на революцию, опрокинувшую старый строй.
Стилистика и статистика
К сожалению, помимо многотомного «Словаря языка Пушкина» мы имеем лишь частотный словарь «Стихов о Прекрасной Даме» Блока, да два словаря, о которых только что шла речь выше. Вероятно, в недалеком будущем у исследователей будет достаточное число таких словарей. И тогда можно будет сопоставлять творчество различных поэтов одной эпохи (например, Блока и Брюсова, Маяковского и Хлебникова, Пастернака и Есенина, Мандельштама и Цветаевой, Багрицкого и Уткина), проводить сопоставление различных сборников и поэм одного и того же поэта (скажем, сопоставить «Сестру мою жизнь» не только с «Камнем» Мандельштама, но и с другими произведениями самого Пастернака — «Волнами», «Темами и вариациями», «Спекторским» и т. д.).
Не только на основании частотных словарей получаем мы возможность сделать доказательным то, что чувствуем лишь интуитивно, подсознательно. Методы статистики все шире проникают в литературоведение, поэтику, стилистику. С их помощью исследователи могут давать характеристику стилей различных авторов не только качественную, но и количественную.
Так, уже простой подсчет среднего количества слов в предложении позволяет характеризовать стиль того или иного писателя с помощью чисел. Как пишет советский математик Р. Л. Добрушин, «можно сказать: А. Н. Толстой предпочитает более длинные фразы, а А. И. Куприн — более короткие». А можно сказать и так: «Среднее число слов в фразе в произведении Толстого «Сестры» равно 11,9, а среднее число слов в фразе в произведении Куприна «Поединок» — 9,5». Разница будет примерно такая же, как если в одном случае ограничиться утверждением, что производство угля в Советском Союзе больше, чем в Англии, а в другом — привести конкретные цифры. Каждому ясна большая доказательность утверждения во втором случае».
Первую попытку применить статистику в литературоведении сделал почетный академик Н. А. Морозов, известный деятель «Народной воли», более четверти века проведший в одиночном заключении в Шлиссельбургской крепости. Правда, методика исследования его была несовершенна, что и отмечал крупнейший русский математик А. А. Марков сразу после выхода работы Морозова «Лингвистические спектры». «Только значительное расширение поля исследования (подсчет не пяти тысяч, а сотен тысяч знаков) может придать заключениям некоторую степень основательности, если только границы итогов различных писателей окажутся резко отделенными, а не обнаружится другое весьма вероятное обстоятельство, что итоги всех писателей будут колебаться около среднего числа, подчиняясь общим законам языка», — писал Марков в «Известиях Академии наук» в 1915 году.
Действительно, подсчеты показывают, что стиль отдельных писателей можно характеризовать статистически, употребление отдельных частей речи, типов предложений и т. д. подчиняется определенной вероятностной закономерности.
Приведем несколько примеров. На пятьсот знаменательных слов у Куприна приходится семьдесят семь глаголов, у Пушкина — сто десять, у Чехова — сто двадцать семь. В прозе Симонова на пятьсот слов приходится сто семьдесят существительных, сорок девять прилагательных, семьдесят три местоимения, сто одиннадцать глаголов. У Шолохова соответственно двести шестнадцать существительных, семьдесят семь прилагательных, тридцать девять местоимений, семьдесят семь глаголов.
Еще более характерны числа, говорящие о соотношениях между частями речи у того или иного автора. «Лермонтов видит и изображает мир, Действительность в большем разнообразии качественных характеристик, признаков, чем это делает Пушкин: в среднем у Лермонтова 39 имен существительных из каждых 100 получают признаки прилагательных, а у Пушкина таких существительных всего 25; значит, речь и мышление Пушкина предметнее, Лермонтова — «качественнее». О сходной особенности речи и мышления двух авторов говорит и соотношение «наречие — глагол»: в среднем у Лермонтова на 100 глаголов приходится 42 наречия, а у Пушкина — всего 26; а это означает, что речь и мышление Лермонтова активнее окрашивают воспринимаемые процессы, чем это делают речь и мышление Пушкина. Интересно и то, что соотношение «существительное — глагол» и «глагол — существительное и прилагательное» оказываются у Пушкина и Лермонтова статистически равными, что позволяет опровергать гипотезу об особой глагольности речевого стиля Пушкина», — пишет Б. Н. Головин в книге «Язык и статистика».
А вот какие интересные данные были получены после подсчета названий цветов у. разных авторов в их прозе и стихах. В стихах об Америке Маяковского на тысячу слов текста приходится восемь цветообозначений, а в прозе, говорящей о той же Америке, — только два слова на тысячу. В военной лирике Симонова названия цветов употребляются в восемь раз чаще, чем в его же рассказах военных лет.
Вездесущие числа
Мы уже говорили, что стиль каждого большого поэта и писателя имеет свои количественные характеристики. Они начинают служить филологам и литературоведам, позволяя решать спорные вопросы об авторстве с помощью чисел. Так, кстати сказать, решили давний вопрос «о дедушке Гомере»: был ли автором «Илиады» один человек или же, как полагали многие специалисты, «Илиада» — сборник героических песен, лишь по традиции приписываемый великому слепцу.
Текст «Илиады» набили на перфокарты, затем ЭВМ тщательно проанализировала, то есть пересчитала все ритмические особенности каждой главы эпоса. Подсчеты машины неопровержимо показали: автором поэмы мог быть только один человек. Все главы «Илиады» сохраняют общее ритмическое единство.
С помощью чисел ученые начинают решать не толь» ко практические, прикладные задачи языкознания и литературоведения, но и многие теоретические вопросы, Например, определять степень заимствования одного языка из словарного запаса другого. Как известно, заимствуются обычно слова, обозначающие предметы быта, культуры, труда, которых не было ранее у того или иного народа (естественно, что вместе с предметом заимствуется и его название). Например, русское слово
спутниквошло во все языки мира, равно как французское
одеколон,арабское
жирафа,австралийское
бумеранги т. п.
Все языки мира равны, на любом из них можно выразить все, что выражено на другом языке. Заимствования не говорят о том, что тот язык, из которого заимствуются слова — лучший, а который заимствует — худший. Однако разные языки по-разному восприимчивы к этим заимствованиям. Удивительной консервативностью обладает исландский язык. Иностранные слова практически в него не попадают, а новому понятию или термин ну подбираются свои собственные определения, средствами самого исландского языка. И вот футбол по-исландски звучит как кнаттспурна, то есть пинание мяча; дыня — как троллепли (яблоко великана), мотороллер — это трещащая гадюка, кинофильм — живой образ, ракета — огненный полет и т. п.
Другие языки, наоборот, весьма восприимчивы к иностранным словам (вероятно, многие читатели знают о знаменитой полемике, которую вели в прошлом веке романтики и архаисты во главе с адмиралом Шишковым, предлагавшим калоши именовать мокроступами). В албанском языке, как показывают подсчеты, из пяти тысяч ста сорока слов собственными являются лишь четыреста тридцать слов, все остальные заимствованы из других языков. В армянском языке полторы тысячи слов из одной тысячи девятисот сорока заимствованы из персидского, греческого, сирийского, парфянского, арабского языков. В корейском языке до семидесяти процентов заимствований из китайского; в современном английском от пятидесяти до семидесяти процентов всех слов заимствованы из французского, латыни и другие романских языков.
Ученые смогли проследить динамику этих заимствований. Известный датский лингвист Отто Есперсен исследовал несколько томов «Большого Оксфордского словаря» английского языка, в котором собрано около полумиллиона различных слов. Вслед за ним А. С. Бо провел подсчеты по всем томам этого монументального издания. Оказалось, что если принять количество заимствований в течение 1100–1600 годов за сто процентов, то около шестидесяти процентов слов было заимствовано в 1100–1400 годах, около двадцати — в 1401–1500 годах и примерно столько же — в 1501–1600 годах.
Однако эти подсчеты говорят лишь о том, сколько слов дожило до нашего времени. Обычный словарь ничего не скажет, сколько слов французского языка не дожило, хотя они и были заимствованы в то или иное время англичанами. Тут на помощь приходят словари не простые, а частотные.
Еще в 1947 году американский ученый Дж. Ципф обнаружил любопытнейшую связь между частотой употребления слова и его «возрастом». Чем выше эта частота, тем древнее слово. И, наоборот, слова с незначительной частотой, как правило, появились в языке сравнительно недавно (вы можете легко проверить по «Частотному словарю русского языка», о котором мы рассказывали). Там, где не помогает традиционная методика подсчета заимствований, срабатывает новая методика — по частотным словарям. Вот какие цифры были получены на материале частотного словаря английского языка. Оказывается, с 1100-го по 1400 год не шестьдесят, а все девяносто процентов слов было заимствовано из романских. На другие два периода (1401–1500 и 1501–1600 годы) остается лишь по пяти процентов от общего числа заимствованных слов.
Была найдена и не менее интересная зависимость между временем появления слова в английском языке и его длиной в слогах. Почти половина всех односложных слов в английском языке имеет возраст в восемьсот и более лет. Такой же солидный возраст у двусложных слов, но уже не половины от их общего числа, а только одной пятой. Трехсложных слов этого возраста — три процента, четырехсложных — один процент. А среди пятисложных слов в английском языке нет ни одного, которое бы имело возраст в восемь столетий — все они моложе!
Быть может, связь между временем и словами языка (английского, русского или любого другого языка мира) выражается не только в устойчивости слов, имеющих разное число слогов, но и в изменении всего словаря? Или по крайней мере какой-то его части? Нельзя ли найти лингвистические часы, подобные «часам» геологическим, хронологическим, астрономическим, с помощью которых мы определяем время событий?
Эта мысль пришла в голову американскому языковеду Морису Свадешу по аналогии с методом датирования по распаду радиоактивного углерода. Лингвистическим часам был посвящен целый очерк в первом издании этой книги. Их называли «почти точным инструментом», позволяющим датировать события, о которых, казалось бы, не осталось никаких вещественных памятников или памятников письма. Как же смотрит наука на эту проблему в наши дни?
Лингвистические часы
Проанализировав скорость изменения нескольких языков и языковых семей, Свадеш нашел, что она равна примерно восьмидесяти двум плюс-минус два процента за тысячелетие. То есть в языке за тысячу лет сохраняется около восьмидесяти процентов слов, входящих в ядро, в основную лексику языка…
Так ли это? Свадеш проанализировал древнеегипетский, китайский, романские языки. Если ход лингвистических часов объективен, как часов радиоуглеродных, то, стало быть, близкие результаты можно получить и на материале любых других языков мира. Однако когда ученые стали проверять эту «среднюю константу скорости», взяв другие языковые семьи, оказалось, что она не является всеобщей.
Вот несколько примеров. По мнению археологов и лингвистов, единый праславянский язык стал распадаться в конце VI века до н. э. Однако подсчеты, проведенные по методу Свадеша, дали совсем иную дату. Русский и чешский языки, оказывается, разошлись четыреста-пятьсот лет назад, чешский и польский — двести-четыреста лет назад. Всякому, кто хоть немного знает историю своей страны и братских славянских народов, ясно, что эти числа смехотворно малы (более тысячи лет назад чехи имели и свою государственность, и свое письмо, и свой язык!).
Поразительно неубедительную дату получили по методу лингвистических часов, когда сравнили два скандинавских языка — старонорвежский и исландский, чтобы определить время их расхождения. Известно, что к 930 году завершилось заселение Исландии, в основном выходцами из Норвегии. Между тем лингвистические часы показали не тысячу и даже не полтысячи лет, а всего шестьдесят три — сто девяносто четыре года. На самом деле уже в прошлом тысячелетии исландцы имели и свой язык и свою литературу.
Правда, неточность хода лингвистических часов в этом случае можно оправдать той уникальной консервативностью исландского языка, о которой мы уже говорили выше… Ну, а славянские языки? Или, как показали исследования востоковедов, скорость изменения армянского языка, языков Средней Азии и ряда других, не соответствующая формуле Свадеша? Под вопрос стал сам метод датирования с помощью словаря, динамики изменения слов, его составляющих. Или, быть может, дело не в самом методе, а в лексике, тех словах, которые мы берем за эталон?