Современная электронная библиотека ModernLib.Net

Звуки и знаки

ModernLib.Net / Кондратов Александр Михайлович / Звуки и знаки - Чтение (стр. 7)
Автор: Кондратов Александр Михайлович
Жанр:

 

 


Только для американцев со значением слова полисменсвязано нечто хорошее — сильное — активное. Для фламандцев оно плохое — сильное и пассивное, а для японцев — плохое — сильное — активное. Понятия поражение, бой, вор, преступление, опасностьдля американцев есть нечто плохое — сильное — активное, так же как для бельгийцев и финнов. Зато для японцев эти же слова нечто плохое — слабое — пассивное, а бой— нечто хорошее — слабое — активное!
      Комментарии, как говорится, излишни. Методы измерения значений лишний раз подтверждают, что язык создан обществом и для общества. Разные коллективы, носители разных языков по-разному оценивают значения слов, связанных с определенными культурными и общественными реалиями.

Сдвиг значения

      Если значение отдельных слов можно измерить, то нельзя ли выражать в числах и сочетания слов, их смыслов? Ведь говорим мы не отдельными словами, а предложениями…
      Казалось бы, на первый взгляд сделать это очень просто: надо суммировать значения отдельных слов, входящих в словосочетание. Однако такое элементарное сложение ничего не даст. Значения слов воздействуют друг на друга, они не являются некими кубиками, которые можно механически складывать и переставлять. Смысл сочетания слов исходи поискбудет противоположным, в зависимости от того, скажем ли мы исход поискаили же поиск исхода.А ведь слагаются эти выражения из одних и тех же смыслов слов!
      Возьмем три сочетания с прилагательным жестокий: жестокая судьба, жестокий ум, жестокое окно.Очевидно, что во всех этих сочетаниях значения слов согласуются по-разному. Жестокая судьба— устойчивое сочетание слов, смыслы их прочно спаялись в нашем сознании. Жестокий умзвучит несколько необычно, но все-таки приемлемо, например по отношению к холодному рассудительному человеку, бесстрастному аналитику сердечных чувств и т. п. Выражение жестокое окноосмыслить можно с большой натяжкой, посчитав это окно тюремным, забранным решеткой, или окном, о которое мы порезали руку…
      Во всех трех примерах значение слова жестокийменяется в зависимости от слова, с которым оно сочетается. Меняется в зависимости от слова жестокийи значение слов судьба, ум, окно.
      Нельзя ли, зная координаты смысла каждого слова, взятого в отдельности, измерить меру и степень этих значений? И, что еще более важно, измерить значение всего словосочетания?
      Когда два значения соединяются в одно, два слова — в словосочетание, то смыслы их как бы сдвигаются по направлению друг к другу. Степень такого сдвига будет зависеть от меры, от числа, которым выражено значение каждого отдельного слова, входящего в сочетание. Чем дальше друг от друга отстоят они, например по степени оценки, или силы, или активности, тем меньшим будет этот сдвиг.
      Слово судьбав измерении оценки получило минус один балл (то есть плохое). Слово жестокийоценено как очень плохое (минус три балла). Лингвисты, занимающиеся измерением значений, предложили специальную формулу, по которой можно вычислить сдвиг значения слов, входящих в словосочетание. Так, в нашем примере значение слова жестокийсдвинулось с минус трех до минус двух с половиной — на полбалла. А значение слова судьбас минус единицы сдвинулось до минус двух с половиной, то есть на полтора балла.
      Была предложена и формула, по которой можно вычислить значение всего словосочетания. Для примера с жестокой судьбой это значение будет равно минус двум с половиной баллам.
      Проверку формулы провели на очень интересном опыте. Исследователи взяли восемь существительных и восемь прилагательных, а затем составили из них все возможные сочетания. Значения этих шестидесяти четырех сочетаний прилагательного с существительным были вычислены по формуле сдвига значения и по формуле, определяющей значение словосочетания. А затем была проведена проверка на людях — живых носителях значений. Результаты теоретические и практические удивительно близко совпали.
      Правда, работы последних лет показали, что эти формулы скорее всего применимы лишь к парам «прилагательное— существительное». Сочетания же иных типов могут следовать другим законам сдвига значения.
      Так, например, было доказано, что совсем иной характер носит сдвиг значения, если сочетаются наречие и прилагательное. Если при вычислении значения пары прилагательное плюс существительное мы применяем сложение, то для измерения смысла пары наречие плюс прилагательное нужно переходить к умножению. Тем самым, кстати сказать, объясняется тот факт, что мы воспринимаем как бессмысленные сочетания вроде немного средний, чрезвычайно обыкновенныйи т. п. Прилагательные среднийи обыкновенныйоцениваются нулевым баллом. А умножение на нуль дает нуль: нулевой смысл прилагательного уничтожает смысл и наречия, которое входит с ним в сочетание.

Океан трудностей, гора проблем

      Мы рассказали об измерении значений, о тех интереснейших результатах, которые были получены. Теперь пора рассказать и обо всех стоящих перед исследователями трудностях, о спорном и нерешенном.
      Первая трудность — строгий выбор числа измерений смыслового пространства. В английском их три (хотя и это число оспаривается многими лингвистами, некоторые исследователи вели анализ по восьми измерениям значений). А сколько измерений в других языках? Пять? Два? Десять? Никто не может назвать язык с наименьшим или наибольшим числом измерений смыслового пространства, никто не может точно расклассифицировать языки мира на двумерные, трехмерные, пятимерные и т. д.
      Впрочем, и в английском языке, лучше всех изученном «измерителями значений», также много неясностей со смысловым пространством. Иногда трехмерное пространство смысла как будто теряет одно из своих измерений. Сила и активность прочно сливаются в одно общее измерение — динамизм. Порой же случается, что оно становится и вовсе одномерным, ибо сила и активность поглощаются оценочным измерением. Так что на сегодняшний день даже для английского языка можно с уверенностью назвать лишь одно надежное и выверенное измерение — оценочное.
      Но не только в этом заключаются трудности. По самой идее измерения значений эта операция должна быть обратимой: по заданным числовым признакам мы должны всегда разыскать слово, которое эти признаки описывают. На практике это далеко не так. А точнее — почти всегда не так. Попробуйте-ка догадаться, какое понятие описывают признаки «счастливый плюс один», «быстрый плюс два», «твердый плюс один»… Оказывается, речь идет о понятии отец!
      Или еще один пример. Слово имеет координаты смысла, выраженные в трех его измерениях числами + 1,09, —1,85 и +0,77… Что это за слово? Почти наверняка не догадаетесь: это слово миг.Между тем, если бы данные по шкалам не были так обобщены, мы могли бы догадаться. Ведь это слово оценивалось в опытах как очень короткое, очень маленькое, очень быстрое, хорошее, скорее простое и т. п. Но при сведении этих оценок в общую пропала их специфика.
      Кстати, еще один недостаток измерения значений, который можно показать на примере слова миг.Значение слов моменти мгновениепрактически одно и то же, что и миг.Однако же, по данным «Атласа смысловых профилей», расстояние между ними равно 0,3 –0,7 —1,0. Между тем слова, значение которых различается, находятся порой удивительно близко: смысловое расстояние между словами годи векравно трем десятым (а синонимы столетиеи векразделены одной и одной десятой).
      Вот еще один характерный недостаток: одинаковые расстояния разделяют пары самых различных слов. Судите сами, какие разнообразнейшие пары оказались разделенными показателями единицы: час — век, год — сезон, сутки — апрель, июль — час, июль — прошлое, месяц — время, береза — время, воскресенье — завтра, воскресенье — неделя, утро — завтраи т. п. Интуитивно нам ясно, что на самом деле значения слов годи сезонгораздо ближе, чем березаи время.А ведь именно эта интуиция носителя языка — главное в измерении значений, все остальное имеет вспомогательный характер, все эти «кубы данных», формулы и т. д. Значит, ошибаются они, а не интуиция!
      Возможно, что ряд ошибок вызван выбором пар прилагательных, через которые пропускалось слово, чье значение измерялось. «Когда на шкалах гладкий — шероховатый, высокий — низкий оцениваются понятия типа столб или гриб, шкалы применяются испытуемыми буквально; когда те же шкалы используются для измерения значений таких слов, как леди, грех, шкалы могут быть поняты только метафорически», — пишет Ю. Д. Апресян, давший вдумчивый и основательный разбор методики измерения значений, разработанной Осгудом. Получается, что приведенные выше пары прилагательных в различных словах измеряют разные значения, в одном случае прямое, буквальное, а во втором — образное, метафорическое. И примеры такого раздвоения значений можно увеличить: так, по-разному на шкале твердый — мягкийбудут оцениваться слова каменьи человек, деревои характер.
      Следует добавить, что слова в английском, как и в любом другом языке мира, очень часто имеют не одно, а несколько значений. В зависимости от того, на каком из этих значений остановится испытуемый, будет находиться и оценка. Например, слово Нге означает и огонь, и пожар. Очевидно, что оценка несущего тепло и свет огня будет резко отличаться от оценки губительного и опасного пожара.
      И все-таки, несмотря на все эти существенные недостатки, работы Осгуда и его сотрудников имеют большое значение, открывая перспективы дальнейших поисков, новых исследований. Ибо, как остроумно заметил один из крупных зарубежных лингвистов У. Вайнрайх, хотя ученые в своих поисках значения и не открыли нового пути в Индию, приобретенный ими опыт навигации может оказаться весьма полезным.
      Навигация в «страну значения» началась давно, и пионерами ее были специалисты по математической логике. Фраза «Венера — утренняя звезда» обозначает тот же объект, что и фраза «Венера — вечерняя звезда». Однако очевидно, что значение этих фраз различно… Что же это такое — значение? Этому вопросу посвящают десятки монографий и сотни трудов математические логики, специалисты по теории знаков, философы и математики. И с каждым годом становится все более ясным, что ключ к решению этой проблемы — анализ нашего обычного языка, во всей его внешней простоте и необыкновенной внутренней сложности.
      К анализу значения, смысла слов пришла и современная лингвистика. Ибо этого требовала сама логика развития науки о языке. Этого требуют, как вы, вероятно убедились и сами, насущные проблемы машинного перевода, информатики, реферирования литературы с помощью ЭВМ. Словом, к поискам значения привели задачи теории и практики языкознания второй половины двадцатого столетия. И в этих поисках наука о языке идет рука об руку с другими дисциплинами. Лингвист, стремящийся найти путь к измерению значений, обращается к ассоциациям, которые изучает психолог, а математическая статистика делает его выводы достоверными. Анализ значения потребовал создания новых разделов математики вроде теории нечетких множеств и толерантных пространств.
      Проблемой смысла занимаются в наши дни не только лингвисты, но и философы, психологи, логики, кибернетики, специалисты по теории знаков — семиотике. Слишком уж сложен и многомерен человеческий язык, главная задача которого — передача смысла.
      Недаром же именуют его семантическим кодом.

НАШ УДИВИТЕЛЬНЫЙ КОД

      Математическая теория связи позволяет измерять информацию с помощью точных чисел. О том, как теория информации находит применение в изучении человеческого языка, о сложности этого изучения расскажет очерк
      НАШ УДИВИТЕЛЬНЫЙ КОД

Формула Шеннона

      Для чего мы говорим? Что является целью всякого общения? Зачем в человеческом обществе существуют такие мощные и дальнобойные средства связи, как телевидение, радио, телеграф?
      Очевидно, для передачи сведений. Или, говоря другими словами, для передачи информации. Слово информацияимеет много значений. Но связистам, инженерам, техникам, математикам необходимо одно значение — точное и четкое. «Быстрое усовершенствование техники связи, рост потребностей в передаче информации, «кризис эфира», в котором «не умещается» информация, передаваемая в форме электромагнитных волн, — все это поставило очень остро проблему создания более экономных методов передачи информации», — пишет доктор физико-математических наук Р. Л. Добрушин в статье «Математические методы в лингвистике».
      А прежде всего необходимо было ввести точную меру, единицу измерения информации. Еще в 1928 году американский инженер Хартли предложил оценивать количество информации логарифмом числа возможных событий.
      Когда мы бросаем вверх монету, ясно, что она может упасть либо гербом, либо решеткой. Если мы бросаем игральный кубик, то неопределенность (или, как говорят математики, энтропия) исхода возрастает. Ведь с одинаковой вероятностью может выпасть любая из граней кубика, желанная шестерка столь же часта, как единица, двойка, тройка и т. д. Понятно, что сообщение о том, какой стороной упала монета, несет меньше информации, чем сообщение о том, сколько очков выпало при бросании кубика. Ибо информация — это то, что снимает неопределенность, то есть, попросту говоря, снимает незнание.
      Общепринятой единицей измерения информации считается бит или «да — нет» единица. Слово битпроисходит от сокращенных английских слов binary digest — двоичный разряд, так как для измерения информации в битах берутся не привычные нам со школьной скамьи десятичные логарифмы, а двоичные, основанием которых служит число 2.
      Известие о том, что подброшенная в воздух монета упала гербом, принесет нам информацию ровно в один бит. Ведь log 22 («орел» или «решка»?) равен 1, то есть одному биту. Известие о том, что выпала игральная карта трефовой, пиковой или другой из четырех мастей, принесет нам информацию в два бита, ибо log 24 = 2. Сообщение об исходе ситуации, где были возможны (и равновероятны!) восемь вариантов, даст информацию в три бита (log 28 = 3, или 2? = 8, а число битов и есть показатель степени числа два).
      Но эта мера удобна и верна лишь при условии, если все наши «выборы» равноправны, имеют одинаковую вероятность появления. И масть игральной карты, и любая грань кубика, и герб или решетка монеты выпадают с равной вероятностью. А как быть, если вероятности не равны?
      Хартли понимал, что вероятности исходов влияют на количество информации, которое несет сообщение. Почти невероятному исходу нельзя придавать такое же значение, как и самому правдоподобному. Но он считал, что различия между этими исходами нельзя выразить в числах. Они определяются психологическими (если речь идет о людях), метеорологическими (если речь идет о погоде) или другими факторами, неподведомственными математике.
      Однако в 1948 году американский математик и инженер Клод Шеннон показал, что эта точка зрения ошибочна. Любые факторы — психологические, метеорологические и т. д. — можно учесть, привлекая теорию вероятностей. Он предложил формулу, с помощью которой можно измерять количество информации о событиях, происходящих с разной вероятностью.
      Вот эта формула Шеннона:
       H 1= — (P 1log 2P 1+ Р 2log 2Р 2+ … + Р nlog 2Р n).
       Н 1— эта величина неопределенности, которую снимает сообщение, и, значит, мера количества информации (ведь информация уничтожает неопределенность); n— число «выборов», а Р 1, Р 2…, Р n— вероятности появления этих «выборов».
      Благодаря этой формуле ученые получили возможность измерять информацию, содержащуюся в кодовых знаках самого различного содержания. Более того, благодаря тому, что мы избираем в качестве «меры» информации логарифмы, мы можем складывать информацию, содержащуюся в каждом кодовом знаке, составляющем сообщение, и таким образом измерить количество информации, содержащееся во всем сообщении.
      Действительно, как учит теория вероятностей, вероятность появления двух событий равна произведению вероятностей этих событий. И сумма информации, которую несут кодовые знаки, равна информации всего текста, из этих знаков состоящего. Не будь логарифмов, нам пришлось бы умножать вероятности появления этих знаков. «Логарифмическая» формула Шеннона тем и удобна, что согласно ей информация двух страниц книги — это сумма информации первой страницы и информации второй страницы; информация всей книги — это сумма информации всех ее страниц.
      Впрочем, здесь мы переходим уже не в область математики, а в область другой научной дисциплины — математической лингвистики.

«Бандвагон» от науки?

      После того, как Клод Шеннон заложил основы вероятностной теории информации, эта теория нашла отклик среди ученых различных специальностей: биологов, лингвистов, философов, генетиков, искусствоведов, психологов, экономистов, геологов, химиков, математиков. Кодом стали называть любую систему знаков, предназначенных для передачи сообщений. Термины теории информации получили широчайшее применение в самых разных публикациях.
      Но вот выходит краткая статья самого создателя этой теории, Клода Шеннона, озаглавленная «Бандвагон». Этим словом в США называют политическую партию, добившуюся популярности и победившую на выборах, или просто группу лиц, программа которых находит у населения широкую поддержку. Родился этот термин, вероятно, потому, что обычно победивший на выборах кандидат проезжал по городу в открытой машине, сопровождаемый оркестром (английское band значит оркестр, джаз, а wagon — повозка, карета).
      За последние годы теория информации превратилась в своего рода бандвагон от науки — так начинает свою статью Шеннон. Появившись на свет в качестве специального метода в теории связи, она заняла выдающееся место как в популярной, так и в научной литературе. А в результате «значение теории информации было, возможно, преувеличено и раздуто до пределов, превышающих ее реальные достижения».
      Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом, предостерегает Шеннон. Здание нашего искусственно созданного благополучия слишком легко может рухнуть, если в один прекрасный день окажется, что при помощи нескольких магических слов вроде информация, энтропия, избыточность и т. п. нельзя решить всех нерешенных проблем.
      «Что можно сделать, чтобы внести в сложившуюся ситуацию ноту умеренности?»— задается вопросом сам Шеннон. И отвечает так: прежде всего представителям различных наук нужно ясно понимать, что основные положения теории информации касаются очень специфического направления, что оно не обязательно должно оказаться плодотворным, скажем, в психологии или экономике. «Я лично полагаю, что многие положения теории информации могут оказаться очень полезными в других областях науки, — говорит Шеннон. — Действительно, уже достигнуты некоторые весьма значительные результаты. Однако поиск путей применения теории информации в других областях не сводится к тривиальному переносу терминов из одной области науки в другую. Этот поиск осуществляется в длительном процессе выдвижения новых гипотез и их экспериментальной проверке».
      Эти олова основоположника теории информации прекрасно иллюстрируют ситуацию, что сложилась в языкознании, когда человеческую речь стали рассматривать в качестве своеобразного кода. Изучение языка как кода началось уже на заре теории информации. Но только сейчас, по мере того как растут наши знания, мы начинаем постигать, насколько сложен, специфичен, можно сказать, удивителен код — наш язык, с помощью которого мы общаемся.

Биты и буквы

      Сколько информации несет одна буква? Вопрос этот возник в первые же годы рождения теории информации. Простейший ответ на него найти легко. Надо взять число букв в том или ином алфавите мира, а затем выразить его в двоичных логарифмах. Ведь каждая буква — это один из возможных исходов, вроде выпадения герба или решетки монеты, одной из граней кубика и т. д. Число же этих исходов равно числу различных букв.
      В русском алфавите тридцать три буквы, плюс еще нулевая — пробел между словами. Но так как е и ёсейчас практически не различаются, то их можно считать одной буквой. Можно объединить мягкий знак с твердым. В итоге получаем тридцать две буквы, тридцать два кодовых знака нашего языка. Двоичный логарифм тридцати двух равен пяти. Получаем величину в пять бит. Столько информации несет одна буква нашего алфавита.
      В языках, пользующихся латинским алфавитом, число букв равно двадцати шести. Прибавим еще пробел, нулевую букву, а затем выразим это в двоичных логарифмах, то есть в битах. Получаем величину в 4,76 бит. Столько информации несет одна буква английского, испанского, немецкого, французского языков.
      В алфавите самоанского языка, на котором говорят жители одного из полинезийских архипелагов, всего лишь шестнадцать букв. Двоичный логарифм шестнадцати равен четырем, значит, одна буква самоанского алфавита несет информацию в четыре бита, на один бит меньше, чем буква русского.
      Все это было бы совершенно правильно, если бы буквы алфавита встречались с одинаковой вероятностью, если бы языки не имели свойства, называемого в теории информации избыточностью. Избыточность позволяет определять, насколько разнится максимальная информация, которую может нести знак кода, от реальной, которую он несет. Иными словами, это своеобразная мера «неэкономности» кода, в том числе и любого языка мира.
      Интуитивно, не производя подсчетов, мы догадываемся, что одни буквы, вроде о или с,встречаются часто, другие, вроде фили э— реже. То же самое и со словами: союз иили местоимение явесьма часты, а прилагательное сиятельныйили глагол выковыривать— гораздо реже. Мы согласуем нашу речь в роде, числе, падеже, залогах, наклонениях и т. д. Наша речь осмысленна, значит, не всякое слово может соединяться с другим… Короче говоря, на язык наложены ограничения, начиная с употребительности отдельных букв и кончая сочетаемостью слов по смыслу.
      Подсчитать частоту употребления букв в различных алфавитах мира нетрудно. Выше приводилась величина информации, которую несет одна буква различных языков мира. Но если учитывать, что буквы имеют разную вероятность появления в тексте, то эта величина будет иной. Причем даже в языках, которые пользуются одним и тем же латинским алфавитом. В немецком она равна 4,1 бита, в английском — 4,03 бита, в испанском — 3,98 бита, во французском — 3,96 бита (исходная величина для всех них была, как вы помните, 4,76 бита). Для русского языка величина информации, которую несет одна буква, сократилась до 4,35 бита, для самоанского — до 3,4 бита.
      Но это — лишь первое приближение. Ведь различные вероятности имеют не только отдельные буквы, но и сочетания двух, трех и т. д. букв (в русском языке, например, невозможно сочетание гласная плюс мягкий знак и другие подобные сочетания). Если учесть вероятности двухбуквенных сочетаний, то величина информации, которую несет одна буква русского алфавита, будет равна 3,52 бита, английского — 3,32 бита, французского— 3,17 бита, а самоанского — 2,68 бита. Учет вероятностей трехбуквенных сочетаний для русского алфавита дает величину в 3,01 бита, для английского — 3,1 бита, для французского — 2,83 бита.
      Вы, вероятно, заметили, что по мере того, как мы учитываем все более и более «дальние» связи между буквами, уменьшается количество информации на одну букву и соответственно увеличивается избыточность языка. Возможно, вы заметили и другое: одновременно происходит сближение величины информации в языках, пользующихся различными алфавитами, по мере того, как мы все точнее и точнее описываем наш код-язык.
      Действительно, когда была определена величина информации, приходящаяся на одну букву осмысленного текста в разных языках мира, она оказалась примерно одинаковой.

Методом отгадывания

      Каким образом удалось определить эту величину? Ведь учет даже трехбуквенных сочетаний, частоты их „употребления в текстах того или иного языка требует работы огромного объема. Между тем статистические связи между буквами, конечно, не ограничиваются триграммами, учетом частот всех этих тся, сть, щийи т. п. Надо знать частоты сочетаний четырех, пяти и более букв.
      Однако на этом пути мы заходим в тупик. Число возможных комбинаций из девяти букв, например, измеряется триллионами. Сколько же текстов мы должны исследовать, чтобы получить достоверную статистику! А ведь и девять букв — не предел. Мы пишем и говорим предложениями, значит, в пределах этого предложения будут существовать статистические связи между буквами, задаваемые лексикой, грамматикой, синтаксисом. Длина же предложения измеряется десятками букв.
      Задача, казалось бы, неразрешимая… Однако Клод Шеннон, одним из первых занявшийся изучением языка как кода, предложил остроумный способ решения этой задачи с помощью так называемого метода отгадывания. Метод этот был усовершенствован крупнейшим математиком нашей страны А. Н. Колмогоровым. С помощью этого метода была определена величина информации, приходящаяся на одну букву русского, английского, французского, польского, румынского, азербайджанского и других языков мира. (Первоначально опыты проводились в МГУ, а затем были продолжены ленинградским лингвистом Р. Г. Пиотровским, описавшим их в книге «Информационные измерения языка».)
      Мы уже говорили о том, что информация — это то, что снимает неопределенность, уничтожает незнание… Где существует неопределенность, которую снимают буквы того или иного языка? Разумеется, в голове читателя осмысленного текста на этом языке. Вот этого-то читателя и надо использовать в качестве своеобразного измерителя величины информации, которую несет одна буква алфавита.
      На одном полюсе будет человек, который не знает языка. Для него все буквы равновероятны, избыточность алфавита равна нулю, и один знак несет максимальную информацию кода (и никакой осмысленной информации не дает!). На другом полюсе—носитель языка, превосходно знающий его, интуитивно чувствующий вероятность появления того или иного слова в тексте. Такому человеку дается определенный текст, он прочитывает несколько страниц, вникает в стиль, сюжет, манеру повествования. Затем текст закрывается, и далее начинается процедура отгадывания. Предлагается найти продолжение этого текста: какая буква должна появиться?
      Например, в опытах Пиотровского предлагался отрывок из статьи, опубликованной в газете «Известия»: «И вот, приехав в тот город, где друг мой в свое время справлял свадьбу, я встретил его жену и сына, который учится уже в пятом классе. И сын его меня расспрашивает, правда ли, что я служил с его отцом, на каких кораблях плавали, где бывали. Я отвечаю на эти как будто нехитрые на первый взгляд…»
      Дальше текст закрывался и предлагалось угадать букву, которая должна последовать. Отгадчик мог отказаться от ответа (в самом деле, мало ли какое слово может последовать после слов «на первый взгляд») или мог предложить какую-либо букву (например, в,считая, что следующим словом будет вопросы).Вслед за тем отгадчику называлась эта буква (в данном случае ею была буква р).Процедура вновь повторялась, причем отгадчик мог называть предполагаемую букву с малой или большой степенью уверенности, назвать две возможные в данном контексте буквы, имеющие, по его мнению, равную вероятность, или же отказаться от угадывания (в нашем примере требовалось угадать слово ребячьи— угадывание его шло безошибочно, когда известны стали три первые буквы; вероятно, столь же нетрудно угадать и дальнейшее продолжение — слово вопросы).
      Полученные результаты обрабатывались математически. В итоге можно было получить величину информации, приходящуюся на одну букву осмысленного русского текста. Опыты, проведенные в МГУ, показали, что для классической русской прозы (отгадывались «Детские годы Багрова-внука» Аксакова и «Литературные вечера» Гончарова) она равна примерно одному биту. Сходную величину дали и опыты Р. Г. Пиотровского. Если сравнить эту величину в пятью «исходными» битами, мы увидим, что избыточность литературного русского языка классической прозы равна восьмидесяти процентам. Иными словами, четыре из пяти букв — «лишние»!
      В пределах семидесяти-восьмидесяти процентов оказалась величина избыточности и для английского, французского, румынского, польского, азербайджанского, казахского языков. Весьма вероятно, что и во всех других языках мира избыточность, которую называют еще своеобразным запасом прочности языка, находится в этих пределах. Если бы в языке не было избыточности, то любое сочетание кодовых знаков, букв, образовало бы осмысленное слово, и тогда почти невозможно было бы исправить ошибку в написании. Не существовало бы и правил грамматики, и сочетаний смыслов слов… Так что избыточность это не излишество, не показатель несовершенства языка по сравнению с техническими кодами, а его важное и нужное свойство, которое возникло многие тысячи лет назад, но лишь сейчас начинает нами осознаваться благодаря теории информации.

Биты, стили, «подъязыки»

      Во всяком ли русском тексте четыре пятых букв — «лишние»? Нет, не во всяком. Вспомните телеграммы: в текстах телеграмм мы стараемся уменьшить избыточность языка, опускаем предлоги, глагольные связки и т. п. Однако эта экономия имеет свой предел, иначе получатель нашей телеграммы не поймет текст. Ленинградские исследователи О. Л. Смирнов и А. В. Екимова, используя метод отгадывания, попробовали определить величину информации, приходящуюся на одну букву «телеграфного языка» (или если применять лингвистическую терминологию, подъязыка телеграмм). Для этого были взяты телеграфные тексты общим объемом в пятнадцать тысяч букв. Оказалось, что величина информации почти в полтора раза превышает ту, что несет одна буква литературного русского языка!

  • Страницы:
    1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14