Современная электронная библиотека ModernLib.Net

Звуки и знаки

ModernLib.Net / Кондратов Александр Михайлович / Звуки и знаки - Чтение (стр. 3)
Автор: Кондратов Александр Михайлович
Жанр:

 

 


      Свадеш составил список из двухсот пятнадцати слов, потом сократил его до сотни. Но почему, собственно говоря, до ста? А может быть, надо расширить этот список до пятисот? Проверка показала, что разные слова имеют разную устойчивость. Русский язык — индоевропейский, числительное тризвучит в нем так же, как звучало оно в языке древних хеттов, как звучит оно в священном языке Индии — санскрите, сходным образом звучит оно и в английском, немецком и других индоевропейских языках. А вот понятие «мальчик» меняло свой словесный ярлык по нескольку раз чуть ли не в истории каждого языка. В древней Руси говорили отрок, а потомки древнерусского языка — русский, украинский и белорусский — сменили это слово. Русские вместо отрока говорят мальчик, а украинцы и белорусы — хлопчик.
      Вот почему современные лингвисты начинают проверять слова на их устойчивость в языке, степень сохранения того или иного слова в зависимости от понятия, которое оно обозначает. Более того, оказывается, что есть связь между частотой употребления слова и временем его возникновения в языке. Не так давно в нашей стране вышла книга «Математические методы в исторической лингвистике», авторы которой М. В. Арапов и М. М. Херц предложили математическую модель лингвистических часов, где работы Свадеша оказываются лишь частным случаем более общего метода.
      По сравнению с методом Свадеша, «шаг вперед состоит здесь в том, что нет более необходимости требовать, чтобы скорость изменения словаря всегда была постоянной и им, ела одинаковое значение для различных языков, — пишут Арапов и Херц. — Таким образом, вместо списка слов, выражающих фиксированные, тщательно выбранные понятия, можно было бы взять случайно выбранный фрагмент словаря и проверять, имеют ли слова из него соответствия в родственном языке».
      Формулы, найденные советскими учеными, показывают, что случайная выборка из словаря распадается точив так же, как и весь словарь. А это значит, что такая случайная выборка подходит для целей датирования не меньше, чем отобранная сложным методом сотня-другая слов. Иными словами, механизм лингвистических часов оказался и более прост, и более сложен, чем это представлялось его первооткрывателю Морису Свадешу.
      Впрочем, такую простоту и одновременно сложность мы находим всякий раз, когда начинаем изучать язык с помощью статистики. Числа помогают лингвистам исследовать язык во всех его измерениях, начиная со слов и кончая субъективными ассоциациями, связанными со словами. Но за числами стоят, очевидно, какие-то закономерности, определяющие статистику.
      Нельзя ли увидеть за фактами формулы? Вскрыть с помощью математики механизмы языка, порождающие все многообразие нашей речи?

От фактов к формулам

      Статистические данные отражают в числах рост, убывание или стабильность различных элементов языка. Но они не вскрывают механизм процесса, его динамику. Вот почему в настоящее время языковеды, имея дело с числами, стараются строить на их основании математические модели, которые не только отражают динамику, но и позволяют делать прогнозы на будущее и «заглядывать» в прошлое, о котором нет достоверных данных. Вот несколько подобного рода моделей, предложенных ленинградскими лингвистами А. А. Пиотровской и Р. Г. Пиотровским.
      В русских научных и электротехнических текстах XIX века слова типа вольт, рентген, радианво множественном числе родительного падежа писались так: вольтов, рентгенови т. п. Однако, как показала Л. К. Граудина, начиная с- конца восьмидесятых годов прошлого века, все чаще стали употребляться написания вольт, рентген,совпадающие с именительным падежом единственного числа. Спустя два-три десятилетия эти формы утвердились не только в профессиональной речи, но и в литературном языке. В итоге появилась новая группа имен существительных, которая в родительном падеже множественного числа имеет нулевое окончание: мы говорим и пишем: тысяча вольт, пять рентген, а не вольтов или рентгенов.
      Числовые данные, характеризующие динамику этого процесса, можно свести в таблицу (например, если в 1885 году написание типа вольтвстречалось один раз на сотню, то в 1908 году — уже девяносто девять раз).
      Данные таблицы были перенесены на график, где по оси абсцисс отмечались годы, а по оси ординат — частоты форм с нулевым окончанием. «Полученная последовательность экспериментальных точек показывает резкое возрастание нулевых форм в период между 1886 и 1905 гг. Возникает вопрос, какой из функций можно воспользоваться для описания полученной зависимости? — пишут Пиотровские. — Линейная зависимость здесь применена быть не может, поскольку значения функции находятся в интервале от — содо + со, в то время как по условиям задачи область изменения нашей функции лежит в интервале между нулем и единицей (относительные частоты не могут быть меньше нуля и больше единицы)». Рост нулевых форм лучше всего моделирует график обратной тригонометрической функции f = arctg t ,где f — частота нулевых форм, а t — годы.
      Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).
      Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?
      Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).
      В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.
      Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово дядяили словосочетание бубновый туз.
      И все-таки несчастные случаи, увы, бывают, какова бы ни была их вероятность. В книгах по математике можно найти и бубнового туза и даже дядю (так, в труде «Теория вероятностей» Е. С. Вентцель читатель может обнаружить цитату из начала «Евгения Онегина», знаменитое «Мой дядя самых честных правил…»). Так что же, отменить автомобили и не летать на самолетах? А в математические словари наряду со словом дядявключать еще и тетю,и бабушку,и названия игральных карт и вообще все сотни тысяч русских слов? Разумеется, нет.
      Если сравнить астрономически большое число полетов и автомобильных пробегов с числом несчастных случаев, станет ясно, насколько мала их вероятность. И вероятность всех этих дядей и бубновых тузов в математических трактатах мала — хотя авторы их могут и процитировать Пушкина, и воспользоваться известными всем игральными картами, иллюстрируя пример случайного выбора или комбинаторных сочетаний.
      Студент сдает экзамен. Из ста предложений, данных ему для перевода, в шести он напутал с синтаксисом. Пятерки такой студент не заслужил, но зачет ему поставит любой здравомыслящий преподаватель, даже не знакомый с теорией вероятностей. Ибо понимает, что с помощью словаря такой студент сумеет перевести любой взятый наугад текст. Но если такое же число ошибок сделает машина-переводчик, ее программа зачета не получит. Студент умеет пользоваться словарем, при переводе опирается на смысл фразы, и небольшие помехи с синтаксисом ему не слишком повредят. А ЭВМ свои ошибки в синтаксисе не искупит ни лексикой, ни смыслом, ей недоступным. Прощать мы должны не шесть, а скажем, одну ошибку на сто фраз.
      Что же касается техники, тут дело и вовсе серьезное. Вот почему так строго к нарушениям наше ГАИ и так тщательно проверяют готовность самолета работники Аэрофлота. Ибо тут, когда речь идет о людях, случайность должна быть сведена до минимума: не одну ошибку на сотню случаев, а даже одну ошибку на сто тысяч нельзя допускать!

Инженерная лингвистика

      Связь техники, статистики и языкознания наметилась давно. Ведь даже на простой, но очень важный вопрос: как удобнее расположить клавиши на пишущей машинке? — нельзя ответить одному только технику или лингвисту. Нужно знать частоты употребления различных букв и сочетаний этих букв. Нужно знать конструкцию машинки (вот почему редкие буквы расположены на периферии, а частые — в центре клавиатуры, причем на основании статистики спарены ти ь, пи ри т. д.).
      Изобретение телеграфа, телефона, других средств связи вызвало сближение инженерии, математики и лингвистики. Их союз помогает решать задачи кодирования слов и букв языка в электрические сигналы, сокращения «избыточных» частей текста при передаче телеграмм.
      Однако подлинный союз техники, лингвистики и статистики в изучении языка начался с появлением электронных вычислительных машин. Если раньше необходимые подсчеты требовали многих лет труда и большого коллектива сотрудников, то теперь с помощью ЭВМ они могут быть произведены очень быстро и экономично.
      Мы упоминали частотный словарь немецкого языка, составленный Кедингом на основании одиннадцати миллионов слов. Разумеется, один человек такую работу проделать не мог: не хватило бы всей его жизни. В составлении словаря Кедингу помогали сотрудники. Как вы думаете, сколько их было? Десяток, сотня, две сотни? Нет, гораздо больше — тысяча человек!
      В течение нескольких лет вел кропотливую работу над составлением «Словаря языка Пушкина» коллектив сотрудников Института русского языка Академии наук СССР. Четверть века вели свою работу над частотным словарем английского языка Торндайк и Лордж…
      В наши дни составление этих словарей поручено электронным вычислительным машинам. Именно они являются соавторами всех больших частотных словарей, появившихся в последние годы, включая «Частотный словарь русского языка».
      С помощью ЭВМ в наши дни осуществляется издание монументального, в пятнадцати томах, словаря французского языка. Он охватывает почти шестьсот произведений авторов XVIII–XX столетий, общим объемом в семьдесят миллионов (!) слов. Каждому из семидесяти тысяч слов, вошедших в словарь, дается толкование, приводится общая частота его употребления, а также частоты, с которыми оно употреблялось в том или ином веке. Нет сомнения в том, что и для других языков появятся столь же нужные словари. Конечно, без машины составление их вряд ли было бы возможно: вспомните Кединга и его тысячу помощников.
      ЭВМ помогают и в составлении частотных словарей отдельных «подъязыков», охватывающих ту или иную область науки и техники: электронику, терапию, строительные материалы, автомобилестроение, геологию нефти и газа и т. п. В нашей стране составлено более десятка таких словарей для английского, немецкого, французского и других языков. Осуществляет это важное и жизненно необходимое для практики дело группа «Статистика речи».
      Правда, объем текстов, взятых для словаря, сравнительно невелик: выборка состоит, как правило, из двухсот тысяч слов. Но на это есть свои причины. Вы помните, что львиная доля текста покрывается самыми частыми словами, первой их тысячью. Вторая тысяча частых слов даст незначительный прирост, третья — еще меньший и т. д. Чем больший объем текста мы возьмем, тем больше разных слов в нем будет, но прирост этот будет замедляться. Вот что показывают расчеты. В словаре английского языка, составленном Г. Кучерой на основе машинной обработки миллиона слов, встретилось около пятидесяти тысяч различных слов. Если увеличить выборку в десять раз, то есть до десяти миллионов, число разных слов возросло бы не в десять, а примерно в два с половиной раза. Если довести выборку до ста миллионов слов, число разных слов увеличилось бы не в сто, а лишь в четыре раза.
      Еще меньший прирост дают тексты по отдельным подъязыкам и областям знания. Вот какая картина рисуется нам, если мы попробуем применить ЭВМ для составления полного частотного словаря английских текстов по электронике. Двести тысяч слов, обработанных на машине, дали около десяти тысяч различных слов. Если увеличить выборку в пять раз, до миллиона слов, то число разных слов даже не удвоится. Увеличь мы выборку в пятьдесят раз, число разных слов возрастет только в три раза; увеличение в пятьсот раз, до ста миллионов слов, даст прирост в четыре раза. И если мы доведем выборку до фантастической величины в десять миллиардов, то есть в пятьдесят тысяч раз, то число разных слов возрастет лишь шестикратно. Наш словарь охватит лишь шестьдесят тысяч разных слов, между тем терминология электроники гораздо богаче, эти слова ее не исчерпывают, хотя мы обработали бы на ЭВМ около тридцати миллионов страниц текстов!
      Вот почему ученые находят более рациональное применение вычислительной технике. С помощью машин выявляются не все слова в той или иной области науки и техники (где употребляются сотни тысяч различных терминов), а наиболее употребительные, а также самые частые словосочетания. Ведь они, например, в отраслевых англо-русских словарях, занимают почти три четверти объема словаря. Выявить же эти сочетания, одновременно подсчитывая их частоту вручную, практически невозможно: лишь ЭВМ способна проделать столь утомительную и однообразную работу.
      Но не только электронные вычислительные машины оказывают помощь лингвистике. В свою очередь, помощь современного языкознания оказалась крайне необходимой для вычислительной техники. С рождением кибернетики появляется и проблема «разговора» человека и робота. ЭВМ понимают только строго формализованный, однозначный язык чисел и логических команд. Можно ли перевести на него наш обычный человеческий язык?
      Машинный перевод с одного языка на другой, машинный перевод устной речи в письменную и письменной в устную, наконец, разговор с машиною «по-человечески», то есть ввод и вывод информации в машину посредством устной речи — все эти задачи несколько десятков лет назад относились к области научной фантастики. А ныне они стали реальными и важными проблемами практики. И решать эти проблемы можно лишь в тесном содружестве математиков, техников и языковедов.
      Инженерная лингвистика — так называют это направление в научной литературе. И речь здесь идет не о том, чтобы инженер обучился основам языкознания, а лингвист — математике и электронике. Инженерная лингвистика в наши дни превратилась в отрасль исследований, имеющих свои конкретные задачи, свою методику и свои объекты изучения. Причем, как отмечает руководитель группы «Статистика речи» Р. Г. Пиотровский, решая собственные задачи, инженерная лингвистика стимулирует появление новых идей не только в области языкознания и смежных наук, но и в таких, казалось бы, далеких от нее дисциплинах, как методика преподавания языков, структурное литературоведение, радиолокация, психиатрия. Но особое значение для инженерной лингвистики имеет ее связь с кибернетикой и электронными вычислительными машинами.
      Каждая идея и разработка инженерной лингвистики должна быть реализована на ЭВМ. Без машины, без робота теряется сама суть, смысл этого направления. Первые попытки машинного перевода состояли в том, чтобы передать машине поиск слов в словаре. Задолго до наступления эры кибернетики, в 1933 году, советскому инженеру П. П. Троянскому было выдано авторское свидетельство на изобретение «машины для подбора и печатания слов при переводе с одного языка на другой или несколько других одновременно». Но чем дальше шли работы в области машинного перевода, или, как говорят специалисты, МП, тем яснее становилось, что осуществить этот перевод можно лишь тогда, когда мы сумеем заставить машину переводить по-человечески, не по форме, а по смыслу…
      Так у инженерной лингвистики появилась стержневая проблема: автоматическое распознавание смыслового образа. И проблема эта связана с другими проблемами распознавания образа машиной — зрительного для читающих автоматов, звукового для автоматов, действующих по приказу, который дает человеческий голос.
      Тут от, казалось бы, сугубо технических проблем инженерная лингвистика переходит к проблемам, стоящим на повестке дня авангарда современной науки: моделированию мышления, работы человеческого мозга…

МП, ЯП, ИЯ

      В нашем веке сугубо теоретические и сугубо практические задачи оказываются неразрывно связанными друг с другом. И, пожалуй, наиболее ярко эта связь теории и практики проявилась в области машинного перевода и создания информационных языков.
      Об этом расскажет очерк
      МП, ЯП, ИЯ

От круга Луллия до ЭВМ

      Раймонд Луллий, живший в XIII столетии, был человек, далеко не заурядный. В молодости рыцарь, он оставил светскую жизнь, дабы найти элексир бессмертия. Элексир этот, несмотря на десятилетия алхимических поисков, найти ему не удалось. Зато, по мнению Луллия, он открыл основной компонент элексира — воду жизни, на латыни — аква вита. Впоследствии оказалось, что этой водой жизни был чистейший спирт, который умели возгонять задолго до Луллия арабские алхимики.
      Специалисты по вычислительной технике, структурные лингвисты и ученые, занимающиеся теорией знаков, все чаще начинают упоминать в своих работах другое изобретение экс-рыцаря и алхимика — его называли «кругом Луллия».
 
      Во времена Луллия считалось, что в каждой области знаний есть небольшое число принципов, которые столь же неколебимы, как аксиомы математики: их следует принимать без доказательств. Это так называемые абсолютные начала — доброта, величина, сила, сознание, воля, правда, слава; относительные начала — различие, согласованность, противоположность, середина, конец, равенство; добродетели — справедливость, умеренность, вера, милосердие, надежда и пороки — жадность, обжорство, сладострастие, гордыня, лень, зависть, гневливость, лживость, предательство; субъекты — бог, ангел, небо, человек…
      Всего у Луллия, согласно тогдашней схоластике, получилось шесть категорий. В каждой из них было ровно по девять элементов. Элементы эти Луллий разместил на шести концентрических кругах. Первый, внутренний, круг состоял из девяти основных вопросов: что? почему? из чего? сколько? где? когда? какое? которое из двух? каким образом? Теперь, если привести систему кругов во вращение, можно получить, по мысли Луллия, ответ на любой вопрос, связанный с аксиомами, начертанными на кругах. Иными словами, Луллий считал, что его вертушка охватывала все знания, которые может вместить наш разум!
      Как видим, наш разум Луллию представлялся неким ограниченным вместилищем знания, а сами знания чем-то завершенным, окончательным. Правда, «емкость» этого вместилища (или хранилища) получалась огромной. Число возможных комбинаций действительно было велико: вы в этом легко убедитесь сами, если возведете число элементов — девять — в шестую степень (число категорий). А так как круги изготовлялись из металла и раскрашивались в различные цвета, то вертушка Луллия производила весьма сильное впечатление на современников. Рассказывают, что Луллий с помощью своих кругов хотел обратить в христианство владыку мусульманского города, но тот, не поддавшись магии кругов, продал изобретателя в рабство, и единоверцам Луллия пришлось платить большой выкуп…
      Но так или иначе изобретение Луллия является прообразом нынешних устройств, с помощью которых человек хочет усилить мощь своего разума — логических машин. Идея формализации мышления, сведения его к вычислениям и логическим операциям высказывалась двумя гениальными учеными XVII столетия Декартом и Лейбницем. «Подобно тому, как можно в один день научиться на каком-нибудь неизвестном языке называть и писать числа до бесконечности, таким же образом должна быть найдена возможность сконструировать все слова, необходимые для выражения всего, что приходит и может прийти в человеческий ум», — писал Декарт. А Лейбниц пытался заменить рассуждения вычислениями и превратить язык в своеобразную алгебру мысли. Но все это были теоретические построения. Лишь с появлением электронных вычислительных машин от рассуждений философов появилась реальная возможность перейти к осуществлению их идей на практике.

Мечты, мечты…

      7 января 1954 года в конторе фирмы «Интернейшел бизнес мэшин» в Нью-Йорке была проведена первая публичная демонстрация перевода с языка на язык — перевода, который впервые за всю историю человечества делал не сам человек, а его механический помощник. Электронная счетная машина ИБМ-701 перевела математический текст с русского языка на английский. На следующий год был осуществлен первый машинный перевод в нашей стране. С английского языка на русский переводила отечественная машина БЭСМ.
      Затем в различных странах мира с помощью машин были сделаны переводы с французского, немецкого, китайского, японского языков. Встал вопрос о создании единого языка-посредника, на который и с которого можно было бы переводить любой язык мира. Ведь такой язык гораздо выгодней, чем составление отдельных программ перевода с каждого конкретного языка на другой конкретный язык (для двух языков нужны две различные программы перевода, скажем, с русского на английский и с английского на русский; для четырех языков таких программ нужно будет двенадцать, для двадцати — около трехсот, а так как число языков мира достигает нескольких тысяч, то число переводческих программ с каждого языка на каждый достигнет астрономически больших величин).
      В качестве языка-посредника предлагались самые распространенные языки мира, например английский или русский. Были проекты использовать какой-либо из искусственных международных языков, вроде эсперанто (ныне разработано несколько сотен подобных языков-посредников). Ленинградский лингвист Н. Д. Андреев предложил включать в язык-посредник только самые типичные, самые частые грамматические правила и слова, общие большинству языков мира. Такой язык-посредник будет представлять некое статистическое среднее этих языков. Есть и другая точка зрения: язык-посредник — это лишь система соответствий между различными языками мира, равнозначных друг другу слов и словосочетаний, а в материальной форме такой язык может и не существовать…
      Проблема создания языка-посредника оказалась тесно связанной с не менее важной проблемой специального языка для информационно-логических машин. Потребность в таких машинах с каждым годом ощущается все острее. Ибо с каждым годом неудержимо нарастает лавина информации, которая обрушивается на современного человека. Особенно это относится к науке и технике. В конце концов мы можем и не знать о том, как сыграли футболисты «Спартака» или сколько градусов мороза нынче в Антарктиде, — ущерб от этого невелик. А вот ущерб от незнания научных или технических новинок может исчисляться миллионами рублей и годами потраченного напрасно труда. Читать же всю литературу, выходящую даже по его прямой специальности, инженер или ученый в наши дни просто не в состоянии.
      «Человек так же неспособен выучить наизусть все книги, хранящиеся в библиотеке, как и взвалить их себе на спину», — очень метко сказал академик В. М. Глушков. И не только выучить, но и просто-напросто прочитать. Число научно-технических журналов в наше время уже превысило пятьдесят тысяч и продолжает расти. Добавьте к ним еще семьдесят пять тысяч книг по науке и технике, издаваемых ежегодно. Плюс более трехсот тысяч описаний к авторским свидетельствам и патентам. Плюс сотни тысяч ежегодных научно-технических отчетов. И все это море информации кодируется не на одном, а на многих языках мира, причем и число таких языков науки и техники постоянно увеличивается. Если десяток лет назад было достаточно знания европейских языков, то теперь ценная научно-техническая информация публикуется на арабском, хинди, японском, турецком, персидском языках…
      Обуздать Ниагару книг, потоки информации с помощью машин — машин-переводчиков или информационно-логических машин, хранящих в своей электронной памяти сведения из самых различных областей знания; создать общий язык для машины-переводчика и машины-информатора, некий универсальный код науки; научить электронный мозг не только хранить и выдавать по требованию информацию, но и обрабатывать ее, делать новые выводы, умозаключения, сопоставления; включить ЭВМ как мощнейший усилитель нашего мышления в цивилизацию XX столетия — таковы были грандиозные и благородные идеи, которыми руководствовались кибернетики, лингвисты, социологи, логики после первых опытов машинного перевода.
      Казалось, время осуществления этих идей не так уж далеко. Пройдет каких-нибудь десять—двадцать лет, и начнется одна из самых крупных научно-технических революций в истории человечества…
      Идея перевода с помощью ЭВМ была высказана в 1949 году. Со времени первого публичного перевода машиною с языка на язык прошло почти четверть века. Что же происходит в наши дни, в последней четверти двадцатого столетия?

…где ваша сладость?

      Нет, кибернетическая революция, о которой мечтали четверть века назад и которую связывали прежде всего с машинным переводом и созданием информационно-логических машин, до сих пор не произошла. ЭВМ не переводят с языка на язык ни технические, ни тем более научные тексты. И хранителями знаний по-прежнему служат полки библиотек, а не блоки электронной памяти машин.
      Более того. По свидетельству самих специалистов по машинному переводу, в наши дни свое основное внимание они сосредоточивают не на переводе, не на машине и не на алгоритме, формальной программе перевода!
      В чем же тут дело? В порочности самой идеи, будто машина может переводить с языка на язык? Нет, идея эта подавляющим большинством ученых признается верной.
      Тогда, быть может, все дело в технических трудностях: слишком маленькой оперативной памяти ЭВМ, недостаточной скорости, трудности ввода информации? Опять-таки псе эти проблемы не имеют отношения к реальным проблемам машинного перевода.
      На исследования в этой области отпускались большие средства, над машинным переводом работали целые лаборатории. Случалось, что попадали в них люди, далекие от науки, видевшие в МП лишь легкую поживу. Но ведь в основном и в нашей стране, и за рубежом проблемой автоматического перевода занимались крупные ученые, причем и математики, и языковеды, и логики… И все-таки проблема эта не решена до сих пор.
      Почему? Да потому что обманчивая простота механизации перевода вступила в совсем необманчивую сложность нашего человеческого языка. Чтобы сделать машинный перевод не проблемой, а реальностью, нужно сделать науку о языке достаточно точной, иначе нельзя перевести ее положения на формулировки программ ЭВМ. Вполне понятно, что ни десяти, ни двадцати лет не хватит для такой коренной перестройки. Да и вообще возможна ли она до конца — это тоже еще под вопросом.
      Ну, а как же первые переводы с помощью машины? — спросит читатель. Ведь переводила же ЭВМ с русского на английский, с английского на русский и т. д.?
      Переводила, это бесспорный факт. Но вот что она переводила — это другое дело. Есть такая шутка: «Черное, с крыльями, жужжит, жук — что это такое?» Ответ однозначен — жук, потому что он содержался в самом вопросе. Нечто подобное было и в первом опыте публичного машинного перевода, осуществленного в рекламных целях фирмой ИБМ. Текст был тщательным образом отпрепарирован, предельно упрощен. Правила грамматики также были элементарны. И словарный запас минимален.
      Когда же стали увеличивать объем словаря, усложнять грамматику и пытаться перевести не препарированные, а подлинные тексты, перед исследователями стали задачи, неразрешимые на уровне современных знаний о языке. Проблем было сотни: слова, имеющие несколько значений, и слова-омонимы; грамматические правила и неизбежные в любом языке исключения из правил; многообразие не только слов, но и грамматических форм, В русском языке насчитывается сто пятьдесят семь различных глагольных окончаний, в немецком — триста пятьдесят четыре, а в языке аранта — около тысячи (правда, пока что аранта не имеют письменности и поэтому проблема машинного перевода для этого языка Австралии неактуальна).
      Перечень подобного рода проблем можно было бы продолжить, но вам, пожалуй, ясна наша главная мысль: язык оказался слишком сложен для машины, а лингвистика — слишком «гуманитарна», чтобы изложить накопленные ею сведения о языке в виде формул и алгоритмов. Больше того, даже для информационно-логических машин, которые, казалось бы, должны иметь дело со строгими и однозначными терминами науки, по сей день не удалось найти приемлемого кода, языка-посредника между информацией, накопленной человечеством, и электронной памятью ЭВМ. А причина этого все та же: наш человеческий язык. Ведь именно на этом языке «закодирован» весь океан современной информации — научной, технической и просто житейской.

  • Страницы:
    1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14