Современная электронная библиотека ModernLib.Net

Методы статистического анализа исторических текстов (часть 2)

ModernLib.Net / История / Фоменко Анатолий Тимофеевич / Методы статистического анализа исторических текстов (часть 2) - Чтение (стр. 47)

Автор:

Фоменко Анатолий Тимофеевич

Жанр:

История

Читать книгу полностью (2,00 Мб)
Скачать в формате fb2 (628 Кб)
Скачать в формате doc (656 Кб)
Скачать в формате txt (622 Кб)
Скачать в формате html (630 Кб)
Страницы:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64

      X = {x } ,
      "склеенная" из двух строго стационарных случайных последовательностей
      1 t=1
      склейки n .
      Пусть известно, что X и X отличаются между собой одной из двумерных функций распределения, а именно, предположим, что функция
      P{x u , x u } = F(u ,u ) до момента t = n - 2 равна F ( ),
      а при t t = n +1 - F ( ), причем \F ( ) - F ( )\ > 0, где \ \ -обычная sup-норма. Хорошо известно, что функция распределения конечномерного случайного вектора может быть приближена равномерно с любой точностью функцией распределения случайного вектора с конечным числом значений. Отсюда следует, что при разбиении плоскости R на достаточно большое число непересекающихся областей A , j=1,...,r, вектор (x ,x ) можно аппроксимировать по распределению вектором с конечным числом значений. Поэтому, если ввести новые случайные последовательности
      (I(A) - индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V ( ) = x x , =0,1,2,..., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V ( ).
      Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.
      Вторая идея нашего подхода заключается в использовании для обнаружения моментов "разладок" семейства статистик вида
      Y (n) = [(1 - - )] [ - x - x ] (1)
      где 0 1, 1 n N-1, X= {x } - исследуемая реализация, и некоторых производных от этих статистик.
      Семейство (1) представляет собой обобщенный вариант статистики Колмогорова-Смирнова, которая используется для проверки совпадения или различия функций распределения у двух выборок (при фиксированном n). Можно показать, что статистики вида (1) асимптотически (при N--> и сохранении соотношения между объемами "склеенных" реализаций) минимаксны (т.е. минимизируют максимально возможную вероятность ошибки оценивания момента "разладки") по порядку.
      Указанные идеи (подробнее см.[546]) воплощены в комплексе прикладных программ VERDIA для персональной ЭВМ типа IBM-PC. Этот комплекс позволяет в диалоговом режиме обнаруживать "разладки" произвольной случайной последовательности. При помощи комплекса VERDIA нами был проведен анализ ряда конкретных исторических текстов. Результаты этого анализа изложены в следующем Дополнении 2 к настоящей книге.
      ДОПОЛНЕНИЕ 2.
      Б.Е.Бродский, Б.С.Дарховский, Г.В.Носовский, А.Т.Фоменко.
      ВЫЯВЛЕНИЕ ОДНОРОДНЫХ И НЕОДНОРОДНЫХ ФРАГМЕНТОВ ВНУТРИ
      РУССКИХ ЛЕТОПИСЕЙ, РИМСКИХ И ГРЕЧЕСКИХ ХРОНИК, В БИБЛИИ.
      1. ВВЕДЕНИЕ.
      В современной математической статистике большое применение нашел важный метод разладки, созданный А.Н.Ширяевым. В настоящей работе кратко описываются результаты интересного численного эксперимента, идея которого была впервые предложена А.Н.Ширяевым и А.Т.Фоменко. Эта идея и эксперимент обсуждались на научно-исследовательском семинаре "Геометрия и статистика", работавшем под их руководством в математическом ин-те им В.А.Стеклова АН СССР. Цель эксперимента - применить метод разладки к важной задаче выявления, распознавания "однородных кусков" внутри достаточно больших исторических (и более общо, - т.н. нарративных) текстов. К таким текстам относятся, в частности, исторические хроники, летописи и т.п. Теоретические основы метода разладки см. в статье Б.Е.Бродского и В.С.Дарховского, помещенного в настоящей книге как Дополнение 2.
      Выявление информативных количественных характеристик текстов и предварительная обработка исторических текстов, в частности, русских летописей и исторических книг Библии, были выполнены Г.В.Носовским и А.Т.Фоменко. Статистический анализ и компьютерный эксперимент были затем проведены Б.С.Дарховским и Б.Е.Бродским. Большую помощь при этом нам оказали Т.Толозова, А.Громова и Л.Мищенко.
      Сейчас мы опишем постановку задачи, полученные результаты и их интерпретацию. Многие древние исторические источники составлены из отдельных фрагментов, кусков разной природы. Например, эти отдельные куски могли быть написаны в разное время разными авторами и вообще в разных странах. Поэтому могут существенно отличаться друг от друга своим характером, языком и стилем изложения, степенью подробности, эмоциональной окраской. Затем могло случиться так, что эти отдельные фрагменты были объединены каким-то более поздним летописцем в одну книгу. После этого первоначальное происхождение этих текстов-фрагментов было забыто. Они начинали существовать, "спаянные" в единое целое внутри какой-то одной поздней летописи. С течением времени, при многократной переписке летописей, их изменений под влиянием разных "редакторов", внешние различия, существовавшие первоначально между различными старыми фрагментами, составляющими "новый большой текст", постепенно стирались. Сегодня такие составные тексты часто воспринимаются как единое целое, поскольку предистория их возникновения давно забыта.
      Возникает естественный и важный вопрос: можно ли, опираясь на численный, статистический анализ различных частотных характеристик, выявить сегодня внутри единой большой летописи эти первичные составные части, куски, то есть можно ли снова разрезать большой текст на его первичные, древние фрагменты-первоисточники ?
      В основу излагаемого ниже метода положена идея, согласно которой каждый первичный, древний фрагмент был более или менее "однороден". Например, он мог быть написан одним автором, а потому несет на себе характерный отпечаток одной индивидуальности. Единый стиль, манера и т.п. Поскольку эта гипотетическая индивидуальность по-видимому "мало менялась" в процессе написания одного текста, то можно сформулировать естественную гипотезу, модель о "первичной однородности" фрагментов, написанных одним автором, в одно время, или в одной и той же исторической школе летописцев.
      Эта на первый взгляд простая идея, сформулированная А.Н.Ширяевым и А.Т.Фоменко, оказалась полезной при анализе конкретных исторических текстов. Более того, оказалось, что результаты, полученные на основе применения этой идеи и статистического исследования Б.С.Дарховского, Б.Е.Бродского и Г.В.Носовского, применительно к конкретным историческим текстам, хорошо согласуются с независимыми результатами, полученными применением совсем других методов, тоже статистического характера.
      В качестве численной характеристики исследуемого текста была взята функция объема, введенная выше. Напомним ее определение. Предположим, что исторический текст X разбит на "главы" X(t), где каждая "глава" это фрагмент текста, посвященный описанию событий одного года t. Такова структура очень многих древних летописей. Эта структура условно изображена на рис.Доп-2.1. Например, слева на странице указываются годы, например по эре от сотворения мира, или по эре Р.Х. Рядом с каждым годом помещен фрагмент текста, излагающий события, происшедшие (по мнению летописца) именно в этом году. Это и есть фрагменты X(t). Далее, можно вычислить объем каждого фрагмента. Объем можно измерять, например, числом строк, или числом страниц, или числом знаков. Таким образом, мы получаем последовательность чисел - объемов глав X(t). Эти числа удобно изобразить в виде графика. См. рис.Доп-2.2. Выбор единицы измерения объема здесь для нас абсолютно несущественен, так как изменение единицы измерения приводит лишь к смене масштаба по вертикали на рис.Доп-2.2.
      Излагаемый ниже метод разбиения больших исторических текстов на однородные и неоднородные куски применим не только к графикам объема текстов, но и к другим численным характеристикам. Для упрощения изложения мы будем говорить здесь лишь о функциях объемов.
      Выше мы говорили об однородных кусках исторических текстов. Однако в действительности, мы разобьем тексты на т.н. стационарные куски, являющиеся не только однородными, но и такими, что внутри них "параметры процесса" практически не меняются.
      2. РАЗЛАДКИ В РУССКИХ ЛЕТОПИСЯХ.
      Начнем с анализа русских летописей, собранных в Полном Собрании русских летописей (Москва, изд-во Наука). При этом из каждой летописи были выделены те куски, внутри которых имеется четкое разбиение на годы, что дало возможность вычислить объемы погодных фрагментов. Дело в том, что иногда в летописях имеются фрагменты, посвященные описанию длительных периодов и не имеющие детального разбиения по годам. Такие куски летописи не анализировались, так как отсутствие временной шкалы не позволяет вычислить функцию объема. Мы обработали функции объемов, вычисленные А.Т.Фоменко для следующих исторических текстов:
      1) Двинской летописец (краткая редакция): фрагмент, описывающий события от 1390 до 1717 годов н.э.
      2) Двинской летописец (пространная редакция): фрагмент, описывающий события от 1340 до 1751 годов н.э.
      3) Повесть временных лет: фрагмент, описывающая события якобы от 850 до 1430 годов н.э.
      4) Никифоровская летопись: фрагмент, описывающий события якобы от 850 до 1430 годов н.э.
      5) Супрасльская летопись: фрагмент, описывающий события якобы от 850 до 1450 годов н.э.
      6) Волынская летопись: фрагмент, описывающий события якобы от 860 до 1555 годов н.э.
      7) Холмогорская летопись: фрагмент, описывающий события якобы от 850 до 1850 годов н.э.
      8) Летописец князя Владимира Киевского: фрагмент, описывающий события якобы от 970 до 1237 годов н.э.
      9) Летописец Рачинского: фрагмент, описывающий события от 1401 до 1548 годов н.э.
      10) Евреиновская летопись: фрагмент, описывающий события от 1401 до 1547 годов н.э.
      11) Академическая летопись: фрагмент, описывающий события от 1339 до 1446 годов н.э.
      Функции объемов этих летописей приведены в Приложении 4.1. Результаты статистического анализа представлены на рис.Доп-2.3, рис.Доп-2.4, рис.Доп-2.5, рис.Доп-2.6.
      На каждом рисунке указаны обнаруженные зоны однородности, а также выделены те куски, которые содержат мало данных, в которых статистический анализ не дает надежных результатов. ОТЧЕТЛИВО ВИДНЫ МОМЕНТЫ РАЗЛАДКИ. Каждый такой момент, то есть смена режима, определяется, конечно, приблизительно. На рисунках пунктиром указаны границы той зоны, внутри которой, с указанной на рисунках вероятностью, находится момент разладки, момент смены режима.
      Приведем здесь также некоторые следствия из полученных результатов. Наиболее интересное - это наглядное обнаружение зависимостей между различными текстами. Напомним, что тексты называются зависимыми, если они описывают одни и те же события в истории одного региона на одном и том же интервале времени. В главе 3 настоящей книги была описана статистическая методика выявления зависимых и независимых текстов. В частности, применительно к русским летописям, была обнаружена зависимость, например, между следующими текстами:
      Двинской летописец (краткая редакция) и Двинской летописец (пространная редакция).
      Зависимость этих летописей абсолоютно естественна, так как эти два текста просто являются разными вариантами одной и той же хроники краткая и более полная версия. Чрезвычайно интересно, что факт зависимости проявляется и в результате применения метода выявления однородных и неоднородных кусков, а также моментов разладки. Естественно ожидать, что однородные куски внутри зависимых текстов должны быть "примерно одинаковыми". См. условное изображение на рис.Доп-2.7. И действительно, эта гипотеза подтверждается при анализе конкретных исторических текстов.
      На рис.Доп-2.3 отчетливо видна корреляция между однородными кусками внутри краткой и полной редакций Двинского летописца.
      В Главе 3 была обнаружена зависимость между Никифоровской и Супрасльской летописями. Эта зависимость проявляется и в результатах, полученных методом, излагаемым здесь. В самом деле, на рис.Доп-2.5 отчетливо видна корреляция между однородными кусками внутри Никифоровской и Супрасльской хроник. Интересно сравнить эти результаты со структурой знаменитой "Повести временных лет". Дело в том, что эта хроника также в значительной мере зависима с Никифоровской и Супрасльской летописями. Однако, "Повесть временных лет" существенно подробнее две другие хроники и в то же время она существенно короче. Поэтому на рис.Доп-2.4 эта зависимость не проявляется, если не считать примерно одновременного "начала лакун". Поскольку обсуждаемый здесь метод обрабатывает амплитуды графиков объема, то здесь существенную роль играет разница между богатыми и бедными летописями. В данном примере "Повесть временных лет" - богатая летопись, а Никифоровская и Супрасльская - бедные летописи. Амплитудные корреляции между зависимыми бедными и богатыми текстами обсуждаются в работах С.Т.Рачева и А.Т.Фоменко. См. Главу 3.
      Таким образом, при сравнении летописей приблизительно одного уровня подробности (изложения) полученные здесь результаты согласуются с результатами, полученными ранее на основе совсем других идей.
      Кроме перечисленных выше русских летописей, были обработаны также следующие хроники из Полного собрания русских летописей.
      АКАДЕМИЧЕСКАЯ ЛЕТОПИСЬ. Оказалось, что здесь - мало данных для уверенного применения метода обнаружения разладки. Длительность погодного интервала примерно 100 лет с лакуной около 40 лет.
      ЛЕТОПИСЕЦ КН. ВЛАДИМИРА КИЕВСКОГО. Здесь тоже мало данных. Описанный интервал времени меньше 80 лет, причем - с лакунами.
      РАЧИНСКАЯ И ЕВРЕИНОВСКАЯ ЛЕТОПИСИ. Здесь мало данных. Описанный интервал - 150 лет, причем с лакуной примерно в 50 лет.
      3. РАЗЛАДКИ В ТРУДЕ ТИТА ЛИВИЯ И ТРУДЕ БАРОНИЯ.
      Наряду с русскими летописями, были обработаны два фундаментальных текста по "древне-римской" и средневековой истории:
      1) Тит Ливий, "История от основания Города" [124]. В ней был выделен погодный фрагмент, без больших лакун, описывающий события от 1-го года от основания Города (якобы Рима) до 465 года от основания Города. Эта хроника описывает события в "античном" Риме якобы от 753 года до н.э. до 288 года до н.э., согласно скалигеровской хронологии. А.Т.Фоменко подсчитал объемы глав-поколений, на которые естественно разбивается книга Тита Ливия. Затем, в результате нашего статистического исследования внутри текста Ливия была найдена одна разладка. Формально - две, но они оказались очень близки и соответствующие доверительные интервалы практически совпадают. См.рис.Доп-2.8. Эта разладка происходит примерно в 390-400 гг. от основания Города, то есть якобы около 350 года до н.э., согласно скалигеровской хронологии. Доверительный интервал - от 360 до 440 годов от основания Города, то есть якобы от 400 до 310 годов до н.э. Функция объема труда Т.Ливия приведена в Приложении 4.2.
      2) Baronius, Annales ecclesiastici a Christo nato ad annum 1198, изд. Москва, 1913, т.1, [533]. Этот текст описывает события в средневековом Риме. Был выделен погодный фрагмент якобы от 1 года н.э. до 400 года н.э. Здесь были подсчитаны объемы погодных фрагментов, на которые стандартным образом разбивается книга Барония. Функция объема книги Барония приведена в Приложении 4.3.
      Статистическая зависимость этих двух текстов уже была указана выше в Главе 4. На рис.Доп-2.8 представлены зоны стационарности, обнаруженные в результате статистического эксперимента, обсуждаемого в настоящей работе. Здесь снова сравниваются тексты разной степени подробности, потому зависимость текстов может проявляться слабо. Как видно из рис.Доп-2.8, зоны стационарности распределены "достаточно похоже". Хотя в рамках данного метода оценить степень близости количественно достаточно трудно. Такому сравнению препятствует, к сожалению, то обстоятельство, что начальная часть труда Тита Ливия недостаточно информативна для описываемого здесь метода сравнения текстов.
      4. РАЗЛАДКИ В "ИСТОРИИ" ГЕРОДОТА И В "ИСТОРИИ" ТАЦИТА.
      Мы исследовали также "Историю" Геродота (Л.: Наука, 1972). Функция объема приведена в Таблице Доп.2.1.
      В результате, в книге Геродота [39] были обнаружены две разладки:
      1) Третья книга, фрагмент 83 плюс-минус 56. Доверительный
      интервал - от начала третьей книги до ее конца.
      2) Восьмая книга, фрагмент 88 плюс-минус 80. Доверительный
      интервал накрывает восьмую книгу и самое
      начало девятой книги.
      СЛЕДСТВИЕ.
      Тем самым доказано, что текст "Истории" Геродота НЕОДНОРОДЕН и, следовательно, является некоторой компиляцией ПО КРАЙНЕЙ МЕРЕ ТРЕХ существенно различных текстов. Эта компиляция могла быть осуществлена как самим Геродотом, так и средневековыми редакторами, которые ввели в научный оборот текст Геродота. То же относится и к "Истории от основания Города" Тита Ливия (см.выше), внутри которой мы обнаружили одну разладку.
      Мы исследовали также "Историю" и "Анналы" Тацита [194]. Оказалось, что:
      1) "Анналы" Тацита однородны и разладок не содержат. Это может указывать на то, что текст "Анналов" написан одним автором.
      2) В "Истории" Тацита есть одна разладка: третья книга, фрагмент 50 плюс-минус 23. Эта разладка приходится приблизительно на момент прихода к власти римского императора Веспасиана. Наличие разладки может указывать на то, что "История" Тацита сшита из двух разных текстов.
      3) Совокупный текст Тацита, состоящий из "Анналов" и "Истории", содержит только одну разладку внутри "Истории". Там же, где была обнаружена разладка в "Истории", рассмотренной выше отдельно.
      СЛЕДСТВИЕ.
      Этот результат неожиданно проливает свет на известную проблему. Дело в том, что вопрос о принадлежности "Анналов" и "Истории" одному и тому же автору уже неоднократно дискутировался в научной литературе. См. подробности этой научной дискуссии в Главе 5. Из наших результатов следует, что "Анналы" и часть "Истории" написаны, повидимому, ОДНИМ И ТЕМ ЖЕ АВТОРОМ, или компилятором. Вторая же часть "Истории", а именно, начиная с описания императора Веспасиана, скорее всего либо написана кем-то другим. Возможен также и следующий вариант: "Тацит" - это не автор, а компилятор, который попросту соединил в одном тексте две разнородных хроники.
      5. РАЗЛАДКИ В БИБЛИИ.
      Наконец, нами была обработана Библия, включая как Ветхий Завет, так и Новый Завет. При этом была использована Библия издания Московской патриархии, 1979 года. Хорошо известно, что каждая книга Библии канонически разбита на отдельные главы, состоящие из стихов. Г.В.Носовский и А.Т.Фоменко подсчитали объемы этих канонических глав, измеренные:
      а) количеством строк (имеются в виду строки в стандартном издании Библии),
      б) количеством стихов.
      Так как разные стихи состоят, вообще говоря, из разного количества строк, то этих две характеристики объема главы разнятся. Интересно сравнить результаты, полученные обработкой этих двух разных функций объемов. Таблица объемов (в стихах и в строках) приведена в Таблице Доп.2.2. Всего в Библии 1357 глав.
      Статистический анализ, выполненный затем Б.С.Дарховским и Б.Е. Бродским, показал следующее. См.рис.Доп-2.9.
      а) ОТДЕЛЬНО ВЗЯТЫЙ ВЕТХИЙ ЗАВЕТ СОДЕРЖИТ СЛЕДУЮЩИЕ ПЯТЬ РАЗЛАДОК (указывая их, мы используем сквозную нумерацию всех стандартных глав Библии, а также приводим соответствующие стандартные ссылки на главы библейских книг):
      1) 159 плюс-минус 42 ( = Второзаконие 6; доверительный интервал
      от начала книги Числа до середины книги Иисуса Навина).
      2) 341 плюс-минус 53 ( = 1 Паралипоменон 3; доверительный
      интервал от конца 2 книги Царств до середины 2 книги
      Паралипоменон).
      3) 517 плюс-минус 31 ( = Иов 42 = последняя глава книги Иова;
      доверительный интервал от начала книги Иова до
      начала книги Псалтырь).
      4) 724 плюс-минус 49 ( = Премудрость Соломона 6; доверительный
      интервал от середины книги Притчи Соломона до конца
      книги Иисуса сына Сирахова).
      5) 966 плюс-минус 62 ( = Даниил 1; доверительный интервал от
      конца книги Иеремии до конца книги Аггея).
      б) ОТДЕЛЬНО ВЗЯТЫЙ НОВЫЙ ЗАВЕТ СОДЕРЖИТ ОДНУ РАЗЛАДКУ, отделяющую Евангелия, и возможно, Деяния апостолов, от остальной части Нового Завета (Послания и Апокалипсис). Точное место этой разладки: 1212 плюс-минус 18 ( = Деяния апостолов 23; доверительный интервал от начала Деяний апостолов до конца второго послания Петра).
      в) Был исследован также весь текст Библии, то есть Ветхий + Новый Заветы. ЗДЕСЬ БЫЛА НАЙДЕНА РАЗЛАДКА, ОТДЕЛЯЮЩАЯ ВЕТХИЙ ЗАВЕТ ОТ НОВОГО.
      СЛЕДСТВИЕ 1.
      Чрезвычайно интересно сравнить эти результаты с проведенным ранее А.Т.Фоменко анализом хронологии Библии. См. Главу 4 настоящей книги. Напомним, что в результате этого анализа в Библии была обнаружена серия "коротких" дубликатов, разделяющих большие блоки книг, дублирующие друг друга, и являющиеся, грубо говоря, отражением одной и той же хроники. Упомянутые короткие дубликаты (они были названы А.Т.Фоменко Т-серией в позднейших публикациях) как правило, появляются в начале и в конце этой хроники.
      Естественно ожидать, что в тех местах, где были обнаружены дубликаты Т-серии, должны находиться и места разладок. Эта гипотеза подтверждается. В самом деле, все разладки, находящиеся в т.н. "исторической части" Библии, то есть от начала Библии до книг Пророков, в точности попали в те места, где находится Т-дубликаты. Это - первая и вторая разладки из списка разладок в Ветхом Завете (см. выше).
      СЛЕДСТВИЕ 2.
      Третья, четвертая и пятая разладки в Ветхом Завете совершенно естественны с точки зрения классической библеистики. А именно, порождаемое ими разделение Библии в точности совпадает с хорошо известным разделением Библии, приводимом во всех стандартных комментариях. А именно:
      Третья разладка приходится в точности на начало блока т.н. "Писаний" (Псалтырь, Притчи Соломона, Екклезиаст, Песнь Песней, Книга Премудрости Соломона, Премудрости Иисуса сына Сирахова).
      Четвертая разладка указывает начало блока книг великих Пророков (Исаия, Иеремия, Иезекииль).
      Пятая разладка отделяет "великих пророков" от "малых пророков".
      СЛЕДСТВИЕ 3.
      Хорошо известным фактом является обособление Евангелий внутри Нового Завета. Это обстоятельство подтверждается нашим анализом и отражается в наличии разладки, обнаруженной нами в Новом Завете и, кстати, единственной (!).
      ВЫВОД.
      Все разладки, обнаруженные вне исторической части Библии, имеют вполне естественное объяснение и отражают известные науке границы между разнородными частями Библии. А разладки, находящиеся в исторической части, являются НОВЫМИ, РАНЕЕ НЕИЗВЕСТНЫМИ в классической библеистике. Как мы уже говорили, они имеют естественную хронологическую интерпретацию в рамках "статистической хронологии".
      Полная картина разладок в Библии показана на рис.Доп-2.9. Для каждой разладки указаны ее статистическая оценка (точечная) и границы доверительного интервала, в котором истинное значение разладки находится с вероятностью 0,9. Вероятность "ложной тревоги", то есть вероятность указать разладку несмотря на то, что ее в действительности нет, равна 0,05. Прямоугольниками (разной высоты) отмечены однородные стационарные зоны внутри Библии.
      Замечательным фактом является то, что границы однородных зон стационарности, обнаруженные в Библии, практически совпадают с границами зон однородности, найденными в Библии применением совсем других методов. Подробности см. выше - в Главах 3 и 4 . Методы, предложенные там, являются более тонкими, чем метод поиска разладки, а потому они обнаружили также более тонкое разбиение книг Библии на "однородные куски".
      На рис.Доп-2.10 обнаруженные зоны однородности изображены на другой шкале. Здесь Библия представлена как объединение фрагментов, названных в Главе 3 главами-поколениями. Это разбиение Библии отличается от канонического разбиения Библии на обычные главы. Грубо говоря, глава-поколение - это фрагмент текста, описывающий события, происшедшие в течение одного поколения (или при жизни одного какого-то главного персонажа). Иногда одна глава-поколение может состоять из нескольких стандартных глав Библии (обычно эти последние - "более мелкие", чем главы-поколения). Поэтому при переходе к новой шкале,несколько стандартных глав могут склеиться в одну главу-поколение. На рис.Доп-2.10 изображен этот пересчет: какие стандартные главы вошли в состав одной главы-поколения. На рис.Доп-2.10 приведено также сравнение результатов, полученных методом разладки, с разбиением Библии (на группы глав-поколений), полученные другими методами. Налицо поразительное согласование.
      ДОПОЛНЕНИЕ 3.
      В.П.Фоменко, Т.Г.Фоменко
      АВТОРСКИЙ ИНВАРИАНТ РУССКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ.
      ПРИЛОЖЕНИЕ: КТО БЫЛ АВТОРОМ "ТИХОГО ДОНА"?
      Комментарий А.Т.Фоменко (Москва, Московский государстьвенный университет, механико-математический факультет).
      Вниманию читателя предлагается исследование, выполненное моими родителями Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко в 1974-1981 годах. В полном объеме их работа публикуется здесь впервые. В краткой форме она вошла в 1983 году в сборник "Методы количественного анализа текстов нарративных источников", Москва, 1983, Академия Наук СССР, Ин-т Истории СССР, с.86-109.
      Главным результатом настоящей работы является обнаружение "авторского инварианта" для русских литературных текстов. Он позволяет различать некоторых авторов и оказывается полезным при решении проблем, связанных с плагиатом. Этот результат был получен на основе некоторой общей идеи - статистического анализа функций объема для нарративных текстов. Функции объема были введены в работе [р19], где были также предложены некоторые новые эмпирико-сатистические модели анализа информации в нарративных текстах. Развитие этих идей можно найти также в работе [р20].
      Настоящая работа находится, на первый взгляд, несколько в стороне от исследований по основам древней хронологии. Однако, этот материал показывает - как могут ЭМПИРИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ использоваться при решении не только хронологических, но и других смежных проблем, например, - при установлении авторства письменного документа. А поскольку центральным стержнем нашего анализа письменной истории являются эмпирико-статистические методы, мы и решили познакомить читателя с этим исследованием. Тем более, что проблема установления авторства в современной и в древней литературе является чрезвычайно актуальной и любые новые методы в этой области могут оказаться полезными.
      1. ВВЕДЕНИЕ. ВКРАТЦЕ ОБ ИСТОРИИ ПРОБЛЕМЫ.
      В литературе, истории, лингвистике часто возникает вопрос об атрибуции литературных произведений - действительно ли они написаны одним автором. Действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира творения одного гения? Или же они написаны разными людьми? Кто в действительности скрывается под именем "Шекспир"? Специальный интерес приобретает эта проблема, когда возникает подозрение в плагиате.
      Особое звучание задачи такого сорта приобретают при исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены или сомнительны.
      Укажем лишь на некоторые подходы к решению таких задач.
      Например, в работе В.Фукса [р1] изучался вопрос об авторстве некоторых древних текстов на основе статистического анализа различных ГРАММАТИЧЕСКИХ структур их языка.
      Много исследований посвящено обнаружению количественных закономерностей, позволяющих различать между собой РАЗНЫЕ ЛИТЕРАТУРНЫЕ ЖАНРЫ - поэзию, драматургию, публицистику и пр. [р2].
      Попытка использования точных математических приемов для решения проблемы плагиата изложена, например, в книге [р10].
      Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога "в", частицы "не" [р3], или при помощи длины предложений и слов [р4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А.Марков [р5], отметивший что при больших объемах выборок результаты такого типа должны "колебаться около среднего числа, подчиняясь общим законам языка", что естественно затрудняет различение авторов.
      Полезный подход продемонстрирован в ряде работ В.Фукса, где каждому автору сопоставляются такие его характеристики, как среднене количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).
      Интересные исследования ведутся и в отечественной филологии (см., например, [р6]-[р9]).
      Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить "значимые различия", опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является - какие различия следует считать значимыми, а какие - нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.
      2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?
      Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную характеристику литературных текстов (некий параметр), который
      а) однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов", и
      б) принимает существенно разные значения для произведений разных групп авторов.
      Желательно, чтобы число "разных групп" было достаточно велико, и чтобы каждая группа объединяла относительно мало похожих, близких по стилю авторов.
      Однако многообразие грамматических структур, участвующих в формировании литературных текстов, сильно затрудняет поиски таких инвариантов.

Страницы:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64

ЭЛЕКТРОННАЯ БИБЛИОТЕКА ModernLib.Net

Фоменко Анатолий Тимофеевич - Методы статистического анализа исторических текстов (часть 2)

Популярные авторы

Популярные книги

Методы статистического анализа исторических текстов (часть 2)