Прикладное программное обеспечение: системы автоматической обработки текстов
ModernLib.Net / Интернет / Мальковский Михаил / Прикладное программное обеспечение: системы автоматической обработки текстов - Чтение
(стр. 4)
Программа осуществляет контроль за переопределением известных системе аббревиатур. Если, например, в разделе 1.2. встретилась аббревиатура СВП (с расшифровкой в тексте - "схема внешних прерываний"), а в списке N 2 аббревиатура СВП сопоставлена термину "субкомплекс внешней памяти", фиксируется ошибка: недопустимое переопределение аббревиатуры из перечня.
Программа ЛЕКС7
Программа проверяет правильность расшифровки, то есть тот факт, что аббревиатура читается в расшифровке по началам слов, причем некоторые слова расшифровки могут не участвовать в образовании аббревиатуры. Пример работы программы:
Эта организация - центр переводов (ВЦП). НЕСООТВЕТСТВИЕ АББРЕВИАТУРЫ И РАСШИФРОВКИ: ВЦП - центр переводов
Программа ЛЕКС8
Программа ЛЕКС8 (без параметров) проверяет правильность оформления списка используемых в тексте аббревиатур (для отчета по НИР - это "Перечень условных обозначений, символов, единиц и терминов"). Предполагается, что каждая пара "аббревиатура - расшифровка" в перечне представлена одной строкой. В процессе обработки перечня заполняется список замечаний. Пример работы программы:
ОБРАБАТЫВАЕТСЯ ПЕРЕЧЕНЬ АББРЕВИАТУР: БНК - бортовой нейрокомпьютер БНФ - бекусовская нормальная форма КПД - канал прямого доступа ОЗУ МПК - микропрограммируемый контроллер ОРЗ - общий регистр записи ПНП - перейти в неустойчивое положение СВП - субкомплекс внешней памяти СПТ - субкомплекс рабочего таймера ЗАМЕЧАНИЯ: 4 : ОЗУ * НЕТ РАСШИФРОВКИ 5 : МПК * НАРУШЕНИЕ АЛФ. ПОРЯДКА 7 : ПНП * РАСШИФРОВКА НЕ ЯВЛЯЕТСЯ ГРУППОЙ СУЩЕСТВИТЕЛЬНОГО 9 : СПТ * НЕСООТВ: АББР.-РАСШ.
3.2.3.3. Стилистический контроль
Программы данного блока фиксируют внешние характеристики фраз, свидетельствующие о сложности их структуры, а следовательно, и о сложности восприятия смысла. Имеются, например, программы, контролирующие длину фраз, количество запятых, количество придаточных предложений, наличие во фразах текста длинных цепочек слов в родительном падеже ( например,
значений аргументов программы пользователя) или цепочек однокоренных слов (
пользователь может воспользоваться, транслятор транслирует). Есть программы контроля стилистической окраски слов. В научно-технической литературе нежелательно употребление устаревших слов и канцеляризмов (
ибо, вышепоменованный), жаргонизмов (
виндуза), разговорных оборотов (
этот алгоритм, уж поверьте, . . .). При обнаружении таких слов в тексте их рекомендуется убрать или заменить более нейтральными синонимами. Особый класс составляют слова, явно характеризующие специфику темы (предметной области), раскрывать которую иногда нежелательно. Например, в документе для внутреннего пользования можно употребить термин
военно-космический, а в тексте сообщения, передаваемого по открытым каналам связи его целесообразно заменить (соответствующая программа предлагает слово-замену
специальный).
3.2.3.4. Контроль структуры текста
Данные программы контролируют правильность оформления отдельных структурных частей текстового документа с точки зрения соответствующих нормативных требований (например, требований ГОСТа 7.32-81, регламентирующего правила оформления научно-технического отчета). Проверяется оформление титульного листа, списка исполнителей, реферата и других разделов документа.
3.2.3.5. Синтаксический контроль
Программа СИНТ1
Программа СИНТ1 находит в указанной области именные словосочетания вида ‹прилагательное› + ‹существительное› и ‹существительное› + ‹существительное в форме родит. падежа› и др. Программа может оказаться полезной при анализе лексического состава текста и при поиске терминологических словосочетаний, особенно в тех случаях, когда различные фрагменты текста написаны разными авторами (возможно, использующими близкие, но не совпадающие термины). Найденные программой словосочетания группируются вокруг "ключевого слова" - существительного, играющего роль синтаксической вершины словосочетания. Ряд программ синтаксического контроля обнаруживает нарушения обычного (нейтрального) порядка слов и взаимного расположения групп слов. Такие нарушения могут затруднить восприятие текста.
Например: "
Раздел второй посвящен описанию новых алгоритмов".или "
Использует этот алгоритм всего две вспомогательные переменные." Отметим, что иногда нарушение нейтрального порядка слов может намеренно использоваться автором текста с целью изменения логического ударения, усиления ("
Алгоритм этот очень эффективен!").
Программа СИНТ2
Программа СИНТ2 осуществляет контроль придаточных предложений с союзным словом который , а именно, проверяет однозначность установления связи между союзным словом и его словом-хозяином из главного предложения. В случае, когда таких слов-хозяев не обнаружено или их более одного, выдается соответствующая диагностика. Пример работы программы:
Рассмотрим
структуру
памятивычислительной
машины, в
которойхранятся команды. СЛОВО
которойИМЕЕТ БОЛЕЕ ОДНОГО СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ: машины, памяти, структуру Каждому каналу соответствует свое устройство,
которыев свою очередь связаны с главной ЭВМ. СЛОВО
которыеНЕ ИМЕЕТ СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ Мощь языка Си - результат выявления его
авторами
потребностей
программистов,
которыевозникают при программировании на языке ассемблера. СЛОВО
которыеИМЕЕТ БОЛЕЕ ОДНОГО СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ: программистов, потребностей, авторами
3.2.3.6. Пунктуационный контроль
Пунктуационные ошибки в реальных предложениях русского языка встречаются довольно часто. Разделим их условно на две группы. Ошибки одной группы связаны с уровнем пунктуационной грамотности и появляются в основном в тех типах текстов русского языка, которые не проходят этап профессионального редактирования (например, в репликах в диалоге пользователя с ЭВМ). Причиной ошибок другого рода является несовершенное владение навыками клавиатурного набора. Такие ошибки принято называть «типографскими». Блок пунктуационного контроля системы ЛИНАР разработан на основе весьма полной пунктуационной модели русского языка. Полнота и корректность базовых знаний является основой достижения устойчивости и эффективности программных средств, реализованных на основе данной модели. В то же время блок пунктуационного контроля является «открытым», т.е. построен таким образом, чтобы обеспечить возможность работы средств адаптации и, при необходимости, введения новых правил пунктуации. Адаптация позволяет автоматически либо модифицировать правила анализа (чтобы новый вариант был применим к встретившейся ситуации), либо обнаружить и исправить пунктуационную ошибку в рассматриваемом предложении. Открытость блока - одна из предпосылок его устойчивости к появлению случайных и мотивированных пунктуационных ошибок, вариативных форм. Система ЛИНАР готова к возможности появления в тексте незнакомых пунктуационных ситуаций и к соответствующей адаптации своих лингвистических знаний (изменению модели) или к исправлению ошибки (изменению текста). При проверке пунктуации можно использовать любое количество программ контроля, выбирая их при этом по различным признакам. Например, можно осуществлять проверку только тех правил, которые выявляют лишние знаки препинания, можно только тех, которые выявляют пропущенные знаки препинания и т.д. При подобной настройке может меняться совокупность пунктуационных правил, степень жесткости требований по соблюдению каких-либо условий и т. д., что позволяет оценивать качество текста с точки зрения различных категорий пользователей. Набор желаемых для данного сеанса работы модулей формируется в начале работы пользователем.
Пример работы программ пунктуационного контроля:
В ПРЕДЛОЖЕНИИ: Только и развлечений
,
что кино раз в неделю ЗАМЕЧЕНА ПУНКТУАЦИОННАЯ ОШИБКА. В выделенном месте не должно быть данного знака препинания. В рассматриваемом случае запятая перед
чтоне ставится . Необходимо пояснение ошибки? (Д/Н) Д В безглагольном предложении перед союзом
чтов выражении
только и ... что, за которым следует имя существительное или местоимение, запятая не ставится. Необходимы примеры правильного применения данного правила? (Д/Н) Д Только и денег что пятак в кармане. Только и разговоров что о них двоих.
3.2.3.7. Семантический контроль
Программа СЕМ1
Программа обнаруживает несовпадение ожидаемых семантических признаков актантов (подлежащее, дополнения) глагола и признаков слов (групп слов), реально занимающих соответствующие позиции. Такое несовпадение мешает завершить анализ фразы, поскольку синтаксически допустимая связь не может быть установлена из-за семантических противоречий. Проверяя употребление в тексте глаголов, программа обращает внимание пользователя на "подозрительные" актантные конструкции.
Пример работы программы:
Все рассматриваемые программы написаны на
ассемблере. НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ! В ОПИСАНИИ ГЛАГОЛА "написать" СЕМ.-КЛАСС АКТАНТА: =язык_программирования= РЕАЛЬНЫЙ АКТАНТ
ассемблереИМЕЕТ СЕМ.-КЛАСС: =транслятор=
Схема прерыванийподключается к магистрали. НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ! В ОПИСАНИИ ГЛАГОЛА "подключаться" СЕМ.-КЛАСС АКТАНТА: =устройство= РЕАЛЬНЫЙ АКТАНТ
схема прерыванийИМЕЕТ СЕМ.-КЛАСС: =структура2=
Программа СЕМ2
Программа проводит полный синтактико-семантический анализ фраз указанной области текста. При этом фиксируются случаи, когда фраза имеет (в контексте предметной области, к которой относится текст) более одной интерпретации, т.е. допускает неоднозначное толкование.
Пример работы программы:
Снижение напряжения вызвало отключение принтера. НЕОДНОЗНАЧНАЯ ИНТЕРПРЕТАЦИЯ! 1 трактовка: =причина= : снижение напряжения =следствие= : отключение принтера 2 трактовка: =причина= : отключение принтера =следствие= : снижение напряжения
Программа СЕМ3
Программа СЕМ3 проверяет однозначность установления связи между личным местоимением и его антецедентом (словом, на которое ссылается данное местоимение). В случаях, когда такой антецедент не найден или их найдено более одного, выдается соответствующая диагностика.
Пример работы программы:
Каждому каналу сопоставлено определенное устройство.
Они, в свою очередь, связаны с главной ЭВМ. ДЛЯ МЕСТОИМЕНИЯ
ониВ ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НЕ НАЙДЕНО СЛОВ, НА КОТОРЫЕ ЭТО МЕСТОИМЕНИЕ ССЫЛАЕТСЯ Рассмотрим
структуру
памяти
ЭВМ. Она состоит из двух основных частей. ДЛЯ МЕСТОИМЕНИЯ
онаВ ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НАЙДЕНО БОЛЕЕ ОДНОГО СЛОВА, НА КОТОРОЕ ССЫЛАЕТСЯ ЭТО МЕСТОИМЕНИЕ: ЭВМ, памяти, структуру
Программа СЕМ4
Программа проверяет, принадлежат ли значения количественно оцениваемых свойств описываемых в тексте объектов заданному диапазону. В случае, если значение свойства выходит за границы диапазона, процедура выдает соответствующую диагностику.
Пример работы программы:
Информация передается в
сопроцессор АК-34по
16 каналу. ОБ'ЕКТ: сопроцессор АК-34 ГРУППА: 16 каналу ВЫХОД ЗНАЧЕНИЯ ЗА ВЕРХНЮЮ ГРАНИЦУ ДИАПАЗОНА (СОПРОЦЕССОР АК-34 ИМЕЕТ КАНАЛЫ: 0,1,2, ... 15)
4. Информационно-поисковые системы
Поиск информации является одной из основных составляющих человеческой деятельности, с ним мы сталкиваемся ежедневно: изучая театральную афишу, чтобы выбрать интересный спектакль, подбирая в расписании поездов удобную электричку, листая телефонную книгу. Человеку, в силу своей профессии или увлечений часто сталкивающемуся с подбором и поиском какой-либо тематической информации, рано или поздно (с возрастанием ее объема) приходится применять некоторые принципы систематизации и классификации имеющихся данных, обеспечивающие более удобный и эффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге по определенной схеме записываются на карточку, туда же помещается шифр - несколько букв и цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку); карточки расставляются в алфавитном или тематическом порядке. Применение ЭВМ дает более широкие возможности для работы с большими массивами информации.
4.1. Основные определения
Информационно-поисковая система (ИПС)
- программная система для хранения, поиска и выдачи интересующей пользователя (абонента) информации. Абонент обращается к ИПС с
информационным запросом
- текстом, отражающим
информационную потребность
данного абонента, например, его желание найти список книг по теории информационного поиска или список аптек, в которых можно купить нужное лекарство. Поиск информации ведется в
поисковом массиве
, который формируется (и по мере необходимости обновляется) разработчиками или администраторами системы. Элементы поискового массива вводятся в информационно-поисковую систему на естественном (или близком к нему) языке, а затем обычно подвергаются
индексированию
, т.е. переводу на формальный
информационно-поисковый язык
.
Индексирование
- выражение центральной темы или предмета какого-либо текста или описание какого-либо объекта на информационно-поисковом языке
[1].
Предмет
- объект (материальная вещь, понятие, свойство или отношение), который рассматривается или упоминается в документе/информационном запросе.
Тема
документа/информационного запроса - раздел науки или техники, область практической деятельности или проблема, которой посвящен документ/ информационный запрос. По характеру поискового массива и выдаваемой информации ИПС подразделяют на
документальные
и
фактографические
.
Документальная ИПС
предназначена для отыскания документов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую информацию. Поисковый массив такой ИПС состоит из поисковых образов документов (т.е. элементов, каждый из которых передает основное содержание документа) или из самих документов. В ответ на предъявляемый информационный запрос ИПС выдает некоторое множество документов (или адреса их хранения), содержащих искомую информацию. Документом называют любой осмысленный текст, который обладает определенной логической завершенностью и содержит сведения о его источнике и/или создателе.
Фактографическая ИПС
обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. Поисковый массив состоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некотором формальном языке. Например, если бы Служба знакомств решила создать документальную ИПС, поисковый массив состоял бы непосредственно из писем ее клиентов типа:
"Меня зовут Илья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...".Для создания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида:
"Фамилия - Муромец. Имя - Илья. Возраст - 33. Должность - секьюрити". Соответственно и запросом в первом случае будет служить часть письма клиента с пожеланиями относительно его партнера:
"Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашним интересовалась", а во втором - составленная по ней таблица:
"Возраст ‹33, интеллект - высокий, интересы - домашнее хозяйство". В настоящее время фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД. Далее, говоря ИПС, будем иметь в виду документальную информационно-поисковую систему. Одним из популярных способов перевода документа на внутренний язык системы является
координатное индексирование
- присвоение документу набора ключевых слов или кодов, определяющих его содержание. Возможны два способа индексирования: свободное, когда непосредственно из текста документа извлекаются ключевые слова без учета всех видоизменений их форм и отношений между ними; и контролируемое, когда в поисковый образ документа включаются только те слова, которые зафиксированы в
информационно-поисковом тезаурусе
, где указаны их синонимические, морфологические и ассоциативные отношения.
4.2. Тезаурус
Тезаурус
- специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются
дескрипторы
. Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области. Например, в качестве дескриптора может быть выбрано любое (предпочтительно наиболее часто используемое или короткое) ключевое слово или словосочетание или же цифровой код. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.
Синонимы
- слова (словосочетания), разные по написанию, но одинаковые (в рассматриваемой предметной области) по значению:
ведьма=
злая волшебница.
Антонимы
- слова с противоположным значением:
добрый-
злой.
Гипоним
- термин, являющийся частным случаем другого, более общего понятия.
Гипероним
- термин, наоборот, являющийся общим для ряда других, частных понятий.
Солдат= гипоним (
военный);
человек= гипероним (
военный) гипероним (
вкусно готовит)= гипероним (
содержит дом в чистоте)= гипероним (
умеет шить)=
хорошая хозяйка. В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный" определены следующие типы связей: – род-вид:
средства передвижения-
телега,
ковер-самолет,
сапоги-скороходы,
печка – часть-целое:
стена,
дверь,
курья ножка- части
избушки; – причина-следствие:
опустил меч-
голова с плеч; – сырье-продукт:
сталь-
меч; – административная иерархия:
султан-
визирь-
стражник; – процесс-субъект:
казнить-
палач; – процесс-объект:
казнить-
жертва; – функциональное сходство:
печка Емели-
джип Cherokee; – свойство - носитель свойства:
огнедышащий-
дракон; – антонимия; – синонимия. Ассоциативное отношение является объединением других отношений, не входящих в иерархические отношения или в отношения синонимии (то есть любые виды связей между словами, возможно весьма специфичные, существующие только в определенной предметной области). Словарная статья (на неформальном уровне) могла бы выглядеть так: ПРЕМУДРАЯ = умная АНТОНИМ - глупая ГИПОНИМЫ: знающая, образованная, догадливая, начитанная ВИД - показатель интеллекта (высокий) Тезаурус и грамматика составляют
информационно-поисковый язык
. Грамматика содержит правила образования производных единиц языка (семантических кодов, синтагм, предложений) и регламентирует использование средств обозначения синтаксических отношений (например, указателей связи). В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные качества и характеристики, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус должны быть составлены таким образом, чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это может определяться по ключевому слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания
хотел бы познакомиться,
должен соответствовать). На основании тезауруса и правил грамматики формируются поисковые образы документа и запроса (поисковое предписание).
Поисковое предписание
- текст на информационно-поисковом языке, содержащий признаки документов, затребованных пользователем в запросе.
Поисковый образ документа
- текст на информационно-поисковом языке, поставленный в однозначное соответствие документу и отражающий его признаки, необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающих содержание документа или, как минимум, определяющих его тему, поисковый образ документа обычно содержит также идентифицирующие и некоторые дополнительные сведения (выходные данные, тип документа, его язык и т.д.). Поисковые предписания формируются при поступлении запросов, а поисковые образы документов могут создаваться как при пополнении системы новыми документами, так и при поиске ответа на запрос. В системах, где потоки информации велики и часто обновляемы, нет необходимости тратить ресурсы на индексирование, и за поисковый образ документа часто принимается сам документ или же его название.
4.3. Релевантность
Целью ИПС является выдача документов,
релевантных
(семантически соответствующих) запросу (по-английски relevant - относящийся к делу). Различают релевантность
содержательную
и
формальную
. Релевантность содержательная трактуется как соответствие документа информационному запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе
критерия выдачи
.
Критерий выдачи
- формальное правило, совокупность признаков, по которым определяется степень формальной релевантности поискового образа документа и поискового предписания и принимается решение о выдаче/невыдаче некоторого документа в ответ на информационный запрос.
Информационная
потребность
?
Формулировка информационного запроса
?
Поисковое
предписание
? Релевантность Релевантность ? содержательная формальная : Документы ?
Индексирование
?
Поисковый
массив
В автоматизированных системах поиск основан на формальной релевантности, содержательная релевантность в них определяется, например, путем экспертных оценок и используется для получения данных об
эффективности информационного поиска в системе
(качестве ее работы). В качестве критерия выдачи может быть выбрано полное совпадение поисковых образов документа и запроса, включение множества ключевых слов запроса во множество ключевых слов документа, пересечение этих множеств и др. В рассматриваемом примере при выборе в качестве критерия выдачи полного совпадения ключевых слов документа и запроса клиенту должны быть предоставлены письма персонажей, полностью отвечающих его требованиям. Навряд ли это их удовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше бы подошел для системы, где необходима точность, например, определяющей выбор лекарства при лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же, наверное, уместен критерий на пересечение. Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степени их соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и в запросе и в документе, суммируются, и документы выдаются в зависимости от значения этой суммы (например, если она превысила некоторое значение). Таким образом, если указать, что наиболее весомыми являются характеристики
богатствои
могущество, а не
добротаи
возраст, можно заполучить в женихи Кощея Бессмертного. При использовании весов также может применяться
эшелонированная выдача-отобранные документы предъявляются пользователю не в произвольном порядке, а по степени релевантности (по убыванию сумм весов), право окончательного выбора релевантных документов - за пользователем. Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, и ничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчание ИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишних документов). Массив документов разделяется на
выданныеи
невыданные- по одному критерию, и на
релевантныеи
нерелевантные- по другому.
Таким образом, для каждого запроса получаем 4 группы документов:
Соотношение количества документов в каждой из этих групп определяет эффективность информационного поиска. Для оценки эффективности используют следующие характеристики:
Рв
Полнота выдачи =
tabletable--
х 100%
Рв+Рн
Рв
Точность выдачи =
tabletable--
х 100%
Рв+Нв
Рн
Потери информации =
tabletable--
х 100%
Рв+Рр
Нв
Информационный шум =
tabletable--
х 100 %
Рв+Нв
Рв
Чувствительность =
tabletable--
x 100 %
Рв+Рн
Нн
Специфичность =
tabletable--
x 100%
Нн+Нв
В идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найдены все документы и ни одного лишнего). В реальных системах коэффициент полноты достигает 70%, а коэффициент точности поиска колеблется в очень широких пределах, иногда снижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: как внутренних свойств собственно поисковой системы (объема и характеристик информационного массива, информационно-поискового языка, критерия выдачи), так и от многих "внешних" условий: степени специфичности информационных запросов, способности пользователя правильно сформулировать свои информационные потребности на естественном языке, правильности построения конкретного запроса, а также от субъективного представления пользователя о том, что такое нужная ему информация. Из-за ошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так и системы, результаты могут сильно отличаться от того, что хотел получить пользователь, обращаясь к ИПС. Существует понятие
устойчивость поиска
- характеристика изменения полноты и точности при малых (семантически незначительных) изменениях запроса. Средние значения полноты и точности для конкретной системы обычно вычисляют путем тестирования ее на эталонной базе документов. В зависимости от требований к количеству и качеству выдаваемой ИПС информации выбираются разные критерии выдачи. Если важно не упустить нужную информацию (патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемой информации (библиотека) - следует улучшить точность. Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой и точностью поиска в одной системе (при использовании одного и того же информационно-поискового языка), т.е. повышение точности ведет к увеличению шума и, наоборот, при уменьшении шума снижается точность. Улучшить оба эти показателя одновременно можно, только внося изменения в информационно-поисковый язык, делая грамматику и тезаурус более лингвистически развитыми. При этом достижение максимально возможной полноты поиска связано с огромными сложностями. Последние 5-10% требуют такого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечет за собой увеличение трудоемкости обработки входной информации и времени поиска.
4.4. Языковой компонент
Увеличению эффективности ИПС в большой степени помогает более детальная обработка текста документа. Так, существуют системы, которые для простоты в качестве поискового образа документа принимают его название, однако оно в силу разных обстоятельств не всегда формально отражает содержание текста. Например, при подготовке данного материала была использована статья "А глаз как у орла", не имеющая никакого отношения ни к орнитологии, ни к окулистам. Также большое значение имеет применение программ, производящих лингвистически содержательную обработку текстов на естественном языке (учитывающую морфологию, синтаксис). Только с их помощью можно установить, являются ли похожие слова (почти все буквы одинаковые) формами одного слова или же это совершенно разные слова, в соответствие которым поставлены разные семантические единицы.
Страницы: 1, 2, 3, 4, 5
|
|