Современная электронная библиотека ModernLib.Net

Секреты сканирования на ПК

ModernLib.Net / Программы / Леонтьев Б. К. / Секреты сканирования на ПК - Чтение (стр. 4)
Автор: Леонтьев Б. К.
Жанр: Программы

 

 



Передать все страницы в

Передать все распознанные страницы в выбранное приложение без сохранения их на диск.


Опции

Открыть закладку Форматирование диалогового окна Опции, на которой вы имеете возможность установить опции сохранения документа.

Глава 30.

Сканирование многостраничных документов

В программе ABBYY FineReader для удобства процесса сканирования большого количества страниц предусмотрен специальный режим процесса сканирования: Сканировать несколько страниц, который дает возможность в одном цикле отсканировать несколько страниц.

• Кроме этого: при сканировании через TWAIN с использованием интерфейса FineReader по окончании процесса сканирования страницы сканирующее устройство автоматически начинает сканирование следующей страницы. при сканировании через пользовательский TWAIN-драйвер ваш «Twain-диалог» с программой не завершается: После того, как прекратится процесс сканирования первой страницы, можно просто положить следующую страницу в «лоток» и продолжить распознавание.

В OCR-системе ABBYY FineReader вы имеете возможность отсканировать большое количество страниц двумя способами:

• с использованием автоподатчика сканера.

• без использования автоподатчика.

Использование автоподатчика ADF

Интерфейс FineReader

В диалоговом окне Настройки сканера (доступ: Сервис к Настройки сканера) активизируйте опцию Использовать автоподатчик бумаги ( ADF) и запустите сканирование нескольких страниц (доступ: Файл к Сканировать несколько страниц).


Интерфейс TWAIN — драйвера сканера

В собственном TWAIN-диалоге сканера активизируйте опцию Use ADF (опция может иметь другое название в зависимости от модели сканера) и запустите сканирование (доступ: Файл к Сканировать несколько страниц).

Без использования автоподатчика ADF

Интерфейс FineReader

Из меню Файл выберите команду Сканировать несколько страниц.

Для удобства процесса сканирования нескольких страниц подряд на планшетном сканере без автоподатчика установите величину паузы (время от окончания процесса сканирования одной страницы до начала процесса сканирования следующей). Для этого в диалоговом окне Настройки сканера (доступ: Сервис к Настройки сканера) активизируйте опцию Пауза между страницами и установите значение паузы в секундах.

В этом случае, после процесса сканирования первой страницы сканер делает указанную вами паузу, во время у вас должно хватить времени поместить в сканирующее устройство еще одну страницу. Далее сканирование продолжится уже в автоматическом режиме.


Как «отдохнуть»

Попробуйте в диалоговом окне Настройки сканера (доступ: Сервис к Настройки сканера) активизировать опцию Останавливаться между страницами. Тогда по окончании процесса сканирования текущей страницы появится диалоговое окно с вопросом относительно продолжения процесса сканирования. Нажмите на кнопку Да для процесса сканирования следующей страницы или Нет — для завершения процесса сканирования.


Интерфейс TWAIN-драйвера сканера

Из меню Файл выберите команду Сканировать несколько страниц. Для начала процесса сканирования в раскрывшемся TWAIN-диалоговом окне сканера просто нажмите на кнопку Scan (название кнопки зависит от конкретной реализации TWAIN-драйвера вашего сканера) а для продолжения процесса сканирования нажмите на кнопку Scan в twain-диалоге сканера.

Для завершения процесса сканирования в Twain-диалоге сканера просто нажмите на кнопку Close (или аналогичную ей по смыслу).

Совет: Для того, чтобы вы могли контролировать результаты процесса сканирования, на закладке Сканирование/Открытие (доступ: Сервис к Опции) активизируйте опцию Открывать изображения по мере процесса сканирования. В этом случае отсканированное изображение появится в диалоговом окне Изображение. В случае, если изображение отсканировано неверно, остановите сканирование (из меню Файл выберите команду Остановить сканирование) и отсканируйте изображение заново.


Открытие файлов с изображениями

В OCR-системе ABBYY FineReader в случае, если у вас вообще нет сканирующего устройства, вы имеете возможность распознавать графические файлы, которые содержат текстовую информацию.


Как открыть изображение

Нажмите стрелку справа от кнопки 1-Сканировать и из ниспадающего меню выберите команду Открыть изображение. В диалоговом окне Открыть выберите изображения. Все они появятся в пакете программы, а последнее из выбранных изображений откроется в диалоговом окне Изображение и в диалоговом окне Крупный план, при этом копия изображения будет автоматически помещена в папку пакета.

Совет: В случае, если вы хотите, чтобы открытые изображения были сразу распознаны, воспользуйтесь режимом Открыть и распознать. Для этого из меню Процесс выберите команду Открыть и распознать (клавиатурный эквивалент: Ctrl + Shift + D) и в раскрывшемся диалоговом окне Открыть выберите изображения для дальнейшего распознавания.


Как добавить в пакет изображения со сдвоенными страницами

В омнифонтовой системе распознавания текстов ABBYY FineReader в процессе сканирования книг удобнее отсканировать две страницы (книжный разворот) сразу.

Кроме этого для повышения качества распознавания такие изображения следует разделить на два для того, чтобы каждой странице соответствовала отдельная страница пакета, так как анализ и конечный результат распознавания в программе осуществляется для каждой страницы по отдельности.

Для того, чтобы добавить в пакет сдвоенные страницы на закладке Сканирование/Открытие (доступ: Сервис к Опции) активизируйте опцию Делить разворот книги.


Как проверить и скорректировать полученное изображение

Распознаваемое изображение может быть сильно "замусорено. Это означает, что оно может содержать много лишних точек среднего или плохого качества, которые могут отрицательно сказаться на качестве распознанного текста. Для того, чтобы уменьшить количество лишних точек, можно воспользоваться опцией Очистить от мусора. Для этого просто из меню Изображение выберите команду Очистить изображение от мусора. В случае, если вы хотите очистить от «мусора» отдельный блок (участок изображения, выделенный в рамку), то из меню Изображение выберите команду Очистить блок от мусора.

Важно: В случае, если исходный текст был очень светлым или в исходном тексте использовался очень тонкий шрифт, то применение функции Очистить изображение может привести к исчезновению точек, запятых или тонких элементов букв, что ухудшает качество распознавания.

Важно: В случае, если вы сканируете или открываете «замусоренные» изображения, то перед тем, как поместить в пакет программы подобные изображения обратитесь к разделу Обработка изображений, который находится на закладке Сканирование/Открытие (доступ: Сервис к Опции) активизируйте опцию Очистить изображение от мусора.


Как инвертировать изображение

Некоторые сканеры переводят черный цвет в белый, а белый в черный. Для того, чтобы получить стандартное представление документа (черный шрифт на белом фоне из меню Изображение выберите команду Инвертировать.

Важно: В случае, если вы открываете инвертированные изображения, то перед добавлением в пакет программы таких изображений в разделе Обработка изображений на закладке Сканирование/Открытие (доступ: Сервис к Опции) обязательно активизируйте опцию Инвертировать.


Как повернуть или зеркально отразить изображение

В процессе распознавания изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию программа при распознавании определяет и корректирует ориентацию изображения автоматически.

В случае, если ориентация изображения была определена ошибочно, то на закладке Сканирование/Открытие дезактивируйте опцию Определять ориентацию страницы (в процессе распознавания) и поверните изображение вручную.

Как повернуть изображение на 90 градусов вправо — выберите из меню Изображение команду Повернуть по часовой стрелке на 90 градусов влево — выберите из меню Изображение команду Повернуть против часовой стрелки. на 180 градусов — выберите из меню Изображение команду Повернуть на 180 градусов.

• Вы можете отразить изображение относительно: горизонтальной прямой — выберите из меню Изображение команду Зеркальное отражение относительно горизонтали. вертикальной прямой — выберите из меню Изображение команду Зеркальное отражение относительно вертикали.


Как удалить фрагмент изображения

В случае, если вы хотите исключить какой-то участок текста из распознавания или у вас на изображении имеются большие участки мусора, то вы имеете возможность стереть его. Для этого:

Выберите инструмент (на панели в диалоговом окне Изображение) и, нажав на левую кнопку мыши, выделите участок изображения, который вы хотите удалить. Отпустите кнопку, выделенная часть изображения будет удалена.


Как изменить масштаб изображения

На панели Изображение (в диалоговом окне Изображение) выберите инструмент и щелкните левой кнопкой мыши на изображении. Изображение увеличится/уменьшится в два раза.

Нажмите правой кнопкой мыши на изображение и из меню выберите команду Масштаб и нужный вам масштаб.


Как получить информацию об изображении

• Вы имеете возможность получить следующую информацию об открытом изображении: ширину и высоту изображения в точках; вертикальное и горизонтальное разрешение в точках на дюйм (dpi); тип изображения.

Нажмите правой кнопкой на изображение и из меню выберите команду Свойства. В раскрывшемся диалоговом окне выберите закладку Изображение.


Отменить последнее действие

Для отмены последнего действия на панели Стандартная просто нажмите на кнопку Отменить.

Важно: Для повторного выполнения последнего отмененного действия на панели Стандартная просто нажмите на кнопку Вернуть.


Нумерация страниц при добавлении в пакет

По умолчанию каждой сканируемой странице присваивается номер на единицу больший номера последнего изображения в пакете.

Вы имеете возможность задать номер добавляемой страницы и вручную (например, вам необходимо сохранить исходную нумерацию страниц или вы сканируете стопку сортированных по порядку страниц). Для этого активизируйте опцию Запрашивать номер страницы при добавлении в пакет на закладке Сканирование/Открытие (доступ:Сервис к Опции).

В диалоговом окне Номер страницы укажите номер страницы, с которой начинается сканирование и выберите опцию Через одну в поле Нумерация страниц. Выберите способ нумерации страниц: по возрастанию или по убыванию. Возрастание или убывание зависит, например, от того, как вы кладете стопку в автоподатчик — находятся ли меньшие или большие номера наверху.


Уменьшать разрешение цветного/серого изображения до 100 dpi

Эта опция используется при добавлении в пакет цветных изображений большого размера. В этом случае, во-первых, пакет будет занимать меньше места на диске, а во-вторых, процесс обработки группы страниц будет происходить быстрее.

Важно: Эта опция не влияет на качество распознавания текста. Данное уменьшение разрешения влияет на качество сохраняемых картинок: разрешение картинок уменьшается до 100 dpi.


Как преобразовать цветное/серое изображение в черно-белое

Отметьте эту опцию при сканировании через TWAIN-диалог сканера в сером режиме (с автоподбором яркости) или при сканировании в цвете, если при этом сканируемые документы не содержат цветных картинок, цветного шрифта и фона или же вам не требуется передача цвета в выходное изображение. В этом случае сохраняемые в пакет изображения будут занимать меньше места на диске.


Как проанализировать макет страницы

Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения необходимо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки, таблицы и штрих-коды (для версии Office).

Анализ макета страницы может проводиться как автоматически, так и вручную. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Автоматический анализ производится по кнопке 2-Распознать одновременно с распознаванием текста.

Важно: Отдельная процедура анализа макета страницы тоже доступна (доступ: Процесс к Анализ макета страницы). Правда, при этом качество сегментации может быть ниже, так как при совместной процедуре распознавания и сегментации для анализа страницы используется дополнительная информация, полученная в процессе распознавания.

Глава 31.

Блоки

Типы блоков в OCR — системе ABBYY FineReader

Блоки — это заключенные в рамку участки изображения. Программой блоки выделяются для того с тем, чтобы указать OCR-системе, какие участки отсканированной страницы необходимо распознавать и в каком порядке. Кроме того по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Вы имеете возможность изменить цвета рамок блоков на закладке Вид диалогового окна к Опции (доступ:Сервис к Опции) в разделе Объекты. В поле Объект выберите нужный тип блока, а в поле Цвет — требуемый цвет.

Выделение блоков «вручную» может понадобиться, если:

• Вы хотите распознать часть страницы.

• В результате автоматического анализа блоки были выделены неправильно.

Совет: В некоторых случаях качество автоматического анализа можно улучшить, правильно установив опции анализа макета. Проверьте установленные опции анализа (закладка Распознавание, меню Сервис к Опции).


В случае, если программа выделила неправильно некоторые блоки, часто оказывается быстрее исправить только их, воспользовавшись инструментами для редактирования блоков, а не выделять блоки на изображении заново вручную.

В процессе обработки изображений выделяют блоки следующих типов:

Зона Распознавания

Блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку 2-Распознать выделенный блок автоматически анализируется и распознается.

Текст

Блок используется для обозначения текста. Он должен содержать только одноколоночный текст. В случае, если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица

Блок используется для обозначения таблиц или текста, имеющего табличную структуру. В процессе распознавания программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Вы имеете возможность выделить и скорректировать таблицу вручную.

Картинка

Этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую вы хотите передать в распознанный текст в качестве картинки.

Штрих-код (только в версии Office)

Этот блок используется для распознавания штрих-кодов. Это означает, что, если ваш документ содержит штрих-код и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.

Важно: По умолчанию опция, позволяющая искать и распознавать штрих-коды отключена. Для того, чтобы подключить ее, активизируйте опцию Искать штрих-коды на закладке Распознавание (доступ: Сервис к Опции).


Опции автоматического анализа макета страницы

В процессе автоматического анализа макета страницы FineReader сам выделяет блоки, содержащие тексты, таблицы, картинки и штрих-коды.

Автоматический анализ запускается по кнопке 2— Распознать одновременно с распознаванием текста. До запуска распознавания необходимо установить основные опции анализа: тип страницы и опции анализа таблиц.

Для большинства изображений расположение текста на странице определяется автоматически, чему соответствует значение Авто на закладкеРаспознавание в разделе Тип страницы (доступ: Сервис к Опции), устанавливаемое системой по умолчанию.

В некоторых случаях может потребоваться установить значение типа страницы вручную. Для этого на закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) в разделе Тип страницы выберите необходимую команду.

Возможные типы страницы

Автоматическое определение

Указывает, что расположение текста на странице определяется автоматически. Это значение устанавливается системой по умолчанию; подходит для распознавания всех видов текстов, в том числе многоколоночного текста, текста с таблицами и картинками.


Одна колонка

Указывает, что текст на странице напечатан в одну колонку. Эта опция используется в случае, если автоматическое определение ошибочно сегментировало страницу как многоколоночный текст.


Форматированный пробелами текст

Указывает, что текст на странице расположен в одну колонку и напечатан моноширинным шрифтом одного размера. В распознанном тексте сохраняется деление на строки; отступы от левого края передаются пробелами; каждая строка выделяется в отдельный параграф, и расстояния между параграфами передаются пустыми строками. Используется, например, для распознавания распечаток текстов программ.


Опции для анализа таблиц

В большинстве случаев программа делит таблицу на строки и столбцы автоматически. Дополнительная настройка опций анализа таблиц устанавливается на закладке Распознавание в разделе Таблицы. Эти опции рекомендуется использовать, если:

• в результате автоматического анализа макета страницы таблица была выделена и разделена на строки и столбцы неверно; документ содержит много однотипных таблиц, для которых известна дополнительная информация (например: таблица не содержит объединенных ячеек или таблица состоит из ячеек, текст в которых расположен в одну строку).

Выделение и редактирование блоков «вручную»

Как создать новый блок

• Выберите один из инструментов: выделить зону распознавания. выделить текстовый блок.

• выделить картинку.

• выделить табличный блок.

Установите курсор мыши в угол предполагаемого блока. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните в противоположный по диагонали угол. Теперь отпустите кнопку мыши. Выделенная часть изображения будет заключена в рамку.

В OCR-системе ABBYY FineReader вы имеете возможность поменять тип блока (присвоить выделенному блоку один из существующих типов: Зона распознавания,Текст,Таблица,Картинка или Штрих-код). Для этого нажмите на блоке правой кнопкой мыши и из ниспадающего меню выберите Тип блока, а затем — необходимую команду.

Редактирование формы и положения блоков пакета

Как передвинуть границу блока

Установите курсор мыши на границу блока. Нажмите левую кнопку мыши и потяните в нужную сторону. Отпустите кнопку мыши.

Важно: В случае, если вы установите курсор мыши на угол блока, то при движении мыши будут одновременно изменяться вертикальная и горизонтальная границы блока.


Как добавить прямоугольную часть блока

Выберите инструмент. Установите курсор мыши внутри блока, к которому вы хотите добавить часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет добавлен к блоку.

В случае, если необходимо, передвиньте границу блока.


Как удалить прямоугольную часть блока

Выберите инструмент. Установите курсор мыши внутри блока, там, где вы хотите вырезать часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет удален из блока.

В случае, если необходимо, передвиньте границу блока.

Важно: В процессе удаления внутренней части блока снизу или сверху дополнительно удаляется часть блока справа до границы блока. Такая особенность программы обусловлена необходимостью передавать на распознавание неразрывные текстовые строки. В отношении боковых сторон блоков такого ограничения нет.


Как выделить один или несколько блоков

Выберите инструмент и нажмите мышкой на необходимом блоке или проведите указателем по выделяемым блокам при нажатой кнопке мыши.

Важно: Вы имеете возможность выделить один или несколько блоков, используя стандартные инструменты создания блоков. Для того, чтобы выбрать несколько блоков подряд, нажмите клавишу Shift и мышью нажмите на требуемых блоках. Для того, чтобы отменить выделение уже выбранного блока или добавить невыделенные блоки, нажмите клавишу Ctrl и мышью нажмите на требуемых блоках.


Как передвинуть блок

Нажмите клавишу Alt и мышью переместите блоки.


Как перенумеровать блоки

Выберите инструмент. Нажмите на блоки в том порядке, в котором вы хотите видеть их содержимое в выходном тексте.

Важно: В случае, если вы перенумеровываете блоки на уже распознанном изображении, то одновременно в диалоговом окне Текст происходит перегруппировка распознанного текста в соответствии с новой нумерацией.


Как удалить блок

Выберите инструмент и нажмите на блок, который вы хотите удалить.

Важно: В случае, если вы удаляете блок с уже распознанного изображения, то одновременно с этим в диалоговом окне Текст удаляется текст, соответствующий этому блоку.


Как удалить все блоки на изображении

Из меню Сервис выберите команду Удалить блоки и текст.

Важно: В случае, если вы удаляете блоки с уже распознанного изображения, то одновременно с этим в диалоговом окне Текст удаляется текст, соответствующий этим блокам.


Редактирование таблицы

• Для редактирования таблицы выберите на панели Изображение один из инструментов для того, чтобы: добавить вертикальную линию. добавить горизонтальную линию. чтобы удалить линию.


Как объединить ячейки таблицы

Из меню Правка выберите команду Объединить ячейки таблицы.


Как разбить ранее объединенные ячейки таблицы

Из меню Правка выберите команду Разбить ячейки таблицы.

Как объединить строки таблицы (в этом случае деление на столбцы остается)

Из меню Правка выберите команду Объединить строки таблицы.


Ручной анализ таблицы

Важно: В случае, если в результате автоматического анализа таблицы разделение на строки и столбцы произошло неверно, прежде чем анализировать таблицу вручную заново, попробуйте сначала скорректировать результаты автоматического анализа.


Как скорректировать таблицу вручную

Отредактируйте таблицу, используя инструменты (панель в диалоговом окне Изображение):

• Добавить вертикальную линию

• Добавить горизонтальную линию

• Удалить линию

В случае, если ячейка таблицы содержит только картинку, в диалоговом окне Свойства блока (доступ: Вид к Свойства) активизируйте опцию Считать ячейку таблицы картинкой. В случае, если же, помимо картинки в ячейке содержится некоторый текст, то выделите картинку в отдельный блок внутри ячейки.


Как объединить ячейки или строки таблицы

Из меню Правка выберите команды Объединить ячейки таблицы или Объединить строки таблицы. В процессе объединения строк таблицы деление на столбцы остается.

Объединенные ячейки можно снова разделить, воспользовавшись командой Разбить ячейки таблицы (доступ:Правка).

Важно: Для того, чтобы не рисовать вертикальные и горизонтальные линии с нуля в таблице, выделите таблицу в отдельный блок и нажмите правой кнопкой мыши на блоке. Из ниспадающего меню выберите команду Анализ структуры таблицы и посредством инструментов для работы с таблицами, скорректируйте полученные результаты.


Использование шаблонов блоков

В процессе работы с документами с одинаковым расположением текста и картинок, такими, например, как формы, бланки, вместо того с тем, чтобы анализировать макет каждой страницы, вы имеете возможность провести анализ одной из них, сохранить расположение блоков на этой странице в файл, а затем, когда потребуется, «спроецировать» эти блоки на изображение (или группу изображений) со сходным расположением текста.


Как создать шаблон блоков

Откройте изображение и выделите на нем блоки автоматически или вручную. Из меню Изображение выберите команду Сохранить блоки… В раскрывшемся диалоговом окне укажите имя для шаблона блоков.


Как наложить шаблон блоков

В диалоговом окне Пакет выделите страницы, на которые вы хотите наложить существующий шаблон.

Из меню Изображение выберите команду Наложить блоки. В раскрывшемся диалоговом окне Открыть файл с блоками выберите файл (*.blk) с нужным вам расположением блоков.

В диалоговом окне Открыть файл с блоками в разделе Применить к активизируйте один из переключателей:

• Всем страницам (если вы хотите наложить шаблон на все страницы пакета).

• Выделенным страницам (если вы хотите наложить шаблон только на выделенные страницы).

Нажмите на кнопку Открыть.

Глава 32.

Распознавание

Задача распознавания состоит в том с тем, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык распознавания, тип печати распознанного текста и тип страницы.

Важно: Перед запуском распознавания проверьте установленные опции: язык распознавания, тип печати распознаваемого текста и тип страницы.

Вы имеете возможность:

• Распознать блок или несколько блоков, выделенных на изображении.

• Распознать открытую страницу или все страницы, выделенные в диалоговом окне Пакет.

• Распознать все нераспознанные страницы пакета.

• Распознать все страницы в фоновом режиме. В этом режиме возможно распознавание с одновременным редактированием уже распознанных страниц.

• Распознать страницы в режиме распознавание с обучением. Данный режим используется в основном для распознавания текстов, использующих декоративные шрифты, или распознавания большого объема (более 100 страниц) документов плохого качества печати.


  • Страницы:
    1, 2, 3, 4, 5, 6, 7, 8, 9, 10