Поурочный план - Информатика - Автоматический ввод документов - Системы распознавания текста


Поурочный план - Информатика - Автоматический ввод документов - Системы распознавания текста

Цели:
дидактическая: Рассказать студентам, как осуществляется автоматический ввод документов в ПК. Дать классификацию устройств ввода – сканеров, подчеркнуть их особенности. Рассказать о технологии распознавания текста. Сделать обзор программного обеспечения по распознаванию текста.
развивающая: развивать информационное мышление студентов.
воспитательная: показать, что автоматизация упрощает выполнение многих рутинных операций, высвобождая место для творчества.
Вид занятий (тип урока): изучение нового материала
Организационные формы обучения: лекция.
Методы обучения: беседа
Средства обучения
Вид и формы контроля знаний: фронтальный опрос.
Средства контроля
Внутрипредметные связи
Межпредметные связи
Виды самостоятельной работы студентов
Домашнее задание: конспект лекции.
Ход занятия

1.        Организационный момент.

2.        Сообщение темы и цели занятия.

3.        Изучение нового материала

4.        Подведение итогов.

5.        Домашнее задание.
Автоматизация ввода информации в компьютер

Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование — это технологический процесс, в результате которого создается графический образ бумажного документа. Существует несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая) точка. Таким образом, в результате сканирования документа создается графический файл, в котором хранится растровое изображение исходного документа. Растровое изображение состоит, как известно, из точек. Количество точек определяется как размером изображения, так и разрешением сканера.
Сканеры для ввода текстов и иллюстраций

В настоящее время для ввода текстовой и графической информации используют следующие виды сканеров.

Ручные сканеры. Это самый простой вид сканеров, дающий наименее качественное изображение. Такой сканер не имеет движущихся частей, и сканирование производится путем перемещения сканера по документу.

Недостатком ручных сканеров является очень узкая полоса сканирования (стандартный лист бумаги приходится сканировать в несколько проходов), а также высокие требования к самому процессу сканирования. Так, если рука, держащая сканер, слегка подрагивает или движется рывками, говорить о хорошем качестве сканирования не приходится. Ручные сканеры пригодны для сканирования текстов, но использовать их для сканирования изображений (фотографий) затруднительно.

Листовые сканеры. Сканеры этого типа позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специальных валиков (как в принтере). Листовые сканеры гарантируют хорошее качество сканирования, но они способны сканировать только отдельные листы. Перевести с их помощью в электронную форму страницу книги или разворот журнала невозможно.

Планшетные сканеры обеспечивают наилучшее качество и максимальное удобство при работе с бумажными документами. Под крышкой планшетного сканера располагается прозрачное основание, на которое укладывают документ. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Продолжительность сканирования стандартного машинописного листа: составляет от одной до нескольких секунд.
Специальные типы сканеров

Барабанные сканеры обеспечивают наивысшее разрешение сканирования, но они предназначены для сканирования не бумажных документов, а прозрачных материалов, например слайдов, негативов и т. п. В сканерах этого типа считывающая головка установлена неподвижно, а изображение, закрепленное на цилиндрическом барабане, вращается с высокой скоростью и сканируется построчно.

Сканеры форм — специальные сканеры для ввода информации с заполненных бланков. Это разновидность листовых сканеров. С помощью подобных устройств вводят данные из анкет, опросных листов, избирательных бюллетеней. От сканеров этого типа требуется не высокая разрешающая способность, а очень высокое быстродействие. В частности, для сканеров этого типа автоматизируют подачу бумажных листов в устройство.

Штрих-сканеры — разновидность ручных сканеров. Предназначены они для считывания штрих-кодов с маркировки товаров в магазинах. Штрих-сканеры позволяют автоматизировать процесс подсчета стоимости покупок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных платежных средств (кредитных карт, смарт-карт и т. п.).
Связь сканера с операционной системой

Для подключения сканера к компьютеру используют разные методы. Существуют сканеры со специальной платой расширения, так называемым контроллером. Плату устанавливают в одно из гнезд расширений материнской платы компьютера, а сканер подключают к разъему платы.

Некоторые сканеры подключают к свободному параллельному порту (порту принтера). В таком случае передача данных происходит медленнее, зато никаких дополнительных устройств для подключения сканера не требуется.

Наиболее производительные сканеры используют интерфейс SCSI разработанный специально для подключения к компьютеру внешних устройств. Компьютер в этом случае должен иметь специальный контроллер, обеспечивающий работу с этим аппаратным интерфейсом. Такой контроллер чаще всего выполняется на плате расширения.

Поскольку аппаратные интерфейсы сканеров отличаются многообразием, были предприняты специальные меры для стандартизации программного интерфейса, обеспечивающего связь между сканерами и операционной системой. Этот интерфейс основан на специальном протоколе TWAIN. Если сканер поддерживает данный протокол, то операционная система Windows 9х способна обеспечить взаимодействие между сканером и программным приложением, предназначенным для работы с ним. Все современные сканеры поддерживают стандарт TWAIN.
Особенности Windows 95

Операционная система Windows 95 появилась, когда сканеры еще не считались необходимыми компонентами настольной компьютерной системы, и по этой причине штатных средств поддержки стандарта TWAIN в Windows 95 нет. При установке сканера в системе Windows 95 необходимо использовать драйверы, поставляющиеся вместе с ним.
Особенности Windows 98

Операционная система Windows 98 уже осведомлена о наличии такого устройства как сканер. Стандарт TWAIN поддерживается в ней по умолчанию, а в случае присоединения к компьютерной системе сканера, в окне папки Панель управления появляется соответствующий значок, позволяющий производить настройку.

Таким образом, в большинстве программ работа со сканером производится при посредстве специального диалогового окна, обеспечивающего непосредственное взаимодействие со сканером. После того как пользователь дает команду на сканирование документа, данные передаются в программу, обратившуюся к сканеру, с использованием протокола TWAIN.

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.

Подобные системы назывались OCR  (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.

Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.
Программы распознавания текстов

Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется значительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.

Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна из более универсальных программ.

Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.

Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известны и распространены программы Fine Reader и CuneiForm.
Дата публикации:






Теги: :: :: :: :: :: :: :: ::


Следующие учебники и книги:
Предыдущие статьи:


 


 

Книги, учебники, обучение по разделам




Не нашёл? Найди:





2024-12-22 11:03:23