Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Автоматическое чтение текста



В процессе сканирования и распознавания текста документа OCR-системы автоматически подбирают яркость сканирования, фрагментируют каждую страницу, выделяя в ней области графических иллюстраций и таблиц, распознают символы текста, проверяют орфографию распознанных слов и показывают окончательный результат в текстовом редакторе.

OCR-системы позволяют распознавать печатные символы почти двух сотен языков. Хорошо распознаются рукопечатные символы, т.е. символы, написанные от руки печатными буквами с небольшим интервалом между ними.

OCR-системы узнают все используемые в тексте документа шрифты без предварительного обучения, хорошо воспринимают полужирный, курсивный, слипшийся, подчеркнутый и многоколоночный текст. Изначально в мире преобладали системы автоматического чтения текста, требующие обучения каждому новому шрифту (новой гарнитуре, стилю, размеру и т.д.). Такие системы называли мультифонтовыми (от англ. font – 'шрифт'). Противоположным классом ORC-систем являются так называемые интеллектуальные программы, именуемые ещё омнифонтовыми.Их не нужно обучать, эти программы распознают разные стилевые начертания одной и той же буквы не потому, что их обучили различным гарнитурам шрифтов, а потому, что они знают топологию (правила начертания) этой буквы.

Системы способны самообучаться и распознавать плохо пропечатанные символы или символы незнакомых программе языков.

Наряду со сплошными текстами (без таблиц и иллюстраций) программы автоматического чтения текста хорошо распознают:

а) тексты с графикой, подписями, логотипами;

б) таблицы;

в) тексты, напечатанные на цветном (гербовом) фоне;

г) тексты разноформатных документов (например, чертежей).

OCR-системы поддерживают все модели сканеров и любые графические форматы. Появились и широко используются сетевые версии программ автоматического чтения текста.

Программы автоматического чтения текста поддерживают публикацию бумажных документов в глобальной сети Интернет. В процессе распознавания и генерации HTML-страницы её оформление производится по всем правилам Web-публикации.)

Точность распознавания OCR-систем на текстах хорошего и среднего качества достигает 97–99%.

Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, выделения текстовой информации на фоне шумов (например, распознавание номерных знаков автомобилей), а также интеграции OCR-систем с различными программами обработки информации (системами машинного перевода, системами автоматического аннотирования и реферирования текстов, электронными архивами, системами автоматизации делопроизводства и т.д.).





Дата публикования: 2015-01-24; Прочитано: 2862 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...