Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
В процессе сканирования и распознавания текста документа OCR-системы автоматически подбирают яркость сканирования, фрагментируют каждую страницу, выделяя в ней области графических иллюстраций и таблиц, распознают символы текста, проверяют орфографию распознанных слов и показывают окончательный результат в текстовом редакторе.
OCR-системы позволяют распознавать печатные символы почти двух сотен языков. Хорошо распознаются рукопечатные символы, т.е. символы, написанные от руки печатными буквами с небольшим интервалом между ними.
OCR-системы узнают все используемые в тексте документа шрифты без предварительного обучения, хорошо воспринимают полужирный, курсивный, слипшийся, подчеркнутый и многоколоночный текст. Изначально в мире преобладали системы автоматического чтения текста, требующие обучения каждому новому шрифту (новой гарнитуре, стилю, размеру и т.д.). Такие системы называли мультифонтовыми (от англ. font – 'шрифт'). Противоположным классом ORC-систем являются так называемые интеллектуальные программы, именуемые ещё омнифонтовыми.Их не нужно обучать, эти программы распознают разные стилевые начертания одной и той же буквы не потому, что их обучили различным гарнитурам шрифтов, а потому, что они знают топологию (правила начертания) этой буквы.
Системы способны самообучаться и распознавать плохо пропечатанные символы или символы незнакомых программе языков.
Наряду со сплошными текстами (без таблиц и иллюстраций) программы автоматического чтения текста хорошо распознают:
а) тексты с графикой, подписями, логотипами;
б) таблицы;
в) тексты, напечатанные на цветном (гербовом) фоне;
г) тексты разноформатных документов (например, чертежей).
OCR-системы поддерживают все модели сканеров и любые графические форматы. Появились и широко используются сетевые версии программ автоматического чтения текста.
Программы автоматического чтения текста поддерживают публикацию бумажных документов в глобальной сети Интернет. В процессе распознавания и генерации HTML-страницы её оформление производится по всем правилам Web-публикации.)
Точность распознавания OCR-систем на текстах хорошего и среднего качества достигает 97–99%.
Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, выделения текстовой информации на фоне шумов (например, распознавание номерных знаков автомобилей), а также интеграции OCR-систем с различными программами обработки информации (системами машинного перевода, системами автоматического аннотирования и реферирования текстов, электронными архивами, системами автоматизации делопроизводства и т.д.).
Дата публикования: 2015-01-24; Прочитано: 2921 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!