Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Сканирование и распознавание текстов



Сканирование и распознавание текстов – процесс преобразования бумажного документа в машиночитаемый.

Процесс преобразования состоит из двух этапов: создания растрового изображения документа и преобразования изображения букв в редактируемый текст.

Качество распознавания характеризуется точностью воспроизводства текста. Качество зависит от выбора правильного режима сканирования и от возможности программы отождествить изображение знака с одной из букв алфавита выбранного языка. Возможности программы зависят от встроенного алгоритма распознавания образов.

Распознавание образов — область информатики и математики, связанная с разработкой методов выделения важных свойств некоторой совокупности объектов, установления по этим свойствам принадлежности объекта к одному из известных типов (объединению, образу).

При распознавании текста стоит задача выделения характерных свойств знака на фоне шума, возникающего при сканировании, и особенностей начертания использованной гарнитуры шрифта. Для решения этой задачи применяют алгоритмы распознавания образов, в которых сравниваются суммарные отклонения элементов знака от набора эталонов. Знаку присваивается тот эталон, для которого суммарное отклонение минимальное. Более подробно задача распознавания образов будет рассмотрена в Теме 3 нашего курса.

Одной из наиболее популярных программ распознавания текста является ABBYY FineReader. В последней редакции (8.0) имеется возможность обучения программы особенностям начертания шрифта, что избавляет пользователя от исправления одной и той же ошибки распознавания, например, распознание ып как ьш.

Машинный перевод текстов

С практической точки зрения, не имея ввиду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:

× автоматический перевод;

× автоматизированный машинный перевод при участии человека;

× перевод, осуществляемый человеком с использованием компьютера.

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов, однако работа над такими переводчиками ведется очень интенсивно.

Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.

В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

К МТ-программам относятся продукты машинного перевода фирмы ПРОМТ, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа (упрощенная бесплатная версия такого продукта установлена на сайте www.translate.ru). Коммерческая версия фирмы ПРОМТ обладает большими возможностями и может быть установлена в корпоративной сети.

На отечественном рынке следует также отметить продукт Retrans Vista фирмы «Виста текнолоджиз», предназначенный только для англо-русского и русско-английского перевода текста. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней «длиной» в 2,2 слова.

Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.

Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation’s Workbench фирмы Trados (для краткости часто также называемый Trados). Сейчас рынок ТМ-систем быстро растет, тем не менее, эти продукты остаются все еще слишком дорогими для российского пользователя (цена пакета составляет 5–7 тыс. долларов).

Выводы

1. Документ (документированная информация) – информация, зафиксированная на материальном носителе и имеющая реквизиты для идентификации.

2. Для придания документу юридической силы документ подписывает официальное лицо. Электронные документы могут быть заверены электронно-цифровой подписью.

3. Документы могут иметь регламент оформления для стандартизации. В зависимости от содержащейся в документе информации документы разделяют по режиму доступа, по статусу.

4. Юридическая деятельность связана с огромным потоком текстовой информации. В настоящее время широко представлены различные технологии работы с текстовой информацией. Технологии включают в себя технические и программные средства.

5. Технические средства включают в себя офисную технику, персональные компьютеры, мощные суперкомпьютеры для организации хранилищ данных и средства связи (сети и средства их поддержки).

6. К программным средствам относятся текстовые редакторы (например, Word), электронные таблицы (Excel), а также программные средства сканирования и распознавания текста (ABBY FineReader), проверки правописания (ОРФО) и автоматизации перевода (ПРОМТ, Trados).

4. Информационная сущность правовых задач и особенности их постановки и решения с использованием компьютерных технологий

4.1 Сущность и виды задач информационно-правового характера, реализуемых с использованием компьютерных технологий

Информатизация общества, развитие кибернетики и компьютерных технологий привело к возникновению новой междисциплинарной отрасли – правовой информатики. В рамках правовой информатики осуществляется синтез данных юридических и прочих – технических, естественных, гуманитарных наук. Информатика – это тот канал, по которому в сферу юридической науки проникают точные методы исследования.

В основе большинства частных методов познания лежит системный подход, который является одним из способов обобщения эмпирических фактов, позволяющий сосредоточиться на выявлении интегративных качеств, возникающих в результате соединения элементов в целое.





Дата публикования: 2014-11-03; Прочитано: 2084 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...