![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Сканирование и распознавание текстов – процесс преобразования бумажного документа в машиночитаемый.
Процесс преобразования состоит из двух этапов: создания растрового изображения документа и преобразования изображения букв в редактируемый текст.
Качество распознавания характеризуется точностью воспроизводства текста. Качество зависит от выбора правильного режима сканирования и от возможности программы отождествить изображение знака с одной из букв алфавита выбранного языка. Возможности программы зависят от встроенного алгоритма распознавания образов.
Распознавание образов — область информатики и математики, связанная с разработкой методов выделения важных свойств некоторой совокупности объектов, установления по этим свойствам принадлежности объекта к одному из известных типов (объединению, образу).
При распознавании текста стоит задача выделения характерных свойств знака на фоне шума, возникающего при сканировании, и особенностей начертания использованной гарнитуры шрифта. Для решения этой задачи применяют алгоритмы распознавания образов, в которых сравниваются суммарные отклонения элементов знака от набора эталонов. Знаку присваивается тот эталон, для которого суммарное отклонение минимальное. Более подробно задача распознавания образов будет рассмотрена в Теме 3 нашего курса.
Одной из наиболее популярных программ распознавания текста является ABBYY FineReader. В последней редакции (8.0) имеется возможность обучения программы особенностям начертания шрифта, что избавляет пользователя от исправления одной и той же ошибки распознавания, например, распознание ып как ьш.
Машинный перевод текстов
С практической точки зрения, не имея ввиду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:
× автоматический перевод;
× автоматизированный машинный перевод при участии человека;
× перевод, осуществляемый человеком с использованием компьютера.
Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов, однако работа над такими переводчиками ведется очень интенсивно.
Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.
В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.
К МТ-программам относятся продукты машинного перевода фирмы ПРОМТ, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа (упрощенная бесплатная версия такого продукта установлена на сайте www.translate.ru). Коммерческая версия фирмы ПРОМТ обладает большими возможностями и может быть установлена в корпоративной сети.
На отечественном рынке следует также отметить продукт Retrans Vista фирмы «Виста текнолоджиз», предназначенный только для англо-русского и русско-английского перевода текста. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней «длиной» в 2,2 слова.
Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.
Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation’s Workbench фирмы Trados (для краткости часто также называемый Trados). Сейчас рынок ТМ-систем быстро растет, тем не менее, эти продукты остаются все еще слишком дорогими для российского пользователя (цена пакета составляет 5–7 тыс. долларов).
Выводы
1. Документ (документированная информация) – информация, зафиксированная на материальном носителе и имеющая реквизиты для идентификации.
2. Для придания документу юридической силы документ подписывает официальное лицо. Электронные документы могут быть заверены электронно-цифровой подписью.
3. Документы могут иметь регламент оформления для стандартизации. В зависимости от содержащейся в документе информации документы разделяют по режиму доступа, по статусу.
4. Юридическая деятельность связана с огромным потоком текстовой информации. В настоящее время широко представлены различные технологии работы с текстовой информацией. Технологии включают в себя технические и программные средства.
5. Технические средства включают в себя офисную технику, персональные компьютеры, мощные суперкомпьютеры для организации хранилищ данных и средства связи (сети и средства их поддержки).
6. К программным средствам относятся текстовые редакторы (например, Word), электронные таблицы (Excel), а также программные средства сканирования и распознавания текста (ABBY FineReader), проверки правописания (ОРФО) и автоматизации перевода (ПРОМТ, Trados).
4. Информационная сущность правовых задач и особенности их постановки и решения с использованием компьютерных технологий
4.1 Сущность и виды задач информационно-правового характера, реализуемых с использованием компьютерных технологий
Информатизация общества, развитие кибернетики и компьютерных технологий привело к возникновению новой междисциплинарной отрасли – правовой информатики. В рамках правовой информатики осуществляется синтез данных юридических и прочих – технических, естественных, гуманитарных наук. Информатика – это тот канал, по которому в сферу юридической науки проникают точные методы исследования.
В основе большинства частных методов познания лежит системный подход, который является одним из способов обобщения эмпирических фактов, позволяющий сосредоточиться на выявлении интегративных качеств, возникающих в результате соединения элементов в целое.
Дата публикования: 2014-11-03; Прочитано: 2084 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!