Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Основные задачи Теории формальных языков



Использование математических средств в описании искусственных языков и их организации связано с двумя разными практическими задачами:
• заключается в составлении некоторого количества формальных правил, используя которые можно построить любую правильную фразу или конструкцию данного языка, а точнее построить любую цепочку символов, входящих в изучаемый язык, представленного как множество таких цепочек

• обратная первой, заключается в том, что следующая разработка правила позволяет установить, является ли произвольная цепочка правильной конструкцией или фразой этого языка.

Эти задачи взаимосвязаны, но для их применения используются разные математические средства и метаязыки. Для задания правил создания правильных фраз используется аппарат порождающей грамматики, а для задания способов образования цепочек символов и распознавания правильных конструкций применяется аппарат распознающих автоматов.

Иерархия Хомского:


       
   
 
 


Хомский предложил классификацию формальных грамматик по типу выражения правил и предложил выделить 4 основных формальных грамматик, называемых Иерархией Хомского:

· Грамматика типа 0 - генеративная, самая сложная, никаких ограничений на вид ее правил не накладывается. Грамматика типа 0, порождающая (generative grammar), - в классической записи это четверка G=(N,∑, P, S), где N, ∑ - алфавит (N - нетерминальные символы, ∑ - терминальные символы метаязыка); S - начальный символ нетерминального множества, Р - правила репродукции. Для распознавания языков, порождаемых этими грамматиками, используются машины Тьюринга - мощные, абстрактные, и следовательно неприменимые на практике математические модели, которые используются в теории информатики.

· Грамматика типа 1 - называются контекстно-зависимыми грамматиками, и в них возможность замены цепочки символов может определяться контекстом. Используются для генерации элементов естественных языков и подъязыков

· Грамматика типа 2 - контекстно-свободные, причем в левой части нетерминала могут быть всем, чем угодно. Они распознаются в информатике так называемыми автоматами с магазинной памятью (стековые автоматы). Используются для генерации элементов языков программирования (выражений, команд).

· Грамматика типа 3 - называют регулярными, самые простые и ограниченные грамматики, распознаются конечными автоматами. Используется для простых элементов языков (числа, константы, переменные)

Язык называется контекстным языком, если он порождается некоторой контекстной грамматикой. Контекстно-свободные языки также называют алгебраическими языками, ими занимается математическая лингвистика (ныне раздел компьютерной лингвистики. В компьютерной лингвистике выделяют раздел - лингвистические основы информатики, который занимается проблематикой формальных языков и грамматик.

  1. Компьютерная лексикография. Основные направления компьютерной лексикографии. Компьютерные программы поддержки лексикографических работ. Электронные словари. Особенности автоматических словарей. Коммерческие электронные словари. Основные типы электронных словарей. Тезаурусы. Информационно-поисковый тезаурус. Компьютерная терминография. Терминологические банки данных (ТБД).

Компьютерная лексикография

Это важное направление в прикладной лингвистике, которыое занимается составлением словарей. Основные направления:

1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.)
2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)
3. создание словарей, являющихся машинными версиями традиционных словарей

Первое и второе направления занимаются разработкой «программ поддержки лексикографических работ»

Здесь выделяют 2 класса электронных словарей:

· Словари для программы обработки текста – это информационно-поисковые тезаурусы, частотные словари, рубрикаторы, классификаторы, словари морфологического анализа; словари для машинного перевода, которые включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова. Количество зон словарных статей в таких словарях варьируется от 1 до 100. Каждая зона словарной статьи содержит особый тип словарной информации: лемма, грамматическая информация или стилистические пометы, зоны значения и толкования;

· Словари конечного пользователя – это копии бумажных словарей, но с возможностями сортировки, поиска, группирования понятий. Например, Lingvo, Webster (на англ.яз.), энциклопедический словарь Ожегова и др.

Существуют этапы технологии создания электронных словарей (это словарь конечного пользователя), можно выделить 7 этапов:

  1. Формирование корпусов текстов, из которых выбираются данные слова
  2. Создание словника (без толкования)
  3. Автоматическое толкование примеров
  4. Формирование и ввод в базу данных словарных статей
  5. Редактирование и корректура словарных статей
  6. Формирование оригинала макета
  7. Печать словаря в типографии

На этапах 5 и 6 при компьютерной подготовке словаря идет работа с издательскими системами, например, PageMaker, Frame Maker, Quark Express.





Дата публикования: 2015-02-20; Прочитано: 1197 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.005 с)...