Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Использование математических средств в описании искусственных языков и их организации связано с двумя разными практическими задачами:
• заключается в составлении некоторого количества формальных правил, используя которые можно построить любую правильную фразу или конструкцию данного языка, а точнее построить любую цепочку символов, входящих в изучаемый язык, представленного как множество таких цепочек
• обратная первой, заключается в том, что следующая разработка правила позволяет установить, является ли произвольная цепочка правильной конструкцией или фразой этого языка.
Эти задачи взаимосвязаны, но для их применения используются разные математические средства и метаязыки. Для задания правил создания правильных фраз используется аппарат порождающей грамматики, а для задания способов образования цепочек символов и распознавания правильных конструкций применяется аппарат распознающих автоматов.
Иерархия Хомского:
Хомский предложил классификацию формальных грамматик по типу выражения правил и предложил выделить 4 основных формальных грамматик, называемых Иерархией Хомского:
· Грамматика типа 0 - генеративная, самая сложная, никаких ограничений на вид ее правил не накладывается. Грамматика типа 0, порождающая (generative grammar), - в классической записи это четверка G=(N,∑, P, S), где N, ∑ - алфавит (N - нетерминальные символы, ∑ - терминальные символы метаязыка); S - начальный символ нетерминального множества, Р - правила репродукции. Для распознавания языков, порождаемых этими грамматиками, используются машины Тьюринга - мощные, абстрактные, и следовательно неприменимые на практике математические модели, которые используются в теории информатики.
· Грамматика типа 1 - называются контекстно-зависимыми грамматиками, и в них возможность замены цепочки символов может определяться контекстом. Используются для генерации элементов естественных языков и подъязыков
· Грамматика типа 2 - контекстно-свободные, причем в левой части нетерминала могут быть всем, чем угодно. Они распознаются в информатике так называемыми автоматами с магазинной памятью (стековые автоматы). Используются для генерации элементов языков программирования (выражений, команд).
· Грамматика типа 3 - называют регулярными, самые простые и ограниченные грамматики, распознаются конечными автоматами. Используется для простых элементов языков (числа, константы, переменные)
Язык называется контекстным языком, если он порождается некоторой контекстной грамматикой. Контекстно-свободные языки также называют алгебраическими языками, ими занимается математическая лингвистика (ныне раздел компьютерной лингвистики. В компьютерной лингвистике выделяют раздел - лингвистические основы информатики, который занимается проблематикой формальных языков и грамматик.
Компьютерная лексикография –
Это важное направление в прикладной лингвистике, которыое занимается составлением словарей. Основные направления:
1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.)
2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)
3. создание словарей, являющихся машинными версиями традиционных словарей
Первое и второе направления занимаются разработкой «программ поддержки лексикографических работ»
Здесь выделяют 2 класса электронных словарей:
· Словари для программы обработки текста – это информационно-поисковые тезаурусы, частотные словари, рубрикаторы, классификаторы, словари морфологического анализа; словари для машинного перевода, которые включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова. Количество зон словарных статей в таких словарях варьируется от 1 до 100. Каждая зона словарной статьи содержит особый тип словарной информации: лемма, грамматическая информация или стилистические пометы, зоны значения и толкования;
· Словари конечного пользователя – это копии бумажных словарей, но с возможностями сортировки, поиска, группирования понятий. Например, Lingvo, Webster (на англ.яз.), энциклопедический словарь Ожегова и др.
Существуют этапы технологии создания электронных словарей (это словарь конечного пользователя), можно выделить 7 этапов:
На этапах 5 и 6 при компьютерной подготовке словаря идет работа с издательскими системами, например, PageMaker, Frame Maker, Quark Express.
Дата публикования: 2015-02-20; Прочитано: 1197 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!