Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Основные области приложения структурно-вероятностной модели языка

⇐ Предыдущая 8 9 10 11 121314 15 16 17 Следующая ⇒

Лингвистический мониторинг функционирования языка. Его задача: выявление общих особенностей функционирования языковой системы в конкретном типе дискурса (например, в научном, политическом, газетном и т.д.).

В качестве предмета мониторинга могут выступать, например, такие явления естественного языка, как типы языковых ошибок, неологизмы, метафоры, а также специфические особенности использования в текстах тех или иных видов лексики грамматических форм и стилистических конструкций. Технологии лингвистического мониторинга основываются на двух основных предпосылках: репрезентативности, регулярности и периодичности анализа данных и на большом материале для доказательства лингвистических выводов, например, на базе лингвистических корпусов.

Лингвистический мониторинг в настоящее время широко используется и его компьютерное обеспечение и технологии позволяют давать количественную оценку исследуемым лингвистическим явлениям, выявляя их распределение во времени по источникам, авторам, стилям и дискурсам.

Информация о статистических закономерностях функционирования языка лежит в основе некоторых методик анализа текстовых данных, например, методик контент-анализа, который используется для выявления структуры состояния общественного сознания и с помощью ее появляется возможность по частоте употребления тех или иных лексем реконструировать ценностные ориентации общества, выявить актуальные темы публичной политики и МИ и воздействовать с помощью текстов на общество.

2) Компьютерное моделирование языка и речи. Многие компьютерные программы лингвистической направленности. Машинные переводчики, системы информационного поиска, системы автоматического реферирования текстов используют алгоритмы; базируются на частотном анализе.

Дешифровка кодов – базируется на частоте. В процессе дешифровки используются данные о частоте употребления графем, морфем и слов, а также об их взаимном расположении друг с другом. В настоящее время разрабатываются алгоритмы дешифровки, основанные на частоте распределения элементов кодированного текста (алгоритм Сухотина, Харриса, статистико-комбинаторные алгоритмы и др.).

Дешифровка используется для решения следующих задач, популярных в информатике:

· взлом, шифр

· определение языка сообщения – производится по частоте употребления букв или символов. Для этого необходимо знать частотность символов того или иного языка.

Дешифровка кодов базируется на ТВиМС. В процессе дешифровки используются данные о частоте употребления графем, морфем и лексем, а также об их взаимном расположении друг с другом.

В настоящее время разрабатываются алгоритмы дешифровки, основанные на частоте распределения элементов кодирования текста (алгоритмы Сухотина, Маркова, статистико-комбинаторные алгоритмы Харриса и др.)

Дешифровка в лингвистике используется для решения следующих задач:

a. Определение языка сообщения. В живых языках буквы встречаются с разной частотой и можно построить диаграммы распределения частот символов, характерных для каждого языка. Производится так называемая селекция, т.е. текст сообщения анализируется как поток символов и высчитывается частота встречаемости (вес) каждого символа.

Иногда таблица для удобства нормализуют, т.е. вес символов делится на общее количество символов данного текста. Минимальная длина текста для анализа равняться примерно 3 алфавита. Для русского язык около ста символов.

Таблица частотности для трех языков
Англ	Нем	Фр
E – 12,86	E – 19,8	E – 17,7
T – 9,7	N – 10,2	S – 8,2
A – 7,8	I – 8,2	A – 7,6

b. Взлом шифров. Вычисление статистического веса одиночных символов можно применить для взлома шифров.

Крептоаналитик должен владеть языком и знать основы статистики. Для взлома более сложных шифров анализ усложняется и часто используется аппарат, предложенным русским математиком А.А. Марковым еще в 19 веке.

Марков предложил теорию динамичной вероятности, которая позволяет предсказать поведение некоторых объектов с течением времени, при том, что это поведение регулярно. Модель Маркова активно используется в математической лингвистике. (Цепи Маркова – посмотреть).

Кроме того, очень часто для взлома шифров применяют очень простые методы: методы грубой силы или полного перебора. Используется значение психосоциальной инженерии, которая основывает свои методы на том, что фактически 75% информации лежит в открытых источниках.

Авторизация текста (установление авторства). Это классическая проблема филологического исследования, которая рассматривается в рамках так называемой количественной стилистики (или стилеметрии).

Основатель этой области – лингвостатистик М.А. Морозов. Он в 1915 году опубликовал работу, которая называется «Лингвистические спекторы. Средства отличия плагиатов от истинных произведений, или стилеметрический этюд». Автор предлагал при количественном анализе текста опираться не на тематическую лексику, а на служебные слова и слова тематически нейтральные, т.е. именно особенности употребления служебных слов и определенные стилистические конструкции формируют авторский стиль и не поддается имитации.

Перспективным направлением в этой области является использование при авторизации текста «теории распознавания образов».При таком подходе авторский стиль описывается как некоторое множество количественных параметров (длина, количество слов в предложении, длина предложения, количество вложенных синтаксических структур и т.д.). каждый анализируемый текст при этом выражается через вектор, координаты которого задаются значениями выбранных параметров, а сходство векторов определяет сходство стилей.

Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ЕЯ, начиная с технологий OCR/ICR и т.д.

⇐ Предыдущая 8 9 10 11 121314 15 16 17 Следующая ⇒

Дата публикования: 2015-02-20; Прочитано: 2011 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2026 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.384 с)...