Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Лингвистический мониторинг функционирования языка. Его задача: выявление общих особенностей функционирования языковой системы в конкретном типе дискурса (например, в научном, политическом, газетном и т.д.).
В качестве предмета мониторинга могут выступать, например, такие явления естественного языка, как типы языковых ошибок, неологизмы, метафоры, а также специфические особенности использования в текстах тех или иных видов лексики грамматических форм и стилистических конструкций. Технологии лингвистического мониторинга основываются на двух основных предпосылках: репрезентативности, регулярности и периодичности анализа данных и на большом материале для доказательства лингвистических выводов, например, на базе лингвистических корпусов.
Лингвистический мониторинг в настоящее время широко используется и его компьютерное обеспечение и технологии позволяют давать количественную оценку исследуемым лингвистическим явлениям, выявляя их распределение во времени по источникам, авторам, стилям и дискурсам.
Информация о статистических закономерностях функционирования языка лежит в основе некоторых методик анализа текстовых данных, например, методик контент-анализа, который используется для выявления структуры состояния общественного сознания и с помощью ее появляется возможность по частоте употребления тех или иных лексем реконструировать ценностные ориентации общества, выявить актуальные темы публичной политики и МИ и воздействовать с помощью текстов на общество.
2) Компьютерное моделирование языка и речи. Многие компьютерные программы лингвистической направленности. Машинные переводчики, системы информационного поиска, системы автоматического реферирования текстов используют алгоритмы; базируются на частотном анализе.
Дешифровка кодов – базируется на частоте. В процессе дешифровки используются данные о частоте употребления графем, морфем и слов, а также об их взаимном расположении друг с другом. В настоящее время разрабатываются алгоритмы дешифровки, основанные на частоте распределения элементов кодированного текста (алгоритм Сухотина, Харриса, статистико-комбинаторные алгоритмы и др.).
Дешифровка используется для решения следующих задач, популярных в информатике:
· взлом, шифр
· определение языка сообщения – производится по частоте употребления букв или символов. Для этого необходимо знать частотность символов того или иного языка.
Дешифровка кодов базируется на ТВиМС. В процессе дешифровки используются данные о частоте употребления графем, морфем и лексем, а также об их взаимном расположении друг с другом.
В настоящее время разрабатываются алгоритмы дешифровки, основанные на частоте распределения элементов кодирования текста (алгоритмы Сухотина, Маркова, статистико-комбинаторные алгоритмы Харриса и др.)
Дешифровка в лингвистике используется для решения следующих задач:
a. Определение языка сообщения. В живых языках буквы встречаются с разной частотой и можно построить диаграммы распределения частот символов, характерных для каждого языка. Производится так называемая селекция, т.е. текст сообщения анализируется как поток символов и высчитывается частота встречаемости (вес) каждого символа.
Иногда таблица для удобства нормализуют, т.е. вес символов делится на общее количество символов данного текста. Минимальная длина текста для анализа равняться примерно 3 алфавита. Для русского язык около ста символов.
Таблица частотности для трех языков | ||
Англ | Нем | Фр |
E – 12,86 | E – 19,8 | E – 17,7 |
T – 9,7 | N – 10,2 | S – 8,2 |
A – 7,8 | I – 8,2 | A – 7,6 |
b. Взлом шифров. Вычисление статистического веса одиночных символов можно применить для взлома шифров.
Крептоаналитик должен владеть языком и знать основы статистики. Для взлома более сложных шифров анализ усложняется и часто используется аппарат, предложенным русским математиком А.А. Марковым еще в 19 веке.
Марков предложил теорию динамичной вероятности, которая позволяет предсказать поведение некоторых объектов с течением времени, при том, что это поведение регулярно. Модель Маркова активно используется в математической лингвистике. (Цепи Маркова – посмотреть).
Кроме того, очень часто для взлома шифров применяют очень простые методы: методы грубой силы или полного перебора. Используется значение психосоциальной инженерии, которая основывает свои методы на том, что фактически 75% информации лежит в открытых источниках.
Авторизация текста (установление авторства). Это классическая проблема филологического исследования, которая рассматривается в рамках так называемой количественной стилистики (или стилеметрии).
Основатель этой области – лингвостатистик М.А. Морозов. Он в 1915 году опубликовал работу, которая называется «Лингвистические спекторы. Средства отличия плагиатов от истинных произведений, или стилеметрический этюд». Автор предлагал при количественном анализе текста опираться не на тематическую лексику, а на служебные слова и слова тематически нейтральные, т.е. именно особенности употребления служебных слов и определенные стилистические конструкции формируют авторский стиль и не поддается имитации.
Перспективным направлением в этой области является использование при авторизации текста «теории распознавания образов».При таком подходе авторский стиль описывается как некоторое множество количественных параметров (длина, количество слов в предложении, длина предложения, количество вложенных синтаксических структур и т.д.). каждый анализируемый текст при этом выражается через вектор, координаты которого задаются значениями выбранных параметров, а сходство векторов определяет сходство стилей.
Дата публикования: 2015-02-20; Прочитано: 1858 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!