Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Корпусная лингвистика



(Corpus Linguistics)

Лингвистическое исследование как научный метод опирается на анализ языкового материала, т. е. чем больше такого материала, тем выше достоверность выводов.

Традиционно для лингвистического исследования использовались корпусы текстов (Corpora-Corpus). Традиционные способы сбора и хранения корпусов были трудоемкими (корпусы формировались в виде хрестоматий, сборников текстов, архивов).

В настоящее время корпуса текстов в основном представлены в электронном формате, у них есть свои форматы, стандарты представления. Большинство корпусов открыты. Современный подход корпусной лингвистике развивается в России с 2000 г.

Основные понятия

Проблемная область –это область реализации языковой системы, содержащая явления, подлежащие лингвистическому описанию. …, это речь того или иного писателя, детская речь.

Корпус данных – это сформированная по определенным правилам выборка данных из проблемной области, для которой часто используются операции сужения проблемной области до некоторого количества текстов, отражающих явления, присущие этой проблемной области.

Сужение – это очень сложная задача выполняется либо экспертами, либо часто на основе статистики.

Единица хранения корпуса – зависит от принципов, по которым осуществляется выборка, т.е. единицами могут быть как отдельные слова, предложения и целые тексты. Единицы хранения представляются в записях базы данных или в виде текстового массива или в виде текстов.

Можно выделить корпус текстов как отдельное понятие, здесь единица хранения – текст или его значительный фрагмент (обычно это не менее 1000 слов).





Дата публикования: 2015-02-20; Прочитано: 1354 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.012 с)...