Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
(Corpus Linguistics)
Лингвистическое исследование как научный метод опирается на анализ языкового материала, т. е. чем больше такого материала, тем выше достоверность выводов.
Традиционно для лингвистического исследования использовались корпусы текстов (Corpora-Corpus). Традиционные способы сбора и хранения корпусов были трудоемкими (корпусы формировались в виде хрестоматий, сборников текстов, архивов).
В настоящее время корпуса текстов в основном представлены в электронном формате, у них есть свои форматы, стандарты представления. Большинство корпусов открыты. Современный подход корпусной лингвистике развивается в России с 2000 г.
Основные понятия
Проблемная область –это область реализации языковой системы, содержащая явления, подлежащие лингвистическому описанию. …, это речь того или иного писателя, детская речь.
Корпус данных – это сформированная по определенным правилам выборка данных из проблемной области, для которой часто используются операции сужения проблемной области до некоторого количества текстов, отражающих явления, присущие этой проблемной области.
Сужение – это очень сложная задача выполняется либо экспертами, либо часто на основе статистики.
Единица хранения корпуса – зависит от принципов, по которым осуществляется выборка, т.е. единицами могут быть как отдельные слова, предложения и целые тексты. Единицы хранения представляются в записях базы данных или в виде текстового массива или в виде текстов.
Можно выделить корпус текстов как отдельное понятие, здесь единица хранения – текст или его значительный фрагмент (обычно это не менее 1000 слов).
Дата публикования: 2015-02-20; Прочитано: 1495 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!