Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Типы корпусов



Это вариант корпуса текстов, которые классифицируются по типу исследовательских задач:

· Исследовательский – предназначен для изучения определенных аспектов функционирования, язык, системы, является размягченными (морфологическая разметка, синтаксическая разметка, часто они называются аннотированные корпуса (Tagged Corpus).

· Иллюстративный используется для подтверждения и обоснования каких-либо лингвистических фактов.

· Динамический (мониторный) – предлагает обновление, дополнение материала, иначе выводы будут неверные (пресса)

· Статический (авторский)

· Корпус параллельных текстов – используется для теории и практики перевода, для составления двуязычных словарей.

· Учебный (Learne Corpus) – корпус речи учащихся (определенной группы) неносителей языка. Примеры: Cambridge-Lerne - Corpus, London - Lerne - Corpus.

· Фундаментальный – отражает состояние языка в целом, для чего собирается максимальное количество вариантов диалектов, причем выбираются жанры, стили, а также устный и письменный регистр.

Основные требования к корпусам и основная задача

Основная задача корпусной лингвистики - это разработка общих принципов создания корпуса текста и корпуса данных и формирование общих требований к корпусу c точки зрения пользователя, таких требований несколько:

1. Репрезентативность – это способность отражать все свойства проблемной области релевантные для данного типа лингвистического исследования в определенной пропорции, определенные частотой данного исследования. В настоящее время минимальный объем для репрезентативности это 1000 текстов * 1000 слов.

2. Полнота – это требования, отражения всей языковой системы или лингвистического явления.

3. Экономичность – противопоставляется полноте, при максимальном описании явления корпус должен быть компактным.

Компьютерная поддержка корпусов:

· определенные форматы (БД, html)

· программы морфологического и синтаксического анализа, если он размечен

Но для любого корпуса обязательно используются специальные программы, которые называются конкордансы, которые позволяют осуществить поиск выбранного явления по всему тексту и показывают это явление в контексте (выдает список выбранных лексем в контексте их употребления)

Пример: поиск по всему тексту

Work/2,5,6 раз (встречаемость)
слова слова слова work слова слова слова слова слова work слова working

Можно пролистать, где это слово встречается. Выбираются все предложения с этим словом. Можно узнать все формы его и значения (программа McConcord)

Более современные программы, которые включают в себя конкордансы, элементы нескольких систем, поиск по частям речи построение различных грамматических деревьев называется корпус-менеджером

Кроме конкордансов в компьютерном обеспечении корпуса входят различные программы анализатора: морфоанализаторы, парсеры.

Для разработки корпусов часто используют различные оболочки для структуризации корпуса (в языках html, xml) по определенным стандартам типа Text Encoding Initiative.





Дата публикования: 2015-02-20; Прочитано: 994 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...