Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Это вариант корпуса текстов, которые классифицируются по типу исследовательских задач:
· Исследовательский – предназначен для изучения определенных аспектов функционирования, язык, системы, является размягченными (морфологическая разметка, синтаксическая разметка, часто они называются аннотированные корпуса (Tagged Corpus).
· Иллюстративный используется для подтверждения и обоснования каких-либо лингвистических фактов.
· Динамический (мониторный) – предлагает обновление, дополнение материала, иначе выводы будут неверные (пресса)
· Статический (авторский)
· Корпус параллельных текстов – используется для теории и практики перевода, для составления двуязычных словарей.
· Учебный (Learne Corpus) – корпус речи учащихся (определенной группы) неносителей языка. Примеры: Cambridge-Lerne - Corpus, London - Lerne - Corpus.
· Фундаментальный – отражает состояние языка в целом, для чего собирается максимальное количество вариантов диалектов, причем выбираются жанры, стили, а также устный и письменный регистр.
Основные требования к корпусам и основная задача
Основная задача корпусной лингвистики - это разработка общих принципов создания корпуса текста и корпуса данных и формирование общих требований к корпусу c точки зрения пользователя, таких требований несколько:
1. Репрезентативность – это способность отражать все свойства проблемной области релевантные для данного типа лингвистического исследования в определенной пропорции, определенные частотой данного исследования. В настоящее время минимальный объем для репрезентативности это 1000 текстов * 1000 слов.
2. Полнота – это требования, отражения всей языковой системы или лингвистического явления.
3. Экономичность – противопоставляется полноте, при максимальном описании явления корпус должен быть компактным.
Компьютерная поддержка корпусов:
· определенные форматы (БД, html)
· программы морфологического и синтаксического анализа, если он размечен
Но для любого корпуса обязательно используются специальные программы, которые называются конкордансы, которые позволяют осуществить поиск выбранного явления по всему тексту и показывают это явление в контексте (выдает список выбранных лексем в контексте их употребления)
Пример: поиск по всему тексту
Work/2,5,6 раз (встречаемость) |
слова слова слова work слова слова слова слова слова work слова working |
Можно пролистать, где это слово встречается. Выбираются все предложения с этим словом. Можно узнать все формы его и значения (программа McConcord)
Более современные программы, которые включают в себя конкордансы, элементы нескольких систем, поиск по частям речи построение различных грамматических деревьев называется корпус-менеджером
Кроме конкордансов в компьютерном обеспечении корпуса входят различные программы анализатора: морфоанализаторы, парсеры.
Для разработки корпусов часто используют различные оболочки для структуризации корпуса (в языках html, xml) по определенным стандартам типа Text Encoding Initiative.
Дата публикования: 2015-02-20; Прочитано: 1077 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!