Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Опыт разработки корпусов текстов



Английский язык:

· наиболее известным фундаментальным корпусом английского языка считают Брауновский корпус американско-английского (1962-1963). Был создан под руководством американского ученого Френсиса, включал 1 миллион словоупотреблений, состоял из 500 текстов по 15 жанрам американо-английского.

В 80-х годах появилась компьютерная версия этого корпуса и долгое время была эталоном для разработки фундаментов языков

· Лондонско-Лунский Корпус - его цель наиболее полно зафиксировать особенности грамматики английского языка в речи взрослого человека и впервые в 80-х годах на базе этого корпуса была выпущена полная грамматика английского языка.

· Ланкасторско-Осло-Бергерский Корпус – это британский аналог Брауновский корпус, создан для сравнительных исследований американского и Британского вариантов английского языка.

· Бермингемский корпус – является одновременно мониторным корпусом, и объединял все варианты английского языка. Это был наиболее полный корпус английского языка. Его руководителем был Джорж Синклер (основатель идеологии дискуссионного анализа). Данный корпус использовался для создания полного словаря английского языка. В 90-х годах и появились наиболее полнее фундаментальные корпуса английского языка, такие как:

· Британский национальный корпус – создание которого было инициировано в Оксфорде и цель его наиболее полно представить сведения в британском варианте английского языка корпус считается развивающимся проект пополнения этого корпуса получил название Bank of English.

Каждое лексикографическое издательство старается создать свой корпус текста (например Лондон, Оксфорд, Кембридж). Кроме того развиваются разные специализированные корпусы, например параллельные корпусы, корпусы Массмедиа. Также развивается американский национальный корпус и более мелкие корпусы- например Business Letters Corpus.

Немецкий язык:

· Наиболее известным является корпус LIMAS, который состоит из500 подкорпусов, причем каждый из которых разбит на 33 области. Это был самый репрезентативный корпус современного немецкого языка

· Корпус немецкой разговорной речи – «Gran deutsch Corpus» состоял из интервью взрослых людей письменной и устной форме.

· Фрайбургский корпус – его проблемная область – это бытовая и официальная речь. Содержит записи диалогов, туда включены различные справочники, газетные тексты и классические тексты немецкого языка язычных писателей.

Кроме этого есть и другие корпусы, например, «Корпус публичной политики и политических выступлений «Vende» и др.

Русский язык:

· Самый известный корпус русского языка был Упсальский корпус (г. Тюбенген). Был разработан по модели Брауновского корпуса и до 2000 г. был самым репрезентативным корпусом русского языка. Состоял из 200 корпусов, содержал художественные тексты, журнальные и газетные тексты.

С 2002 г. в Российской академии наук начался проект по созданию репрезентативного корпуса фундаментального для русского языка. Сначала было название «БОКР» (www.ruscorpora.ru)

Существуют и другие доступные корпусы русского языка «Национальный корпус русского литературного языка» (С-П), «Компьютерный Корпус русских газет 20-го века» (МГУ), «Хельсинский корпус русских текстов» (ХАНКО)

  1. Квантитативная лингвистика (Статистическая лексикография. Лингвостатистика). Лингвистический мониторинг функционирования языка. Дешифровка кодированных текстов. Авторизация текста (стилеметрия). Статистика при компьютерном моделировании языка и речи. Закон Ципфа.

Квантитативная лингвистика (Статистическая лексикография. Лингвостатистика)

Статистическая лингвистика (лингвостатистика,

квантативная/количественная/вычислительная лингвистика, computational linguistics)

Данное направление является смежным направлением лингвистики и математики, т.к. использует статистические методы анализа языка.

Основной задачей является раскрытие закономерностей языка и речи и изучение этих закономерностей касательно построения текста. Исследования ведутся в 2-х основных направлениях:

1. Разработка статистических моделей на материале того или иного языка;

2. Поиск некоторой универсальной математической общеязыковой модели.

Исследования статистических методов в языкознании позволяет дополнить известную структурную модель языка вероятностными (частотными) компонентами.





Дата публикования: 2015-02-20; Прочитано: 1197 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...