Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Как Вы знаете, коллокации могут выделяться с использованием разных статистических мер. Опишите свойства меры MI (Mitual information)



Более традиционный вариант формулы при наличии ключевого слова: MI=log2 , где n – ключевое слово; c – коллокат; f(n,c) – абсолютная частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные частоты ключевого слова n и слова c в корпусе; N – общее число словоформ в корпусе. В том случае, если ключевое слово не выделяется и коллокаты равноправны, то вместо «n» и «c» используются условные обозначения «c1» и «c2».

В каких случаях используется мера MI? Какие условия надо соблюдать при ее использовании? Обоснуйте свои ответы, пользуясь двумя приводимыми ниже таблицами (курсовая работа Анны Савиной, СПбГУ, 2009 год), полученными с помощью ресурса Сергея Шарова QUERYING INTERNET CORPORA http://corpus.leeds.ac.uk/internet.html. В таблицах 1 и 2 приведены лексемные биграммы с нетрадиционным для данной меры целевым словом – предлогом “в” – с максимальными значениями меры MI:

в таблице 2 – полученные на текстах Russian Business Internet corpus,
в табл.1 – полученные на текстах Russian National corpus.

Правильно ли использовать данную меру с таким целевым словом? Как зависит выдача от текстового материала: функционального стиля, предметной области, тщательности корректуры и т.д.? Условные обозначения: Joint – абсолютная частота данной коллокации в корпусе; Freq1 – абсолютная частота первого слова биграммы, т.е. предлога “в”; Freq2 – абсолютная частота второго слова биграммы; MI – значение MI –меры.

Есть ли среди приведенных биграмм те составные слова, которые встречаются в словарях? Что это за слова? К какой части речи они принадлежат?

Таблица 1. Биграммы, полученные на текстах Russian National corpus

Collocation Joint Freq1 Freq2 MI
в кейсарий       5,52
в петербурда       5,52
в бетезд       5,52
в ноолс       5,52
в тартуск       5,52
в гармиш       5,52
в мариупол       5,52
в огарковый       5,52
в бровар       5,52
в середке       5,52
в полувольная       5,52
в Пермь       5,52
в альбервилла       5,52
в кадаш       5,52
в новоспасск       5,52
в кадун       5,52
в строгиня       5,52
в невадя       5,52
в ОДВФ       5,52
в добрыних       5,52
в рясофор       5,52
в магас       5,52
в скрабль       5,52
в наклад       5,52
в одиночку       5,52

Таблица 2. Биграммы, полученные на текстах Russian Business Internet corpus

Collocation Joint Freq1 Freq2 MI
в глубь       5,59
в одночасье       5,59
в немилость       5,59
в уезда       5,59
в ажур       5,59
в Индокитай       5,59
в Таллин       5,59
в Пасадена       5,59
в паранджа       5,59
в клир       5,59
в Мариуполь       5,59
в ладоши       5,59
в просторечие       5,59
в туле       5,59
в зачаточный       5,59
в приказный       5,59
в Святогорск       5,59
в охотка       5,59

Задание 8

В таблице 1 и 2 приведены биграммы, которые выделяются на основании значений меры MI (MI-score) без указания ключевого слова. Эти биграммы выделяются и при анализе лексем, и при анализе словоформ. В обеих таблицах приведены биграммы (в порядке убывания значения меры), выделяемые на материале научных лингвистических текстов:

в таблице 1 –на материале Трудов конференции «Корпусная лингвистика» (2004, 2006, 2008 годы),

в таблице 2 –на материале Трудов конференции «Диалог» (с 2003 по 2010 год). (По материалам (Ягунова, Пивоварова 2011; Пивоварова, Ягунова 2010) [2])

Как бы Вы охарактеризовали основные типы выделяемых биграмм? В чем различие набора биграмм в таблице 1 и 2? Можете ли Вы на основании таблиц описать основную тематику этих двух конференций?

Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Материал конференции «Корпусная лингвистика»

Биграммы Биграммы
наш взгляд одной стороны
(по) крайней мере таким образом
речевой деятельности разрешения неоднозначности
художественной литературы английский язык
первую очередь кроме того
общим объемом Национальный корпус
корпусная лингвистика грамматических категорий
имена собственные устная речь
математической лингвистики база данных
словарной статьи во многих
свою очередь лексических единиц
предметной области дает возможность
машинного перевода зависит от
точки зрения отличие от
за счет русский язык
речь идет корпусные данные
прежде всего отличается от
большое количество зависимости от
настоящее время работы над
представляет собой частей речи
млн словоупотреблений во всех
другой стороны при помощи
семантических состояний морфологической разметки

Таблица 2. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Материал конференции «Диалог».

Биграммы Биграммы
ударном слоге интеллектуальные технологии
концептуальных графов корпусная лингвистика
внешним посессором отглагольных существительных
оперативной памяти знаки препинания
вокального жеста педагогической коммуникации
крайней мере основного тона
XIX века машинного перевода
лингвистического процессора устойчивых словосочетаний
положение дел точки зрения
первую очередь меньшей мере
картине мира вряд ли
множественного числа предметной области
  вплоть до

Задание 9

В таблице 1 и 2 приведены биграммы, которые выделяются на основании значений меры MI (MI-score) без указания ключевого слова. В обеих таблицах приведены биграммы (в порядке убывания значения меры), выделяемые на материале новостных текстов портала Лента.ру (Ягунова, Пивоварова 2010 [3]).

Как бы Вы охарактеризовали основные типы выделяемых биграмм? В чем различие набора биграмм в таблице 1 и 2? Чем биграммы, выделяемые на материале новостных текстов, отличаются от биграмм, выделяемых на материале научных текстов (см. предыдущее задание)?

Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Лента.ру

Биграммы Биграммы
Бритни Спирс РЕН ТВ
Эльвира Набиуллина турнирной таблице
Ле Бурже непосредственной близости
Лионель Месси Аркадий Дворкович
мысе Канаверал Герман Греф
бин Ладена да Винчи
Норильского никеля Аденском заливе
дельты Нигера Континентальной хоккейной
Ак Барс Саудовская Аравия
тротиловом эквиваленте Саудовской Аравии
тройскую унцию беспилотных летательных
Ролан Гаррос Хромой лошади
дель Торо Хромая лошадь
дель Потро Вера Звонарева
Арбат Престиж Невский экспресс
РАО ЕЭС Невского экспресса
Салават Юлаев обогащению урана
Арсений Яценюк сельского хозяйства
голубых фишек Палестинской автономии
адронного коллайдера  

Таблица 2. Биграммы для лексем, не нашедшие соответствия для биграмм из словоформ. Лента.ру

биграммы
КУРМАНБЕК БАКИЕВ
АЛИШЕР УСМАНОВ
БЕНЕДИКТ XVI
УСЕЙН БОЛТ
СЕРДЕЧНЫЙ ПРИСТУП
ОСАМА БИН
СТИХИЙНЫЙ БЕДСТВИЕ
ЛАМПА НАКАЛИВАНИЕ
РАДОВАН КАРАДЖИЧ
ПОЛЕЗНЫЙ ИСКОПАЕМОЕ
ДЖОННИ ДЕПП
ФИДЕЛЬ КАСТРО
ДОЛИНА СВАТ
САДДАМ ХУСЕЙН
СИМФОНИЧЕСКИЙ ОРКЕСТР
КРОВНЫЙ МЕСТЬ
РАФАЭЛЬ НАДАЛЬ
РИММА САЛОНЕН
КРУГЛЫЙ СТОЛ
ГАРРИ ПОТТЕР
РОБЕРТО МИЧЕЛЕТТИ
ЗАРАБОТНЫЙ ПЛАТА
БОСНИЙСКИЙ СЕРБ
ЧЕН ИР

Задание 10





Дата публикования: 2015-04-07; Прочитано: 878 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...