Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Более традиционный вариант формулы при наличии ключевого слова: MI=log2 , где n – ключевое слово; c – коллокат; f(n,c) – абсолютная частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные частоты ключевого слова n и слова c в корпусе; N – общее число словоформ в корпусе. В том случае, если ключевое слово не выделяется и коллокаты равноправны, то вместо «n» и «c» используются условные обозначения «c1» и «c2».
В каких случаях используется мера MI? Какие условия надо соблюдать при ее использовании? Обоснуйте свои ответы, пользуясь двумя приводимыми ниже таблицами (курсовая работа Анны Савиной, СПбГУ, 2009 год), полученными с помощью ресурса Сергея Шарова QUERYING INTERNET CORPORA http://corpus.leeds.ac.uk/internet.html. В таблицах 1 и 2 приведены лексемные биграммы с нетрадиционным для данной меры целевым словом – предлогом “в” – с максимальными значениями меры MI:
в таблице 2 – полученные на текстах Russian Business Internet corpus,
в табл.1 – полученные на текстах Russian National corpus.
Правильно ли использовать данную меру с таким целевым словом? Как зависит выдача от текстового материала: функционального стиля, предметной области, тщательности корректуры и т.д.? Условные обозначения: Joint – абсолютная частота данной коллокации в корпусе; Freq1 – абсолютная частота первого слова биграммы, т.е. предлога “в”; Freq2 – абсолютная частота второго слова биграммы; MI – значение MI –меры.
Есть ли среди приведенных биграмм те составные слова, которые встречаются в словарях? Что это за слова? К какой части речи они принадлежат?
Таблица 1. Биграммы, полученные на текстах Russian National corpus
Collocation | Joint | Freq1 | Freq2 | MI |
в кейсарий | 5,52 | |||
в петербурда | 5,52 | |||
в бетезд | 5,52 | |||
в ноолс | 5,52 | |||
в тартуск | 5,52 | |||
в гармиш | 5,52 | |||
в мариупол | 5,52 | |||
в огарковый | 5,52 | |||
в бровар | 5,52 | |||
в середке | 5,52 | |||
в полувольная | 5,52 | |||
в Пермь | 5,52 | |||
в альбервилла | 5,52 | |||
в кадаш | 5,52 | |||
в новоспасск | 5,52 | |||
в кадун | 5,52 | |||
в строгиня | 5,52 | |||
в невадя | 5,52 | |||
в ОДВФ | 5,52 | |||
в добрыних | 5,52 | |||
в рясофор | 5,52 | |||
в магас | 5,52 | |||
в скрабль | 5,52 | |||
в наклад | 5,52 | |||
в одиночку | 5,52 |
Таблица 2. Биграммы, полученные на текстах Russian Business Internet corpus
Collocation | Joint | Freq1 | Freq2 | MI |
в глубь | 5,59 | |||
в одночасье | 5,59 | |||
в немилость | 5,59 | |||
в уезда | 5,59 | |||
в ажур | 5,59 | |||
в Индокитай | 5,59 | |||
в Таллин | 5,59 | |||
в Пасадена | 5,59 | |||
в паранджа | 5,59 | |||
в клир | 5,59 | |||
в Мариуполь | 5,59 | |||
в ладоши | 5,59 | |||
в просторечие | 5,59 | |||
в туле | 5,59 | |||
в зачаточный | 5,59 | |||
в приказный | 5,59 | |||
в Святогорск | 5,59 | |||
в охотка | 5,59 |
Задание 8
В таблице 1 и 2 приведены биграммы, которые выделяются на основании значений меры MI (MI-score) без указания ключевого слова. Эти биграммы выделяются и при анализе лексем, и при анализе словоформ. В обеих таблицах приведены биграммы (в порядке убывания значения меры), выделяемые на материале научных лингвистических текстов:
в таблице 1 –на материале Трудов конференции «Корпусная лингвистика» (2004, 2006, 2008 годы),
в таблице 2 –на материале Трудов конференции «Диалог» (с 2003 по 2010 год). (По материалам (Ягунова, Пивоварова 2011; Пивоварова, Ягунова 2010) [2])
Как бы Вы охарактеризовали основные типы выделяемых биграмм? В чем различие набора биграмм в таблице 1 и 2? Можете ли Вы на основании таблиц описать основную тематику этих двух конференций?
Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Материал конференции «Корпусная лингвистика»
Биграммы | Биграммы |
наш взгляд | одной стороны |
(по) крайней мере | таким образом |
речевой деятельности | разрешения неоднозначности |
художественной литературы | английский язык |
первую очередь | кроме того |
общим объемом | Национальный корпус |
корпусная лингвистика | грамматических категорий |
имена собственные | устная речь |
математической лингвистики | база данных |
словарной статьи | во многих |
свою очередь | лексических единиц |
предметной области | дает возможность |
машинного перевода | зависит от |
точки зрения | отличие от |
за счет | русский язык |
речь идет | корпусные данные |
прежде всего | отличается от |
большое количество | зависимости от |
настоящее время | работы над |
представляет собой | частей речи |
млн словоупотреблений | во всех |
другой стороны | при помощи |
семантических состояний | морфологической разметки |
Таблица 2. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Материал конференции «Диалог».
Биграммы | Биграммы |
ударном слоге | интеллектуальные технологии |
концептуальных графов | корпусная лингвистика |
внешним посессором | отглагольных существительных |
оперативной памяти | знаки препинания |
вокального жеста | педагогической коммуникации |
крайней мере | основного тона |
XIX века | машинного перевода |
лингвистического процессора | устойчивых словосочетаний |
положение дел | точки зрения |
первую очередь | меньшей мере |
картине мира | вряд ли |
множественного числа | предметной области |
вплоть до |
Задание 9
В таблице 1 и 2 приведены биграммы, которые выделяются на основании значений меры MI (MI-score) без указания ключевого слова. В обеих таблицах приведены биграммы (в порядке убывания значения меры), выделяемые на материале новостных текстов портала Лента.ру (Ягунова, Пивоварова 2010 [3]).
Как бы Вы охарактеризовали основные типы выделяемых биграмм? В чем различие набора биграмм в таблице 1 и 2? Чем биграммы, выделяемые на материале новостных текстов, отличаются от биграмм, выделяемых на материале научных текстов (см. предыдущее задание)?
Таблица 1. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Лента.ру
Биграммы | Биграммы |
Бритни Спирс | РЕН ТВ |
Эльвира Набиуллина | турнирной таблице |
Ле Бурже | непосредственной близости |
Лионель Месси | Аркадий Дворкович |
мысе Канаверал | Герман Греф |
бин Ладена | да Винчи |
Норильского никеля | Аденском заливе |
дельты Нигера | Континентальной хоккейной |
Ак Барс | Саудовская Аравия |
тротиловом эквиваленте | Саудовской Аравии |
тройскую унцию | беспилотных летательных |
Ролан Гаррос | Хромой лошади |
дель Торо | Хромая лошадь |
дель Потро | Вера Звонарева |
Арбат Престиж | Невский экспресс |
РАО ЕЭС | Невского экспресса |
Салават Юлаев | обогащению урана |
Арсений Яценюк | сельского хозяйства |
голубых фишек | Палестинской автономии |
адронного коллайдера |
Таблица 2. Биграммы для лексем, не нашедшие соответствия для биграмм из словоформ. Лента.ру
биграммы | |
КУРМАНБЕК | БАКИЕВ |
АЛИШЕР | УСМАНОВ |
БЕНЕДИКТ | XVI |
УСЕЙН | БОЛТ |
СЕРДЕЧНЫЙ | ПРИСТУП |
ОСАМА | БИН |
СТИХИЙНЫЙ | БЕДСТВИЕ |
ЛАМПА | НАКАЛИВАНИЕ |
РАДОВАН | КАРАДЖИЧ |
ПОЛЕЗНЫЙ | ИСКОПАЕМОЕ |
ДЖОННИ | ДЕПП |
ФИДЕЛЬ | КАСТРО |
ДОЛИНА | СВАТ |
САДДАМ | ХУСЕЙН |
СИМФОНИЧЕСКИЙ | ОРКЕСТР |
КРОВНЫЙ | МЕСТЬ |
РАФАЭЛЬ | НАДАЛЬ |
РИММА | САЛОНЕН |
КРУГЛЫЙ | СТОЛ |
ГАРРИ | ПОТТЕР |
РОБЕРТО | МИЧЕЛЕТТИ |
ЗАРАБОТНЫЙ | ПЛАТА |
БОСНИЙСКИЙ | СЕРБ |
ЧЕН | ИР |
Задание 10
Дата публикования: 2015-04-07; Прочитано: 878 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!