Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Охарактеризуйте те выдачи, что вы получили с помощью ресурса Сергея Шарова. Охарактеризуйте биграммы, приведенные в таблице



Какие биграммы представляют собой составные слова, зафиксированные в словарях? Почему? Как вы думаете, в чем различие между составными словами и словосочетаниями?

В таблице приведены биграммы с максимальными значениями меры (в порядке убывания) (По материалам (Ягунова, Пивоварова 2011; Ягунова, Пивоварова 2010) [4])

Таблица. Биграммы с наиболее высокими значениями меры t-score

Лексемные биграммы Словоформные биграммы
ОБ ЭТО об этом
ОДИН ИЗ по словам
ПО СЛОВО а также
А ТАКЖЕ со ссылкой
ПО ДАННЫЕ ссылкой на
ССЫЛКА НА по данным
СО ССЫЛКА кроме того
В РЕЗУЛЬТАТ РИА Новости
КРОМЕ ТОТ этом сообщает
РИА НОВОСТЬ при этом
В ЧАСТНОСТЬ в том
ЭТО СООБЩАТЬ в России
МИЛЛИОН ДОЛЛАР во время
В РОССИЯ пока не
МИЛЛИАРД ДОЛЛАР о том
ВО ВРЕМЯ в результате
ПРИ ЭТО настоящее время
В КОТОРЫЙ миллионов долларов
КАК СООБЩАТЬ связи с
О ТОМ сообщает РИА
В ХОД в результате
В ТОТ в частности
В СВОЙ миллиарда долларов
ПОКА НЕ как сообщает

Задание 11

Что такое ключевое слово?

Что такое мера TF-IDF? Как эта традиционная статистическая мера может использоваться для оценки важности слова в контексте документа, являющегося частью коллекции документов?

Можете ли Вы описать основные темы двух текстов на основании наборов ключевых слов, выделяемых с помощью вычислительного эксперимента? Пример из (Пивоварова, Ягунова 2011) [5]

Таблица. Ключевые слова, выделяемые на основании мера TF-IDF

текст 1 текст 2  
термин звук  
модуль фонема  
обучение комбинация  
тематизация согласный  
конкорданс взрывной  
статистика задний  
иерархия преграда  
тема сонант  
неразмеченный транскрипционный  
просматривать передний  
обучать позиция  
сообщение редукция  
встречаемость помочь  
наполнение сочетание  
статистический британский  
выборка гласная  
словарь иноязычный  
дообучение иностранный  
словокомплекс безусловно  
терминообразовать английский  
классификация альвеолярный  
наследование альвеолярный-палатальный  
механизм англичанин  
документооборот апикальный  
словарный аффриката  
предметный боковой  
  велярный  

Задание 12

Что такое ключевое слово? Набор ключевых слов? Облако тэгов?

Что такое мера TF-IDF? Как использование этой традиционной статистической меры соотносится с интуицией носителей языка, выделяющих ключевые слова в соответствии с инструкцией?

Какие слова, являющиеся ключевыми, трудно или невозможно поймать в ходе вычислительного эксперимента?

Опишите сходство и различие двух наборов (потенциально) ключевых слов, представленных в таблице. Из (Ягунова 2011) [6]

Таблица. Ключевые слова, полученные в результате вычислительного эксперимента (А) и эксперимента с информантами (Б)
(Н.В. Гоголь «Мертвые души»)

А

ключевые слова (TF-iDF) ключевые слова (TF-iDF) ключевые слова (TF-iDF)
Чичиков Копейкин герой
Ноздрев Мураз души
Манилов Антонович дама
Селифан Петрушка голова
Собакевич бричка Леницын
Костанжогло Платонов поэма
человек лицо чубарый
Плюшкин купчая думать
Платон Павел Иванович
Хлобуев город жизнь
тентетник сторона Бог
слово глаз дом
рука Кошкарев барин
тентетников место полицеймейстер
время ассигнация председатель

Б

ключевые слова (информанты) i1 i2 ключевые слова (информанты) i1 i2  
помещик     Манилов          
бричка     Собакевич          
тройка     души          
Чичиков     мертвые          
дорога     губернатор          
Коробочка     Ноздрев          
Плюшкин     крепостные          
купчая     Россия          

Условные обозначения: «i1» – число информантов, записавших слово в данной форме, «i2» – число информантов, записавших данную лексему.

Задание 13

Перед вами результаты машинного перевода с английского языка на русский с помощью статистических систем GOOGLE (http://translate.google.ru/) и Яндекс.Перевод (http://translate.yandex.ru/), а также системы, работающей на основе правил PROMT (http://www.translate.ru), Этап 3 (http://proling.iitp.ru). Все примеры взяты из курсовой Варвары Пушковой (Пермский государственный университет, 21 июня 2010 года). Объясните удачи и ошибки перевода. Объясните формальные показатели части речи (существительное vs. глагол).

GOOGLE
Did they let you travel around Europe?   Did they allow you a travel around Europe? Разве они позволят вам путешествовать по Европе? Разве они позволят вам путешествовать по Европе?
She thought of a plan to put off the wedding   Plan your day to be successful.   How many points do you plan to make per week? Do you have a trading plan? Она думала о планируют отложить свадьбу План свой день, чтобы быть успешным. Cколько очков вы планируете сделать в неделю? У вас есть торговый план?
I do work overnight, when it is really necessary.   I do the work overnight. Я работаю в одночасье, когда это действительно необходимо. Я работать на ночь.
Do you want to bargain with this man?   Do you want a bargain with this man? Вы хотите, чтобы торговаться с этим человеком? Вы хотите, чтобы торговаться с этим человеком?
Яндекс.Перевод
Did they let you travel around Europe?   Did they allow you a travel around Europe?   Они позволяют путешествовать по Европе? Они позволяют вам путешествовать по Европе?
She thought of a plan to put off the wedding   Plan your day to be successful.   How many points do you plan to make per week Do you have a trading plan? Она подумала, что хороший план, чтобы отложить свадьбу Спланировать свой день, чтобы быть успешными. Cколько очков планируете ли вы сделать за неделю? Есть ли у вас план торговли?
I’d stress that we need this video That time brought me a lot of stress Я бы подчеркнуть, что мы должны это видео Это время принес мне много стресса
I do work overnight, when it is really necessary.   I do the work overnight. Я работаю всю ночь, когда это действительно необходимо. Я делаю работу в одночасье.
Do you want to bargain with this man? Do you want a bargain with this man? Вы хотите сделку с этим человеком? Вы хотите сделку с этим человеком?
PROMT
Did they let you travel around Europe?   Did they allow you a travel around Europe?   Они позволяли Вам путешествовать вокруг Европы? Они позволяли Вам путешествие вокруг Европы?
She thought of a plan to put off the wedding Plan your day to be successful.     How many points do you plan to make per week Do you have a trading plan? Она думала о плане отложить свадьбу Запланируйте свой день, чтобы быть успешными.   Cколько пункты, Вы планируете сделать в неделю У Вас есть торговый план?
I do work overnight, when it is really necessary.     I do the work overnight. Я действительно работаю быстро, когда это действительно необходимо. Я делаю работу быстро.
Do you want to bargain with this man? Do you want a bargain with this man? Вы хотите заключить сделку с этим человеком? Вы хотите сделку с этим человеком?
Этап 3
Did they let you travel around Europe?   Did they allow you a travel around Europe?   Дали они вам путешествие вокруг Европы? Позволили они вам путешествие вокруг Европы?
She thought of a plan to put off the wedding   Plan your day to be successful. How many points do you plan to make per week   Do you have a trading plan? Она подумала о плане помещения прочь свадьбы. Планируйте ваш день, чтобы быть успешным. Cколько указывает в до, которое вы планируете делать в неделю? Имеете вы торгующий план?
I’d stress that we need this video     That time brought me a lot of stress Я должен подчеркивать, что мы нуждаемся в этом видео. Тот раз принес мне много напряжения.
I do work overnight, when it is really necessary.   I do the work overnight. Я работаю на ночь, когда это действительно необходимо. Я выполняю работу на ночь
Do you want to bargain with this man?   Do you want a bargain with this man? Хотите вы договариваться с этим человеком? Хотите вы сделки о этом человеке?

Задание 14

Познакомьтесь с ресурсом WordNet, созданном в Унивеситете Принстона http://wordnetweb.princeton.edu.

Используйте описание слова «friend», полученное с помощью этого ресурса, для толкования слова (обращение к ресурсу 01.08.2011):

Noun

Проанализируйте описание слова «war».

Задание 15

Познакомьтесь с возможностями RussNet – электронного тезауруса типа WordNet, создаваемого на Факультете филологии и искусств СПбГУ под руководством И.В. Азаровой http://project.phil.pu.ru/RussNet/index_ru.shtml. Опишите основные методы создания такого рода тезаруса и возможности его практического использования.

Задание 16

Познакомьтесь с возможностями анализа текстов. Для этого скачайте программу TextAnalyst ver. 2.0 (автор Александр Харламов) с сайта http://www.analyst.ru/index.php?lang=eng&dir=content/products/&id=ta. Предварительно выберите научный текст, текст инструкции и художественный текст (на свой вкус – около 3-5 стр.). Проанализируйте возможности автоматического понимания текста на примере автоматического реферирования и автоматического выделения ключевых слов. Попробуйте оценить особенности построения реферата.

Задание 17

Познакомьтесь с корпусным ресурсом Ланкастерского университета и разными вариантами частотных списков английских словоформ на http://www.comp.lancs.ac.uk/ucrel/bncfreq. Докажите, что частотность слов во многом зависит от формы речи (письменная vs. устная), от коммуникативной ситуации (коммуникативных задач, функционального стиля текста). Найдите слова, характеризующие преимущественно письменную или преимущественно устную речь, относящиеся к тому или иному типу устной (собственно разговорная речь vs. контекстно-ориентированная речь) или письменной (информативные тексты и художественная литература) речи.

Задание 18

Познакомьтесь с прототипом частотных списков по жанрам для будущего частотного словаря русского языка на основе Национального корпуса русского языка (корпусным ресурсом http://corpus.leeds.ac.uk/serge/frqlist/ С.А. Шарова и разными вариантами частотных списков – в частности, «Частотным словарем административных текстов, значимая лексика»). Докажите, что частотность слов во многом зависит от функционального жанра (или стиля) текста. Найдите слова, относящиеся преимущественно к тому или иному функциональному стилю.

Задание 19

Проанализируйте динамическую спектрограмму части фразы «Когда одолевают подобные мысли, …». Разделите этот фрагмент на сегменты, соответствующие словам, слогам и фонемам. Покажите сегменты предположительно неполного типа произнесения. Основной задачей Вашего анализа является получение общих представлений о тех сложностях, которые приходится преодолевать при переходе от анализа непрерывного речевого потока к его описанию в терминах языковых единиц (даже в случае идеального варианта произнесения, сильной позиции в тексте и т.д.)

Задание 20

Проанализируйте различия между спонтанной неподготовленной речью и чтением на материале, полученном на кафедре фонетики и методики преподавания иностранных языков Филологического факультета СПбГУ. На сайте http://speech.pu.ru/s.php представлена минимальная интонационная разметка (деление на синтагмы и фразы, логическая и/или эмоциональная выделенность слов) и собственно звуковые файлы (в формате wav) для нескольких дикторов. Спонтанной речи или чтению свойственно более дробное синтагматическое членение? Проявляется ли эта особенность у всех дикторов?

Задание 21

Сравните возможности разных открытых корпусных ресурсов (на материале корпусов русского языка): Национальный корпус русского языка URL: http://www.ruscorpora.ru, Национальный корпус русского литературного языка URL: http://www.narusco.ru, Хельсинкский аннотированный корпус русских текстов ХАНКО URL: http://www.slav.helsinki.fi/hanco/. Проверьте разные возможности работы с этими ресурсами: разные варианты запросов, разные подкорпуса и т.д. Придумайте лингвистические задачи, которые можно решать с помощью этих ресурсов. Какие задачи можно решать с помощью всех этих ресурсов, а какие – с помощью только одного из них? Какого именно?

Задание 22

Что такое функциональный стиль текста? Какие характеристики функциональных стилей Вы можете привести? Чем определяется «уместность» выбора функционального стиля? Попробуйте дать лингвистическую интерпретацию текстов, приведенных Д.Даниловым в рубрике «Анекдоты» (http://www.rulife.ru/index.php?mode=author&auID=44) (из материалов Натальи Занегиной, 2008)

Задание 23

Воспользуйтесь ресурсом Национального корпуса русского языка (http://www.ruscorpora.ru) и приведите примеры контекстов со словами товарищ и господин (не менее 30). Проинтерпретируйте употребление этих слов в этих контекстах.

Задание 24

Широко распространены формулы выражения комплимента с глаголом «выглядеть» (напр., Вы замечательно выглядите, Ты прекрасно выглядишь сегодня, Она стала выглядеть моложе, Он выглядит солидным и представительным и т.д.) Воспользуйтесь сервисом «Поиск биграмм» на ресурсе www.aot.ru для того, чтобы найти наиболее устойчивые формулы такого рода. (Обратите внимание на то, что необходимо рассмотреть и левый, и правый контексты.)

Задание 25

Пользуясь ресурсом Национального корпуса русского языка (http://www.ruscorpora.ru) и сервисом «Поиск биграмм» на ресурсе www.aot.ru определите частотность сочетания «друг другу» в разных падежных формах. Сколько раз это сочетание соответствовало местоимению (т.е. составному слову), а сколько раз – свободному сочетанию.

Задание 26

Пользуясь ресурсом Национального корпуса русского языка (http://www.ruscorpora.ru) и сервисом «Поиск биграмм» на ресурсе www.aot.ru определите частотность сочетания «может быть». Попробуйте вычислить, сколько раз это сочетание соответствовало вводному составному слову, а сколько раз – свободному сочетанию. Что мешает Вам в такого рода вычислениях?

Задание 27

Что такое «часть речи»? Почему «часть речи» в теоретической лингвистике определяют по совокупности признаков? В чем проблема определения «части речи» в системах автоматического анализа? Приведите примеры наиболее сложных случаев. Обосновывайте свой ответ на материале морфологической разметки Национального корпуса русского языка http://ruscorpora.ru/corpora-morph.html и выдач при поиске в корпусе, имеющих сплошную разметку, на http://ruscorpora.ru/search-main.html (обращение к ресурсу 01.08.2011):





Дата публикования: 2015-04-07; Прочитано: 485 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.012 с)...