Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Контент-анализ



Контент-анализ - это количественный анализ текстов и текстовых

массивов с целью последующей содержательной интерпретации

выявленных числовых закономерностей. Определений КА существует

много, например, можно встретить следующие:

1. статистическая (квантитативная) семантика;

2. техника для объективного количественного анализа содержания

коммуникации;

3. техника для делания выводов при помощи объективного и

систематического установления характеристик сообщений.

Отличительной чертой КА является его квантитативный характер, т.е.

прежде всего это количественный метод, предполагающий числовую

оценку определенных компонентов текста, способную дополняться также

различными качественными классификациями и выявлением тех/иных

структурных закономерностей. С точки зрения лингвистов и специалистов

по информатике, КА является типичным примером прикладного

информационного анализа текста.

Количественный контент-анализ в первую очередь интересуется

частотой появления в тексте определенных характеристик (переменных)

содержания.

Качественный контент-анализ позволяет делать выводы даже на

основе единственного присутствия или отсутствия определенной

характеристики содержания.

Следует обратить внимание на то, что когда говорят о контент-

анализе текстов, то главный интерес всегда заключается не в самих

характеристиках содержания, а во внеязыковой реальности, которая за

ними стоит - личных характеристиках автора текста, преследуемых им

целях, характеристиках адресата текста, различных событиях

общественной жизни и пр.

Просто частота появления того или иного слова или темы мало что

говорят. Гораздо более информативны не абсолютные, а относительные

частоты, которые вычисляются как отношение абсолютной частоты к

длине анализируемого текста. В зависимости от того, что является

переменной содержания, под длиной текста может пониматься количество

слов в нем, количество предложений, абзацев и пр.

Были сформированы категории слов, относящихся к экономике,

бюджету страны, образованию, преступности, вопросам семьи,

международным делам, социальной помощи и др.

По изменению относительных частот в посланиях 1994 и 1995 годов

были сделаны выводы об изменении политики государства в различных

областях. Т.е. все эти темы нашли отражение в обоих посланиях, но в

одном из них некоторым темам уделялось больше внимания, а в другом

меньше. Например, в послании 1995 года больше внимания было уделено

вопросам образования, семьи, но меньше внимания - преступности,

международным делам, социальной помощи. Это дало основания для

того, чтобы судить о приоритетах правительства США.

В приведенном выше примере было упомянуто понятие категории,

или концептуальной переменной (К-переменной). В качестве категории

может выступать набор слов, объединенных по определенному

основанию. Можно сказать, что посредством категорий в контент-анализе

представлены определенные концептуальные образования. Так в случае с

посланиями Б.Клинтона была образована категория ЭКОНОМИКА, в

которую входили слова - экономика, безработица, инфляция. В категорию

СЕМЬЯ входили слова - ребенок, семья, родители, мать, отец. Именно

учет частот встречаемости категорий, а не отдельных слов, позволяет

судить о внимании, уделенном в послании тем или иным вопросам.

Очевидно, что от качества составления таких категорий во многом

зависит качество результатов анализа. Контент-анализ текстов с

использованием категорий иногда называют концептуальным анализом.

Сфера его применения довольно широка. Два основных типа задач,

решаемых с его помощью:

1. Есть два или более текстов, которые необходимо сравнить в

отношении нагрузки на определенные категории. Например, задача

выяснить, какое внимание уделяют две разные газеты определенным

темам. Если эти газеты рассчитаны на одну аудиторию, то существенное

различие в частотах позволит судить о различиях в политике, проводимой

людьми, стоящими за ними.

2. Задача отслеживания динамики изменения нагрузки на

определенные категории. Например, выяснить частоту упоминания темы

внешнего долга России в фиксированном наборе центральных газет на

протяжении какого-то времени и соотнести ее с колебаниями курса

доллара путем простого корреляционного анализа.

Дальнейшее развитие контент-анализа требовало более тонких

методов анализа текстов. К середине 50-х годов исследователи стали все

больше уделять внимания не простому наличию или отсутствию категорий

в тексте, а связям между категориями. Для этого обращают внимание на

совместную встречаемость (cooccurence) слов различных категорий.

Метод нахождения контекстов употребления слов – коллокаций

(collocations) - допускает дальнейшее развитие. Выбрав предложения, в

которых встречается конкретное слово или категория, мы получаем

некоторую подвыборку текста, к которой в свою очередь применимы все

методы контент-анализа. Т.е. контексты употребления слов и категорий в

свою очередь могут быть подвергнуты контент-анализу − выяснению

простых частот категорий, относительных частот, оценок категорий

относительно нормы и т.д.

Если выразиться образно, то контекстный анализ позволяет выделить

в тексте несколько тематических нитей и анализировать их отдельно.

Очевиден огромный потенциал контекстного анализа при мониторинге

больших объемов информации, так как он позволяет полностью

автоматизировать весь процесс сбора информации.

  1. Лингвистика в задачах информационного поиска. Лингвистическое обеспечение ИПС. Технологии поиска информации. Варианты ИПЯ. Информационно-поисковый язык как искусственный язык. Лексический уровень и Синтаксический уровень ИПЯ (на примере реального языка любой ИПС). Основные алгоритмы («прямой поиск» и инвертированный файл).

Общие понятия информационного поиска

Поиск информации – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и т.д.), которые соответствуют поступившему запросу.

В качестве средств хранения и поиска информации выступают информационно-поисковые системы (ИПС), элементами которых являются массив документов (баз данных), выступавших как объект поиска, информационно-поисковый язык (ИПЯ), правила индексирования, правила поиска, технические средства (для автоматизированных ИПС).

При вводе документа в базу данных ИПС его индексируют, т.е. определяют ключевые слова (тему, термины) и выражают их на информационно-поисковом языке, принятом в этой системе, записывают в виде поискового образа (ПО). Так база данных ИПС состоит из поисковых образов (формальная модель для поиска). При поиске производится сопоставление вашего запроса, т.е. того, что в ней хранится. Поисковое предписание (запрос на поиск) также должно быть ограничено по языку и иметь определенное формальное представление.

Автоматизированная иформационно-поисковая система (ИПС)

это функционирующая на основе ЭВМ и других технических средств

комплекс, обеспечивающий сбор, хранение, обновление и обработку

информации в целях поддержки какого-либо вида деятельности. Основное

достоинство ИПС заключается в обеспечении хранения больших объемов

данных и быстрого поиска нужной информации среди имеющихся данных.

К числу главных поисковых систем (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport).

Для решения проблемы максимального охвата ресурсов Интернета

создаются системы, называемые метапоисковыми (metasearch engines).

Они не имеют собственных поисковых баз данных, не содержат никаких

индексов и при поиске используют ресурсы других поисковых систем. За

счет этого вероятность нахождения нужной информации возрастает.

По характеру поискового массива и выдаваемой информации ИПС

подразделяют на документальные и фактографические.

Документальная ИПС предназначена для отыскания документов

(статей, книг, отчетов, описаний к авторским свидетельствам и патентам),

содержащих необходимую информацию. Поисковый массив такой ИПС

состоит из поисковых образов документов (т.е. текстов на ИПЯ,

поставленных в однозначное соответствие док-ту и отражающих его

признаки, необходимые для поиска его по запросу.) или из самих

документов. В ответ на предъявляемый запрос ИПС выдает некоторое

множество документов (или адреса их хранения), содержащих искомую

информацию.

Фактографическа я ИПС обеспечивает выдачу непосредственно

фактических сведений, затребованных потребителем, т.е. она реализует

хранение, поиск и выдачу непосредственно фактических данных (научных,

технических, экономических характеристик и свойств объектов, процессов,

явлений, адресов, наименований, количественных данных и т.п.). В

настоящее время фактографические ИПС (как специальный класс

поисковых систем) практически не разрабатываются, выполняемые ими

действия реализуются с помощью штатных СУБД.

Присвоение документу набора ключевых слов или кодов,

определяющих его содержание называется индексированием.

Для пополнения списка ключевых слов служит робот-индексировщик,

который просматривает сеть, находит новые информационные ресурсы,

приписывает им термины и помещает в БД индекса. Возможны 2 способа

индексирования: свободное, когда из текста документа извлекаются

ключевые слова без учета всех их словоформ и отношений между ними; и

контролируемое, когда в поисковый образ документа включаются только

те слова, которые зафиксированы в информационно-поисковом тезаурусе

(ИПТ), где указаны их синонимические, морфологические и ассоциативные

отношения. ИПТ - специально организованный нормативный словарь

лексических единиц ИПЯ и ЕЯ - дескрипторов. Тезаурус учитывает

семантические связи м/д словами: антонимы, синонимы, гипонимы,

гиперонимы, ассоциации.

Виды автоматизированного поиска

1) библиографический (записи в каталогах, тип Record)

2) библиотечный (тексты, документы-записи в виде файлов)

3) фактографический (табличные данные в базе данных)

4) продукционный (процедурные правила вида если…, то …)

Характеристики информационного поиска – это такие его семантические показатели, как:

- полнота выдачи/потери информации;

- точность ее выдачи;

- информационный шум.

Релевантность — это фундаментальное понятие теории

информационного поиска. Говорят о двух видах релевантности: смысловой

и формальной. Соответствие документа содержанию информационного

запроса называют смысловой релевантностью, а соответствие

поискового образа этого документа формализованному поисковому

предписанию, выражающему данный информационный запрос, —

формальной релевантностью. Также формальную релевантность

называют релевантностью документа, а смысловую релевантность —

релевантностью информации (имеется в виду «информации,

содержащейся в документе»). Формальная релевантность еще

рассматривается как соответствие, определяемое алгоритмически путем

сравнения поискового предписания и поискового образа документа на

основании применяемого в ИПС критерия выдачи.

Критерий выдачи - это формальное правило, совокупность

признаков, по которым определяется степень формальной реливантности

поискового образа документа и поискового предписания и принимается

решение о выдаче/невыдаче некоторого документа в ответ на

информационный запрос.

Недостатки:

При поиске существуют 2 проблемы: нерелевантность поиска

(информационный шум) и неполнота поиска.

Причиной информационного шума может быть неправильное

ключевое слово, многозначность слова, нечеткое формулирование цели

поиска.

Неполнота поиска: система не может найти нужную информацию,

хотя она и имеется в базе данных. Одна из причин этого недостатка –

синонимия.

Проблема оценки эффективности поиска является комплексной

проблемой, включающей как теоретическую, так и практическую сторону.

Главные из функциональных (технических) показателей ИПС,

базирующихся на релевантности, — это полнота и точность, которые

основываются на разделении документов на релевантные и

нерелевантные, а также на выданные и невыданные.

Полнотой поиска (Recall) называется мера, вычисляемая как

отношение количества выданных релевантных документов к общему

числу релевантных документов, содержащихся в информационном

массиве.

Точность поиска (Precision ) — это отношение количества выданных

релевантных документов к общему числу документов в выдаче.

Огромную роль в повышении точности поиска играет ранжирование.

Пользователь очень редко просматривает больше трех страниц с

результатами поиска. Поэтому субъективно он оценивает точность по

"верхним" документам. Даже если нужный документ найден поисковой

машиной, но расположен на двухсотой позиции, скорее всего, он никогда

не будет найден пользователем.

По умолчанию результаты ранжируются по степени соответствия

(релевантности) запросу и группируются по сайтам.

При ранжировании оцениваются различные характеристики текстов, такие как:

Количество вхождений слов (словосочетаний) в документ - чем

больше раз словосочетание "Красная площадь" присутствует в тексте, тем

выше вероятность, что в нем действительно говорится о Красной площади;

Расположение слов запроса в документе - если словосочетание

"Красная площадь" присутствует в заголовках или названии документа, то

документ с большей вероятностью посвящен Красной площади;

Формы слов запроса - преимущество отдается вхождениям, в

которых слова имеют тот же падеж, число, склонение и т.д., что и в

запросе пользователя ("Красная площадь", а не "Красной площадью").

Помимо точного совпадения, выделяются две группы форм слов - близкие

и далекие. Близкими считаются изменения по падежам, склонениям,

спряжениям, числам и родам.

Далекими формами являются причастия, деепричастия и т.п. При

ранжировании преимущество отдается близким формам слов запроса;

Расстояние между словами запроса - если запрос состоит из

нескольких слов, то в найденных документах оценивается, насколько

близко друг от друга расположены эти слова. Преимущество отдается

документам, в которых слова запроса находятся ближе друг к другу,

потому что в этом случае они с большей вероятностью связаны между

собой. Например, если слово "Красная" расположено в тексте на 5

позиции, а слово "площадь" - на 650, то скорее всего в документе речь

идет не о Красной площади;

Относительная частота (отношение количества вхождений слов

запроса в документ к общему количеству слов в документе) - если

словосочетание встречается 10 раз в документе из 100 слов, то он скорее

соответствует запросу, чем если оно встречается те же 10 раз в документе

из 20 тысяч слов;

Популярность - поисковая машина автоматически вычисляет

коэффициент популярности каждой страницы Интернет на основе данных

счетчика Top100 и анализа гипертекстовых ссылок между страницами.

Преимущество отдается более популярным ресурсам;

Ссылочный вес документа - при ранжировании учитывается

ссылочный вес страницы, рассчитанный на основании учета гиперссылок,

содержащих слова запроса. Так, если на некоторый документ словами

"Красная площадь" ссылается большое количество страниц с высокими

коэффициентами популярности, то ему отдается приоритет по запросу

Красная площадь.

Помимо автоматических способов увеличения точности поиска,

существуют различные средства, с помощью которых пользователь сам

может уточнить поиск по отдельным запросам. В первую очередь к ним

относится специальный язык поискового запроса, используя который

можно ограничивать количество найденных документов. Например, запрос

или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех

стоп-слов, форм, порядка, знаков препинания. Это повышает точность

поиска, но уменьшает его полноту: если часть, заключенная в кавычки,

неточна, нужный документ найден не будет.

Использование логического оператора OR (ИЛИ) позволяет

расширить сферу поиска и увеличить его полноту, в то время как оператор

NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения

документов, которые содержат одни слова запроса и не содержат другие.





Дата публикования: 2015-02-20; Прочитано: 962 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...