Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Теоретична частина. Дані та статистика. Типи даних



Дані та статистика. Типи даних

Мета більшості досліджень полягає в зборі даних, які згодом допомагають отримати інформацію у будь-якій галузі знання. Дані грунтуються на спостереженнях однієї або декількох змінних; термін «змінна» означає кількісний показник, здатний змінюватися. Наприклад, ми можемо зібрати основну клінічну та демографічну інформацію про хворих зі специфічною хворобою. Змінні, які викликають інтерес, можуть включати стать, вік і зростання хворого. Зазвичай ми отримуємо дані з вибірки індивідуумів, які представляють популяцію. Наша мета полягає в тому, щоб згрупувати ці дані і отримати від них потрібну інформацію. Статистика використовує різні методи, наприклад збір даних, їх узагальнення, аналіз та підведення підсумків, заснованих на отриманих даних; щоб досягти мети, ми використовуємо статистичні методи. Дані можуть мати різні форми. Перше, що ми повинні знати, перш ніж ми виберемо статистичний метод, це до якого типу відноситься кожна змінна. Кожну змінну та результуючі показники можна розділити на два типи: категоріальний (якісний) або числовий (кількісний).

Категоріальні (якісні) дані.

Дані цього типу зустрічаються тоді, коли індивідуум може належати тільки до однієї з безлічі категорій змінної.

Номінальні дані - ті, в яких категорії не впорядковуються, а просто мають назви. Наприклад, група крові (1, 2) і сімейний стан (заміжня, вдова, не заміжня і т. д.). Немає підстав вважати, що бути заміжньою краще (або гірше), ніж бути не заміжньою.

Ординальні (рангові, порядкові) дані - ті, в яких категорії (градації, рівні) можуть упорядковуватися. Це стадії хвороби (запущена стадія, середня, початкова стадія хвороби або відсутність хвороби), вираженість болю (сильна, помірна, слабка, відсутність болю) і т. д.

Категоріальна (якісна) змінна - це бінарна, або дихотомічна, змінна, що включає тільки дві можливі категорії: «так / ні», «помер / живий» чи «хворий має захворювання / хворий не має жодних захворювань».

Числові (кількісні) дані

Припускають, що змінна має деяку числову величину (значення) можна підрозділити числові дані на два типи.

Дискретні дані - ті, при яких змінна може приймати лише певні числові значення. Часто це результат підрахунку подій, таких як кількість відвідувань лікаря на рік або число захворювань у людини за останні 5 років.

Неперервні дані - ті, які не мають ніяких обмежень, змінна може приймати будь-які значення, наприклад маса тіла або зростання.

Різниця між типами даних

Використання різних статистичних методів залежить від того, є дані категоріальними або числовими. Цілком певна відмінність між категоріальними і числовими даними в деяких випадках стає не зовсім зрозумілим. Наприклад, змінну з безліччю встановлених категорій (наприклад біль може мати 7 категорій) важко відрізнити від дискретної числової змінної. Різниця між дискретними і безперервними числовими даними може бути ще менш зрозумілою.

Похідні (вторинні) дані

У медицині ми можемо зіткнутися з безліччю інших типів даних. Вони включають в себе:

- відсотки. Вони можуть з'явитися при оцінці стану хворого під час лікування, наприклад обсяг форсованого видиху за 1 с може збільшитися на 24% після лікування новим препаратом. Відсотки відображають ступінь поліпшення, а не абсолютні дані; - пропорції, або відносини. Можливі два варіанти пропорцій, або відношень. Наприклад, при визначенні індексу маси тіла (індекс Кеглі) масу тіла (кг) ділять на його квадрат його росту (м2). Таким чином становлять судження чи перевищує його/її маса тіла норму чи, навпаки, вона є недостатньою;

- інтенсивність. Це відносна частота захворювань, яка отримується від ділення числа захворювань на тривалість аналізованого періоду. Ці дані використовуються при епідеміологічному дослідженні;

- мітки, оцінки. Це довільні дані, що застосовуються тоді, коли ми не можемо виміряти кількість. Наприклад, відповіді на питання щодо якості життя можна узагальнити, щоб отримати оцінку якості життя кожного індивідуума. Усі ці змінні можна розглядати як безперервні в більшості досліджень.

Цензуровані дані

Визначити цензуровані дані допоможуть наступні приклади.

• Якщо ми проводимо лабораторні вимірювання, використовуючи прилад який може виявити значення тільки вище певного рівня, будь-яка величина нижче цього рівня не. буде виявлена. Наприклад, при вимірюванні рівнів вірусу кількість нижче межі вимірювання дає привід для твердження "вірус не виявлено", хоча в зразку всі ж може перебувати якийсь вірус.

• цензуровані дані отримуємо тоді, коли деякі хворі вибувають з дослідження до того, як це дослідження буде закінчене.

Статистичні методи дослідження являються потужним інструментом обробки великих масивів інформації з метою виявлення закономірностей, що лежать в основі досліджуваних явищ і перевірки обґрунтованості пропозицій, що висуваються. Кінцева мета всякого дослідження або наукового аналізу полягає в знаходження зв'язків (залежностей) між змінними. При дослідженнях подіям, процесам або вимірюваним величинам ми присвоюємо певні числа (змінні). Змінні - це те, що можна вимірювати, контролювати або що можна міняти в дослідженнях. Одним із факторів, що визначає кількість інформації, що міститься в змінній, являється тип шкали, в якій проведено вимірювання. Розрізняють наступні чотири типи шкал вимірювань:

1) 1-номінальна;

2) 2- порядкова;

3) 3- інтервальна;

4) 4-відносна (шкала відношення).

Відповідно, маємо чотири типизмінних: номінальна, порядкова, інтервальна і відносна.

Номінальні змінні використовуються тільки для якісної класифікації. Це означає, що дані змінні можуть бути виміряні тільки в термінах належності до деяких, істотно різних класів, при цьому ми не зможемо визначити їх кількість. Наприклад, стать, група крові, національність. Часто номінальні змінні називають категоріальними.

Порядкові змінні дозволяють ранжирувати (упорядковувати) об'єкти, вказавши які з них більшою чи меншою мірою володіють якістю, вираженою даною змінною. Проте вони не дозволяють сказати "на скільки більше" або "на скільки менше". Типовий приклад порядкової змінної – стадії хвороби. Відповідні спостереження можуть бути представлені впорядкованими категоріями "добре", "середнє", "погано".

Інтервальні змінні дозволяють не тільки упорядковувати об'єкти вимірювання, але і чисельно виразити і порівняти відмінності між ними. Наприклад, температура, виміряна в градусах Фаренгейта або Цельсія, утворює інтервальну шкалу. Ви можете не тільки сказати, що температура 40 градусів вища, ніж температура 30 градусів, але і що збільшення температури з 20 до 40 градусів удвічі більше збільшення температури від 30 до 40 градусів.

Відносні змінні дуже схожі на інтервальні змінні. Тут, на додаток до всіх властивостей змінних, виміряних в інтервальній шкалі можливе з’ясування питання "у скільки разів". Типовими прикладами шкал відносних змін є вимірювання часу або простору. Наприклад, температура по Кельвіну утворює шкалу відношення, і ви можете не тільки стверджувати, що температура 200 градусів вища, ніж 100 градусів, але що вона і удвічі вища. Можливі математичні операції в різних шкалах вимірювання приведені в таблиці 1.

Таблиця 5.1. Математичні операції в різних шкалах

Назва шкали Можливі операції
Класифікації
Порядку
Інтервальна
Відношення

В залежності від виду шкал вимірювання змінних для дослідження зв’язків між ними використовують різні статистичні методи: регресійний і кореляційний аналіз, аналіз расових рядів, дисперсійний і коваріаційний аналіз, тощо.

Відзначимо дві найпростіші властивості залежностей між змінними: величина залежності і надійність залежності.

Величину залежності легше зрозуміти і виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення WCC (рівень лейкоцитів у крові) вищий, ніж будь-яка жінка, то ми можемо сказати, що залежність між двома змінними (стать і WCC) дуже висока. Іншими словами, можливо передбачити значення однієї змінної по значенню іншої. Надійність ("істинність") залежності означає ймовірність, що залежність, подібна знайденій нами, буде знову виявлена (іншими словами, підтвердиться) на даних іншої вибірки, взятої з тієї ж самої генеральної сукупності. Слід пам'ятати, що вивчення даної конкретної вибірки не є кінцевою метою дослідження; вибірка представляє інтерес лише постільки, оскільки вона дає інформацію про всю генеральну сукупність. Якщо наше дослідження задовольняє деяким спеціальним критеріям (про це буде сказано пізніше), то надійність знайдених залежностей між змінними нашої вибірки можна кількісно оцінити і представити за допомогою стандартної статистичної міри (так званий p-рівень або статистичний рівень значущості). Статистична значущість результату представляє собою міру впевненості в його "істинності".

Як визначити, чи є результат дійсно значущим? Не існує ніякого способу уникнути свавілля при ухваленні рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значущості, вище за який результати відкидаються як помилкові, є достатньо довільним. На практиці остаточне рішення залежить від того, чи був результат передбачений апріорі (тобто до проведення досліду) або виявлений апостапріорно в результаті багатьох аналізів і порівнянь, виконаних з безліччю даних, а також на традиції, наявній в даній області досліджень. Зазвичай в багатьох областях результат p <0,05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає досить велику ймовірність помилки (5%). Результати, на рівні p<0,05 зазвичай розглядаються як статистично значущі, а результати з рівнем p<0,005 або p<0,001 як високо значущі. Проте слід розуміти, що дана класифікація рівнів значущості достатньо довільна і є всього лише неформальною угодою, прийнятою на основі практичного досвіду в тій або іншій області дослідження.

2. Основні статистичні терміни, що використовуються при медико-біологічних дослідженнях

Досягнення сучасної медицини неможливі без аналізу великої кількості фактичного матеріалу – даних клінічного. лабораторного. рентгенологічного. радіологічного та інших методів дослідження.

Методи статистичного аналізу є універсальними і можуть застосовуватися в самих різних областях людської діяльності, зокрема, в медицині. Приведемо статистичні терміни і показники що використовуються для представлення результатів медико-біологічних досліджень.

Вибірка - група елементів, вибрана для дослідження зі всієї сукупності елементів. Завдання вибіркового методу полягає в тому, щоб зробити правильні висновки щодо всіх об'єктів, їх сукупностей. Наприклад, лікар робить висновок про склад крові пацієнта на основі аналізу її декількох крапель.

Вибіркове середнє ()- центр вибірки, навколо якого групуються елементи вибірки.

.

Медіана - елемент вибірки, при якому число елементів вибірки із значенням більшим і меншим від нього одинакові.

Мода - елемент вибірки значення якого зустрічається найбільш часто.

Розмах -це різниця між максимальним і мінімальним значенням змінної в наборі даних

Дисперсія ( D ) - параметр, що характеризує ступінь розкиду елементів вибірки щодо середнього значення. Чим більша дисперсія, тим далі відхиляються значення елементів вибірки від середнього значення. Дисперсія визначається за формулою:

.

Нормальний розподіл - сукупність об'єктів, в якій крайні значення деякої ознаки - найменше і найбільше - з'являються рідко; чим ближче значення ознаки до середнього арифметичного, тим частіше воно зустрічається. Наприклад, розподіл пацієнтів по їх чутливості до дії будь-якого фармакологічного агента часто наближається до нормального розподілу.

Стандартне відхилення (або середнє квадратичне відхилення ) – параметр, аналогічний дисперсії, але він має ту ж розмірність, що і середнє значення, а тому і зручніший для використання:

.

Помилка вибіркового середнього або стандартна помилка () - параметр, що характеризує ступінь можливого відхилення середнього значення, отриманого на досліджуваній обмеженій вибірці, від дійсного середнього значення, отриманого на всій сукупності елементів.

Довірчий інтервал визначає межі, в яких з певною ймовірністю знаходяться істинні значення досліджуваної величини. Для середнього значення генеральної сукупності () довірчий інтервал визначається по формулі:

,

де - нормований показник, що залежить від довірчої ймовірності (р), числа ступіней вільності (), і визначається за допомогою критерію Ст’юдента, або -критерію.

Випадкова подія - подія, яка може відбутися або не відбутися без видимої закономірності.

Випадкова величина - величина, що приймає різні значення без видимої закономірності, тобто випадковим чином.

Рівень значущості - максимальне значення ймовірності появи події, при якій подія вважається практично неможливою. У медицині найбільшого поширення набув рівень значущості, рівний 0,05. Тому якщо ймовірність, з якою подія, що нас цікавить, може відбутися випадковим чином р < 0,05, то прийнято вважати цю подію малоймовірною, і якщо вона все ж таки відбулася, то не випадково.

Змінна - будь-яка варійована величина.

Незалежна змінна (фактор) змінна, варіювання якої відбувається незалежно від інших величин.

Залежна змінна (відгук) величина, що змінюється при зміні однієї або більшого числа незалежних змінних.

Асиметрія - величина, що характеризує несиметричність розподілу елементів вибірки щодо середнього значення. Приймає значення від - 1 до 1. У разі симетричного розподілу рівна 0. Коефіцієнт асиметрії, або третій центральний момент розподілу, є кількісною характеристикою ступеня скошеності розподілу. Вибірковий коефіцієнт асиметрії визначається по формулі:

Як випливає із даної формули, коефіцієнт асиметрії є безрозмірною величиною і рівний нулю у симетричних розподілах. Якщо розподіл має довгу частину, розташовану праворуч від вершини, то асиметрію називають позитивною, а розподіл з довгою частиною кривої густини, розташованої зліва від вершини, називають негативною асиметрією.

Ексцес - ступінь вираженості "хвостів" розподілу, тобто частоти появи віддалених від середнього значень. Коефіцієнт ексцесу, або четвертий центральний момент, кількісно характеризує гостровершинність розподілу. Вибірковий коефіцієнт ексцесу обчислюється за формулою:

Практичні завдання

Завдання №1. Обчислення основних статистичних характеристик за допомогою табличного процесора Excel

2.1. Розглянути результати досліджень, що приведені в таблиці 1 та занести їх в електронну таблицю.

2.2. Обчислити основні статистичні параметри результатів досліджень, приведених в таблиці 5.2 Для виконання цього завдання необхідно:

2.2.1. Команда Сервис→ Анализ даных→ Инструменты анализа→ Описательная статистика.

2.2.3. У діалоговому вікні, що з'явилося, вказати вхідний та вихідний діапазон, тобто ввести посилання на комірки, що містять аналізовані дані.

2.2.4. Проаналізувати результати і зробити висновки про вміст натрію в плазмі крові і добової екскреції альдостерона з сечею у хворих з ессенціальною гіпертензією I-III стадії і у осіб контрольної групи в порівняльному аспекті.

2.2.5. Порівняти розрахункові коефіцієнти асиметрії та ексцесу з табличними і зробити висновок про характер розподілу вивчаємих змінних. Критичні значення коефіцієнтів асиметрії та ексцеса наведені в таблиці №5.3 та №5.4.

Таблиця 5.2. Вміст натрію в плазмі крові (ммоль/л) і величини добової екскреції альдостерону з сечею (мкг/доб) у хворих з ессенціальною гіпертензією I-III стадій (1-а група) і у осіб контрольної групи (2-а група)

Досліджувана группа Контрольна группа
Натрій плазми, ммоль/л Екскреція альдостерона, мкг/добу Натрій плазми, ммоль/л Екскреція альдостерона, мкг/добу
146,5 27,2 137,0 11,2
150,0 25,1 136,0 12,1
155,0 24,4 132,0 11,8
140,0 29,3 140,0 10,3
160,0 28,7 132,0 13,4
158,0 28,9 131,0 9,0
161,0 31,3 133,0 10,7
142,0 32,0 129,0 11,1
143,0 31,0 134,0 11,3
156,0 34,0 131,0 11,8
144,0 32,0 138,0 11,9
152,0 34,0 139,0 11,4
153,0 33,7 140,0 10,0
169,0 34,0 129,0 12,3
164,0 34,0 127,0 11,9
147,0 33,0 133,0 10,7
155,0 34,0 129,0 9,0
163,0 35,0 131,0 11,0
159,0 36,0 128,0 11,3
152,0 33,9 126,0 10,0
151,5 33,2 128,0 11,5
158,0 32,2 133,0 11,2
150,7 31,3 132,0 10,8
149,2 34,0 131,0 14,0
151,3 26,0 127,0 11,8

Таблиця 5.3

Критичні значення коефіцієнта асиметрії (), що використовується для перевірки гіпотези про нормальність розподілу

Об’єм вибірки Рівні значущості, % Об’єм вибірки Рівні значущості, %
           
  0,711 1,061   0,251 0,360
  0,661 0,982   0,230 0,329
  0,621 0,921   0,213 0,305
  0,587 0,869   0,200 0,285
  0,558 0,825   0,188 0,269
  0,533 0,787   0,179 0,255
  0,492 0,723   0,171 0,243
  0,459 0,673   0,163 0,233
  0,432 0,631   0,157 0,224
  0,409 0,596   0,151 0,215
  0,389 0,567   0,146 0,208
  0,350 0,508   0,142 0,202
  0,321 0,464   0,138 0,196
  0,298 0,430   0,134 0,190
  0,280 0,403   0,130 0,185
Р 0,05 0,01 0,05 0,01

Додаток № 2

Таблиця 5.4 Критичні значення коефіцієнта ексцеса (Ех), що використовується для перевірки гіпотези про нормальність розподілу





Дата публикования: 2014-11-03; Прочитано: 10030 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.013 с)...