Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Статистические методы обработки медико-биологических данных



Биологическая статистика, или биометрия. Биометрия – раздел биологии, занимающийся планированием и обработкой результатов количественных экспериментов и наблюдений методами математической статистики. При проведении биологических исследований экспериментатор всегда имеет дело со статистическими вариациями частоты встречаемости или степени проявления различных признаков и свойств. Поэтому необходимо знать, каковы возможные пределы случайных колебаний изучаемой величины и являются ли наблюдаемые различия между вариантами опыта случайными или достоверными.

Математико-статистические методы, применяемые в биологии, разрабатываются иногда вне зависимости от биологических исследований, но чаще в связи с задачами, возникающими в биологии, сельском хозяйстве и медицине. Таковы работы Ф. Гальтона, внесшего большой вклад в создание корреляционного и регрессионного анализа, и К.Пирсона основателя крупнейшей биометрической школы, проанализировавшего основные типы распределений, встречающиеся в биологии. Он также предложил один из самых распространенных статистических методов критерий «хи-квадрат», и развил теорию корреляции. Методология современной биометрии создана главным образом Р.Фишером. Р.Фишер впервые показал, что планирование экспериментов и наблюдений и обработка их результатов неразрывно связанные задачи статистического анализа. Он заложил основы теории планирования эксперимента, предложил ряд эффективных статистических методов (прежде всего, дисперсионный анализ).

При обработке результатов экспериментов и наблюдений возникают 3 основные статистические задачи:

· оценка параметров распределения – среднего, дисперсии и т.д.;

· сравнение параметров разных выборок;

· выявление статистических связей – корреляция.

Белорусские исследователи внесли достойный вклад в биометрию. Подтверждением тому является учебник П.Ф.Рокицкого [35], на котором воспитаны многие поколения биологов бывшего Советского Союза.

Сложные системы и оптимизация эксперимента. Со времен Ньютона и до начала XX века ученые привыкли работать лишь с так называемыми хорошо организованными систе­мами. Они были названы так потому, что в них можно легко выделить и описать с помощью неболь­шого числа переменных все связи между отдельны­ми частями системы. Однако сейчас большинство таких систем, характерных для механики, физики и, отчасти, химии, уже изучено. Все чаще исследователь имеет дело с боль­шими, или, как часто говорят, плохо организо­ванными системами. К системам такого типа отно­сятся системы сложные, чье поведение характери­зуется очень большим числом переменных – такие системы, в которых не всегда можно выделить яв­ления и процессы одной физической природы. Все биологические системы – от клетки до биогеоценоза относятся как раз к этой категории. Для количественного описания сложных систем и управления ими обычно используются два подхода – статистический и кибернетический.

Наиболее часто статистический подход используется в научных исследованиях в уже упоминавшихся выше моделях данных, а также для оптимизации эксперимента, получения максимально достоверной информации из имеющихся данных. Возникла даже целая отрасль математической статистики – теория планирования эксперимента, часто использующая полиномиальные модели [36].

Фундаментальный шаг в развитии статистического направления в биологии сделал Р.Фишер, заложивший в 1920-е годы основы дисперсионного анализа и факторного планирования эксперимента [37]. Другой подход к планированию эксперимента демонстрируют науки химико-технологического профиля, где с конца 1940-х годов начала развиваться теория оптимального эксперимента, т.е. эксперимента, поставленного в целях нахождения оптимальных условий процесса [38]. В этом случае функция наилучшего приближения ищется в виде полинома

Y = a0 + S ai xi + S aijxixj + S aijkxixjxk, (3)

где знак S означает суммирование по одному, двум или трем индексам. Отметим, что в случае многофакторного эксперимента обычно ограничиваются полиномом третьей степени, т.е. учитывают взаимодействие максимум трех факторов.

Традиционным методом изучения хорошо орга­низованных систем является однофакторный экспе­римент. В этом случае считается, что можно с лю­бой степенью точности стабилизировать все незави­симые переменные, характеризующие систему. По­этому их можно менять поочередно и изучать влияние на систему каждой из них независимо от всех остальных. Принципиально иначе обстоит дело в случае плохо организованных систем. Для них единствен­но верной оказывается методология многофактор­ного эксперимента. При этом исследователь одно­временно изменяет сразу большое число перемен­ных, но делает это не наугад, а по строго опреде­ленным правилам. Эти правила позволяют ему выбрать наилучшую стратегию эксперимента и по­лучить оптимальные результаты.

Развитие теории планирования эксперимента диктуется стремлением повысить эффективность экспериментальных работ, культуру эксперимента. Применение методов планирования экспери­мента позволяет формализовать большинство дей­ствий исследователя, подчинив их оптимальной стратегии эксперимента. Придерживаясь такой стратегии, экспериментатор получает данные об изучаемом процессе с минимальным числом опытов и максимальной степенью достоверности. Справедливость, однако, требует отметить, что по поводу логи­ческих оснований теории планирования эксперимента и право­мерности ее повсеместного применения для оценки достоверности экспери­ментальных результатов до сих пор ведутся дискуссии. В част­ности, такая точка зрения излагается в брошюре Ю.И.Алимова «Альтернатива методу математической статистики» [39].

Нужна ли адекватность полиномиальной модели? Завершая рассказ о статистических методах планирования эксперимента и использовании в них полиномиальных моделей, следует отметить еще одно важное об­стоятельство. Полиномиальная модель не обяза­тельно должна быть адекватной, т. е. точно соответ­ствовать описываемой системе. Ведь назначение та­кой модели – оптимизация условий эксперимента. Сугубо практическая направленность теории планирования эксперимента позволяет обходиться достаточно грубыми моделя­ми, отражающими только самые общие черты мо­делируемой системы. Стремление же к получению адекватной модели можно расценивать как излишнюю роскошь, не являющуюся непременным условием решения оптимизационной задачи. Иллюстрацией может служить специально сконструированный пример, взятый из нашей работы [40] (см. рис. 1.5).

Из рис. 1.5 видно, что уже при n =3 дальнейшее усложнение модели за счет повышения степени аппроксимационного полинома делается неэффективным. Расчет показывает, что количество вычислений увеличивается, а точность почти не растет: так, при n =3 среднеквадратичная ошибка аппроксимации равна 0,089, при n =4 – 0,010, при n =5 – 0,008. К тому же в узловых точках расхождение между экспериментальными и расчетными значениями наблюдается только во втором-третьем знаках после запятой, что много меньше точности самих экспериментальных данных. Для практических целей вполне достаточно было бы ограничиться n =3, когда уже видна главная особенность аппроксимирующей кривой.

Рис. 1.5. Моделирование неизвестной функции y (x) полиномами разных степеней:

1) y =3,147;

2) y =1,315+1,009 x;

3) y =–2,539+5,858 x –1,049 x 2;

4) y =0,007+0,130 x +2,234 x 2–0,511 x 3.

Среднее отклонение полинома в заданных точках равно:

1) 1,812; 2) 1,280; 3) 0,503; 4) 0,089

Линейное программирование. Теория планирования эксперимента – относительно молодая отрасль математической статисти­ки, насчитывающая менее сотни лет. Еще более молодо линейное программирование – отрасль прикладной математики, позволяющая решать многие оптимизационные задачи медицины и биологии с так называемыми ограничениями.

В биомедицине задача линейного программирования часто формулируется как задача о диете или оптимальном рационе. Пусть имеется n видов продуктов, в которых содержится в разных количествах m видов питательных веществ. Обозначим через yi количество купленного продукта i -го вида (i = 1, …, n), bi – цену единицы i -го продукта, cj – необходимый минимум j -го питательного вещества (j = 1, …, m), через aij – количество питательного вещества в единице i -го продукта. Тогда получаем систему

S yi aij ³ cj, (j = 1, … m)

yi ³ 0, (i = 1, … n) (4)

S bi yi ® min.

Примерно так же описывается в общем виде задача об оптимизации лечения, которую мы подробно рассмотрим на примере из учебника Ю.И.Гильдермана [41].

Пусть имеются две возможности лечения рака – лучевая терапия и химиотерапия, и эффективность каждого из этих методов лечения можно оценить количественно в некоторых условных единицах (у.е.). Например, химиотерапевтический препарат обладает эффективностью в 1000 у.е. на единицу веса, а рентгеновское облучение – 1000 у.е. в минуту. При этом пациенту для выздоровления требуется получить не менее 3000 у.е. эффективности. Однако хорошо известно, что каждая медаль имеет свою оборотную сторону, – и лекарственные препараты, и ионизирующая радиация достаточно токсичны. Примем, что токсичность лекарства равна 400 у.е. на единицу веса, а токсичность облучения – 1000 у.е. в минуту. Таким образом, ни один из двух этих методов нельзя применять неограниченно – суммарная максимальная токсическая доза не должна превышать, допустим, 2000 у.е. Примем также, что введение больному одной весовой единицы лекарственного препарата причиняет ему в 3 раза больше неудобств, чем облучение в течение одной минуты.

Займемся формализацией модели. Если мы пациенту ввели x1 единиц лекарственного препарата (в принятых весовых единицах) и облучали его в течение x2 минут, то причинили ему общее неудобство, равное

z = 3x1 + x2. (5)

При этом должны выполняться условия

1000x1 + 1000x2 ³ 3000, (6)

400x1 + 1000x2 £ 2000. (7)

По вполне понятным причинам x1 ³ 0 и x2 ³ 0. Задача состоит в отыскании такого сочетания обоих методов, которое минимизировало бы неудобства, т.е. функцию z, и при этом удовлетворяло сформулированным выше ограничениям. Очевидно, что решение (искомая точка (X1, X2)) должно принадлежать заштрихованной области на рис. 1.6, а если быть точнее, то находиться в одной из вершин треугольника. Вычислим значения функции z в этих вершинах, т.е. в точках (3, 0), (5, 0) и (5/3, 4/3). Получим z = 9, z = 15 и z = 6,3. Последнее значение и есть искомый оптимальный результат.

Разумеется, приведенный пример намеренно упрощен. В реальной ситуации может быть не один, а несколько лекарственных препаратов, а также разные способы облучения. В соответствии с этим возрастет и число возможных ограничений. Кроме того, критерием оптимальности лечения может служить его эффективность, – тогда ищется не минимум функции z, а ее максимум. Однако всегда функция z (целевая, как ее называют) описывается линейным полиномом вида

z = a1x1 + a2x2 + … + anxn. (8)

 
 

Рис. 1.6. Решение задачи о совместном применении лекарства и облучения.

Линейны и все ограничивающие ее равенства или неравенства. В этом случае мы имеем дело с задачей линейного программирования. Существуют разные методы поиска решения, в том числе так называемый симплекс-метод, позволяющий перебирать вершины в определенном порядке, так чтобы все время двигаться в направлении оптимума (от хорошего к лучшему). Практически без помощи компьютера такую задачу решить сложно.

Особенности биометрической культуры. На рубеже 1980–1990-х годов в западной биомедицине сформировалось новое научное направление – клиническая эпидемиология. Основной методологический постулат клинической эпидемиологии – "evidence-based medicine", что буквально переводится как "медицина, основанная на фактах", либо "научно-доказательная медицина". В рамках этой концепции существенная роль отводится статистическим методам на этапах планирования исследований и анализа полученных данных [42]. При этом необходимо придерживаться ряда правил, которые действуют в большинстве ведущих медицинских и биологических журналов относительно применения математических методов и описания результатов с использованием статистических параметров. Этой проблеме посвящено много работ, том числе на цитировавшемся выше сайте Биометрика (Томск). Важно четко представлять характер распределения, которому подчиняются экспериментальные данные, и в случае его несовпадения с нормальным применять статистические методы, на нем не основанные. В частности, нельзя применять такие статистические показатели, как среднее и среднеквадратичное отклонение. Некорректно также для описания дисперсии применять стандартную ошибку среднего и т.д. Имеются свои правила для описания точности количественных данных и сравнения результатов парных наблюдений, а также для графической демонстрации статистических зависимостей. Типичные ошибки и советы по их устранению описаны в статье О.Ю.Ребровой [43], которую мы рекомендуем внимательно изучить.





Дата публикования: 2015-01-14; Прочитано: 2816 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...