Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Биологическая статистика, или биометрия. Биометрия – раздел биологии, занимающийся планированием и обработкой результатов количественных экспериментов и наблюдений методами математической статистики. При проведении биологических исследований экспериментатор всегда имеет дело со статистическими вариациями частоты встречаемости или степени проявления различных признаков и свойств. Поэтому необходимо знать, каковы возможные пределы случайных колебаний изучаемой величины и являются ли наблюдаемые различия между вариантами опыта случайными или достоверными.
Математико-статистические методы, применяемые в биологии, разрабатываются иногда вне зависимости от биологических исследований, но чаще в связи с задачами, возникающими в биологии, сельском хозяйстве и медицине. Таковы работы Ф. Гальтона, внесшего большой вклад в создание корреляционного и регрессионного анализа, и К.Пирсона – основателя крупнейшей биометрической школы, проанализировавшего основные типы распределений, встречающиеся в биологии. Он также предложил один из самых распространенных статистических методов – критерий «хи-квадрат», и развил теорию корреляции. Методология современной биометрии создана главным образом Р.Фишером. Р.Фишер впервые показал, что планирование экспериментов и наблюдений и обработка их результатов – неразрывно связанные задачи статистического анализа. Он заложил основы теории планирования эксперимента, предложил ряд эффективных статистических методов (прежде всего, дисперсионный анализ).
При обработке результатов экспериментов и наблюдений возникают 3 основные статистические задачи:
· оценка параметров распределения – среднего, дисперсии и т.д.;
· сравнение параметров разных выборок;
· выявление статистических связей – корреляция.
Белорусские исследователи внесли достойный вклад в биометрию. Подтверждением тому является учебник П.Ф.Рокицкого [35], на котором воспитаны многие поколения биологов бывшего Советского Союза.
Сложные системы и оптимизация эксперимента. Со времен Ньютона и до начала XX века ученые привыкли работать лишь с так называемыми хорошо организованными системами. Они были названы так потому, что в них можно легко выделить и описать с помощью небольшого числа переменных все связи между отдельными частями системы. Однако сейчас большинство таких систем, характерных для механики, физики и, отчасти, химии, уже изучено. Все чаще исследователь имеет дело с большими, или, как часто говорят, плохо организованными системами. К системам такого типа относятся системы сложные, чье поведение характеризуется очень большим числом переменных – такие системы, в которых не всегда можно выделить явления и процессы одной физической природы. Все биологические системы – от клетки до биогеоценоза относятся как раз к этой категории. Для количественного описания сложных систем и управления ими обычно используются два подхода – статистический и кибернетический.
Наиболее часто статистический подход используется в научных исследованиях в уже упоминавшихся выше моделях данных, а также для оптимизации эксперимента, получения максимально достоверной информации из имеющихся данных. Возникла даже целая отрасль математической статистики – теория планирования эксперимента, часто использующая полиномиальные модели [36].
Фундаментальный шаг в развитии статистического направления в биологии сделал Р.Фишер, заложивший в 1920-е годы основы дисперсионного анализа и факторного планирования эксперимента [37]. Другой подход к планированию эксперимента демонстрируют науки химико-технологического профиля, где с конца 1940-х годов начала развиваться теория оптимального эксперимента, т.е. эксперимента, поставленного в целях нахождения оптимальных условий процесса [38]. В этом случае функция наилучшего приближения ищется в виде полинома
Y = a0 + S ai xi + S aijxixj + S aijkxixjxk, (3)
где знак S означает суммирование по одному, двум или трем индексам. Отметим, что в случае многофакторного эксперимента обычно ограничиваются полиномом третьей степени, т.е. учитывают взаимодействие максимум трех факторов.
Традиционным методом изучения хорошо организованных систем является однофакторный эксперимент. В этом случае считается, что можно с любой степенью точности стабилизировать все независимые переменные, характеризующие систему. Поэтому их можно менять поочередно и изучать влияние на систему каждой из них независимо от всех остальных. Принципиально иначе обстоит дело в случае плохо организованных систем. Для них единственно верной оказывается методология многофакторного эксперимента. При этом исследователь одновременно изменяет сразу большое число переменных, но делает это не наугад, а по строго определенным правилам. Эти правила позволяют ему выбрать наилучшую стратегию эксперимента и получить оптимальные результаты.
Развитие теории планирования эксперимента диктуется стремлением повысить эффективность экспериментальных работ, культуру эксперимента. Применение методов планирования эксперимента позволяет формализовать большинство действий исследователя, подчинив их оптимальной стратегии эксперимента. Придерживаясь такой стратегии, экспериментатор получает данные об изучаемом процессе с минимальным числом опытов и максимальной степенью достоверности. Справедливость, однако, требует отметить, что по поводу логических оснований теории планирования эксперимента и правомерности ее повсеместного применения для оценки достоверности экспериментальных результатов до сих пор ведутся дискуссии. В частности, такая точка зрения излагается в брошюре Ю.И.Алимова «Альтернатива методу математической статистики» [39].
Нужна ли адекватность полиномиальной модели? Завершая рассказ о статистических методах планирования эксперимента и использовании в них полиномиальных моделей, следует отметить еще одно важное обстоятельство. Полиномиальная модель не обязательно должна быть адекватной, т. е. точно соответствовать описываемой системе. Ведь назначение такой модели – оптимизация условий эксперимента. Сугубо практическая направленность теории планирования эксперимента позволяет обходиться достаточно грубыми моделями, отражающими только самые общие черты моделируемой системы. Стремление же к получению адекватной модели можно расценивать как излишнюю роскошь, не являющуюся непременным условием решения оптимизационной задачи. Иллюстрацией может служить специально сконструированный пример, взятый из нашей работы [40] (см. рис. 1.5).
Из рис. 1.5 видно, что уже при n =3 дальнейшее усложнение модели за счет повышения степени аппроксимационного полинома делается неэффективным. Расчет показывает, что количество вычислений увеличивается, а точность почти не растет: так, при n =3 среднеквадратичная ошибка аппроксимации равна 0,089, при n =4 – 0,010, при n =5 – 0,008. К тому же в узловых точках расхождение между экспериментальными и расчетными значениями наблюдается только во втором-третьем знаках после запятой, что много меньше точности самих экспериментальных данных. Для практических целей вполне достаточно было бы ограничиться n =3, когда уже видна главная особенность аппроксимирующей кривой.
Рис. 1.5. Моделирование неизвестной функции y (x) полиномами разных степеней:
1) y =3,147;
2) y =1,315+1,009 x;
3) y =–2,539+5,858 x –1,049 x 2;
4) y =0,007+0,130 x +2,234 x 2–0,511 x 3.
Среднее отклонение полинома в заданных точках равно:
1) 1,812; 2) 1,280; 3) 0,503; 4) 0,089
Линейное программирование. Теория планирования эксперимента – относительно молодая отрасль математической статистики, насчитывающая менее сотни лет. Еще более молодо линейное программирование – отрасль прикладной математики, позволяющая решать многие оптимизационные задачи медицины и биологии с так называемыми ограничениями.
В биомедицине задача линейного программирования часто формулируется как задача о диете или оптимальном рационе. Пусть имеется n видов продуктов, в которых содержится в разных количествах m видов питательных веществ. Обозначим через yi количество купленного продукта i -го вида (i = 1, …, n), bi – цену единицы i -го продукта, cj – необходимый минимум j -го питательного вещества (j = 1, …, m), через aij – количество питательного вещества в единице i -го продукта. Тогда получаем систему
S yi aij ³ cj, (j = 1, … m)
yi ³ 0, (i = 1, … n) (4)
S bi yi ® min.
Примерно так же описывается в общем виде задача об оптимизации лечения, которую мы подробно рассмотрим на примере из учебника Ю.И.Гильдермана [41].
Пусть имеются две возможности лечения рака – лучевая терапия и химиотерапия, и эффективность каждого из этих методов лечения можно оценить количественно в некоторых условных единицах (у.е.). Например, химиотерапевтический препарат обладает эффективностью в 1000 у.е. на единицу веса, а рентгеновское облучение – 1000 у.е. в минуту. При этом пациенту для выздоровления требуется получить не менее 3000 у.е. эффективности. Однако хорошо известно, что каждая медаль имеет свою оборотную сторону, – и лекарственные препараты, и ионизирующая радиация достаточно токсичны. Примем, что токсичность лекарства равна 400 у.е. на единицу веса, а токсичность облучения – 1000 у.е. в минуту. Таким образом, ни один из двух этих методов нельзя применять неограниченно – суммарная максимальная токсическая доза не должна превышать, допустим, 2000 у.е. Примем также, что введение больному одной весовой единицы лекарственного препарата причиняет ему в 3 раза больше неудобств, чем облучение в течение одной минуты.
Займемся формализацией модели. Если мы пациенту ввели x1 единиц лекарственного препарата (в принятых весовых единицах) и облучали его в течение x2 минут, то причинили ему общее неудобство, равное
z = 3x1 + x2. (5)
При этом должны выполняться условия
1000x1 + 1000x2 ³ 3000, (6)
400x1 + 1000x2 £ 2000. (7)
По вполне понятным причинам x1 ³ 0 и x2 ³ 0. Задача состоит в отыскании такого сочетания обоих методов, которое минимизировало бы неудобства, т.е. функцию z, и при этом удовлетворяло сформулированным выше ограничениям. Очевидно, что решение (искомая точка (X1, X2)) должно принадлежать заштрихованной области на рис. 1.6, а если быть точнее, то находиться в одной из вершин треугольника. Вычислим значения функции z в этих вершинах, т.е. в точках (3, 0), (5, 0) и (5/3, 4/3). Получим z = 9, z = 15 и z = 6,3. Последнее значение и есть искомый оптимальный результат.
Разумеется, приведенный пример намеренно упрощен. В реальной ситуации может быть не один, а несколько лекарственных препаратов, а также разные способы облучения. В соответствии с этим возрастет и число возможных ограничений. Кроме того, критерием оптимальности лечения может служить его эффективность, – тогда ищется не минимум функции z, а ее максимум. Однако всегда функция z (целевая, как ее называют) описывается линейным полиномом вида
z = a1x1 + a2x2 + … + anxn. (8)
Рис. 1.6. Решение задачи о совместном применении лекарства и облучения.
Линейны и все ограничивающие ее равенства или неравенства. В этом случае мы имеем дело с задачей линейного программирования. Существуют разные методы поиска решения, в том числе так называемый симплекс-метод, позволяющий перебирать вершины в определенном порядке, так чтобы все время двигаться в направлении оптимума (от хорошего к лучшему). Практически без помощи компьютера такую задачу решить сложно.
Особенности биометрической культуры. На рубеже 1980–1990-х годов в западной биомедицине сформировалось новое научное направление – клиническая эпидемиология. Основной методологический постулат клинической эпидемиологии – "evidence-based medicine", что буквально переводится как "медицина, основанная на фактах", либо "научно-доказательная медицина". В рамках этой концепции существенная роль отводится статистическим методам на этапах планирования исследований и анализа полученных данных [42]. При этом необходимо придерживаться ряда правил, которые действуют в большинстве ведущих медицинских и биологических журналов относительно применения математических методов и описания результатов с использованием статистических параметров. Этой проблеме посвящено много работ, том числе на цитировавшемся выше сайте Биометрика (Томск). Важно четко представлять характер распределения, которому подчиняются экспериментальные данные, и в случае его несовпадения с нормальным применять статистические методы, на нем не основанные. В частности, нельзя применять такие статистические показатели, как среднее и среднеквадратичное отклонение. Некорректно также для описания дисперсии применять стандартную ошибку среднего и т.д. Имеются свои правила для описания точности количественных данных и сравнения результатов парных наблюдений, а также для графической демонстрации статистических зависимостей. Типичные ошибки и советы по их устранению описаны в статье О.Ю.Ребровой [43], которую мы рекомендуем внимательно изучить.
Дата публикования: 2015-01-14; Прочитано: 2816 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!