Анализ данных и компьютерные методы в биологических исследованиях

Разработанная программа дисциплины «Анализ данных и компьютерные методы в биологических исследованиях» предназначена для подготовки специалистов-биологов. Спецкурс ориентирован на студентов 4 курса бакалавриата, которые непосредственно заинтересованы в статистической обработке данных  к предстоящей защите выпускной квалификационной работы. Цель курса – научить структурировать собираемые данные и выбирать адекватный метод обработки для решения своих задач, систематизировать представление о разнообразии методов статистического анализа данных. Спецкурс призван научить студентов разбираться в многообразии приёмов статистического анализа, выбирать адекватный метод обработки для выполнения конкретной задачи, корректно представлять результаты, грамотно делать выводы из полученных результатов. В ходе занятий студенты овладевают навыками работы в компьютерных программах Statistica, Microsoft Excel, Oriana, Curve Expert, а также в программной среде R. Практическая часть курса специально адаптирована под задачи применения статистических методов анализа в рамках основной тематики кафедры – изучение морфологических, поведенческих и экологических аспектов зоологии позвоночных. Основным отличием курса от других подобных дисциплин является именно его практическая направленность на непосредственное применение полученных навыков в научной работе.

 

Программа дисциплины

Тема 1. Вводная часть. Роль математики в биологии, два взгляда на проблему. Трудности применения классической статистики к биологическим данным. Статистика как общепринятые правила для унификации и сравнения результатов. Относительность суждений, логика описания результатов по типу «опыт-контроль». Статистика и планирование сбора материала. Статистика и биологический смысл, валидность исследования. Современный уровень образования биологов в области статистического анализа данных.

 

Тема 2. Выбор метода анализа. Основной принцип работы статистических критериев: критерий и модель, ошибка, мощность критерия. Статистическая значимость и понятие «статистически значимый». Одно- и двусторонние гипотезы. Вопросы, которые необходимо поставить перед тем, как выбрать метод. Единицы измерения и типы числовых данных: непрерывная шкала, частоты, ранги. Зависимые и независимые переменные. Взаимоисключаемость событий. Размер выборки. Описательная статистика и первичный анализ данных. Отображение материала на графиках, основные типы графиков (диаграммы рассеяния, гистограммы, «коробочки с усами», круговые диаграммы) и области их применения. Этапы выбора статистического критерия для анализа данных. Выбор между параметрическими и непараметрическими критериями. Проверка выборки на нормальность распределения: критерий Колмогорова-Смирнова, критерий Шапиро-Вилка. Трансформация данных. Проверка равенства дисперсий: F-критерий Фишера. Выбор группы критериев на основании решаемой задачи. Обзор основных групп критериев. Статистические ограничения конкретных критериев внутри выбранной группы.

 

Тема 3. Сравнение частот и долей. Частотные критерии. Частоты как тип данных. Сравнение частот двух взаимоисключающих событий: биномиальный критерий. Сравнение долей проявления признака в двух выборках: критерий двух пропорций. Сравнение частот на интервальной шкале: критерий хи-квадрат (сравнение практических частот с теоретическими, сравнение двух рядов практических частот, объединение интервалов внутри ряда). Методы анализа четырехпольных таблиц: принципы построения таблицы, критерий хи-квадрат, точный метод Фишера, критерий МакНемара, поправка Иэйтса.

 

Тема 4. Критерии парного сравнения выборок:

— Параметрические критерии парного сравнения по средним значениям. Сравнение независимых выборок: t-критерий для независимых выборок. Сравнение зависимых (связанных) выборок: t-критерий для зависимых выборок. Принцип построения таблиц исходных данных для зависимых и независимых переменных в программе Statistica.

—  Параметрические критерии парного сравнения по разбросу данных. Сравнение дисперсий двух выборок: F-критерий Фишера.

Непараметрические критерии парного сравнения по средним тенденциям. Принцип ранжирования и мощность непараметрических критериев. Сравнение независимых выборок: критерий Манна-Уитни. Сравнение зависимых (попарно связанных) выборок: критерий знаков, критерий Вилкоксона для сопряженных пар.

— Непараметрические критерии парного сравнения по форме распределения. Сравнение независимых выборок: критерий Колмогорова-Смирнова, критерий серий Вальда-Вольфовица.

 

Тема 5. Оценка взаимосвязи. Прямолинейная корреляция. Различия между взаимосвязью (корреляцией) и зависимостью (регрессией). Оценка  взаимосвязи двух выборок: коэффициент корреляции. Значение коэффициента корреляции и его достоверность. Параметрический коэффициент корреляции Пирсона. Непараметрический коэффициент корреляции Спирмена, коэффициент корреляции тау Кендалла, коэффициент корреляции гамма. Сравнение двух коэффициентов корреляции. Оценка взаимосвязи между тремя и более выборками: непараметрический коэффициент согласованности Кендалла, сравнение экспертных оценок. Оценка взаимосвязи между двумя бинарными признаками: коэффициент сопряженности Фи, оценка согласованности простых поведенческих последовательностей.

 

Тема 6. Множественное сравнение и оценка влияния факторов:

— Параметрический дисперсионный анализ ANOVA. Принцип работы и возможности применения метода: множественное сравнение, оценка влияния факторов. Однофакторный дисперсионный анализ. Апостериорное сравнение средних значений (критерий Тьюки). Поправка Бонферрони. Двухфакторный дисперсионный анализ. Многофакторный дисперсионный анализ. Введение ковариат. Задание способов взаимодействия факторов. Дисперсионный анализ планов с повторными измерениями.

— Непараметрический дисперсионный анализ. Сравнение независимых выборок: критерий Крускала-Уоллиса, критерий медианы. Сравнение зависимых выборок (повторных наблюдений): критерий Фридмана. Особенности построения таблиц исходных данных в программе Statistica.

Навыки работы в программной среде R. Дисперсионный анализ в среде R.

 

Тема 7. Выделение групп значимых факторов. Факторный анализ. Основные предпосылки к использованию метода. Интерпретация результатов анализа. Оценка долей дисперсии, определяемых факторами; влияние отдельных переменных на главные компоненты. Построение факторных диаграмм. Факторный анализ в среде R.

 

Тема 8. Оценка зависимости. Регрессионный анализ. Отбор значимых факторов методом дисперсионного анализа. Модель линейной зависимости от факторов и ограничения применения регрессионного метода. Анализ остатков, дистанция Кука. Информационный критерий Акаики. Линейная (для непрерывных значений) и логистическая (для бинарных признаков) регрессия. Регрессионный анализ в среде R. Оценка нелинейной регрессии в программе Curve Expert.

 

Тема 9. Оценка иерархии и классификация объектов. Кластерный анализ. Значение отбора переменных и структуры выборки на построение классификации. Неоднозначность результатов кластерного анализа. Меры сходства: коэффициент корреляции Пирсона, меры расстояния (евклидово расстояние, квадратичное евклидово расстояние, Манхетеннское расстояние), коэффициенты ассоциативности. Иерархические агломеративные методы группировки: метод одиночной связи, метод полных связей, метод средней связи, метод Уорда. Итеративные методы группировки: итерация по принципу k-средних. Дендрограммы и их интерпретация.

 

Тема 10. Общие проблемы анализа данных. Использование среднего значения и медианы. Округление данных. Регулярность и пропорциональность наблюдений. Размер выборки, соотношение внутри- и межиндивидуальной изменчивости. Использование процентных соотношений. Разрешающая способность метода: выбор методики наблюдений и соответствующего метода статистической обработки. Проблема множественности сравнений, поправка Бонферрони. Проблема псевдорепликации: некорректная работа с повторными наблюдениями и при объединении данных. Методы обработки повторных наблюдений. Общие принципы моделирования случайных процессов, метод Монте-Карло.

 

Тема 11. Круговая статистика. Особенности циклической шкалы данных. Операции с векторами. Варианты круговых диаграмм. Статистическая обработка угловых и временных данных в программе Oriana. Проверка выборки на равномерность распределения: критерий Рэйли, критерий Рао. Унимодальное распределение ван Мисес как аналог нормального распределения. Оценка отклонения среднего вектора от ожидаемого направления. Сравнение двух выборок: критерий Хи-квадрат для данных интервальной шкалы, параметрический F-критерий Уотсона-Уильямса для сравнения средних векторов, непараметрический серийный критерий Мардиа-Уотсона-Уиллера, непараметрический критерий U2 Уотсона для сравнения дисперсий.

 

Литература

Основная:

 

Книги:

Сидоренко Е.В., 2006. Методы математической обработки в психологии. СПб.: ООО «Речь». 350 с.

Реброва О.Ю., 2006. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica. М.:Медиасфера. 312 с.

Lehner P.N., 1996. Handbook of Ethological Methods. Cambridge University Press. 672p.

Zuur A. F., Ieno E.  N., Smith G. M., 2007. Analysing Ecological Data. Springer Science + Business Media, LLC. 648 p.

Zuur A.F., Ieno E.N., Meesters E.H.W.G., 2009. A Beginner’s Guide to R. Springer Science + Business Media, LLC. 218 p.

Огурцов С.В., 2015. Методическое пособие по обработке результатов и оформлению курсовых и дипломных работ, выпускных квалификационных работ бакалавров и магистерских диссертаций. М.:Биологический ф-т МГУ. 30 с. (доступно на сайте биологического факультета МГУ — http://www.bio.msu.ru/dict/view.php?ID=280 )

Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р.,  Олдендерфер М.С., Блэшфилд Р.К., 1989. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика. 215 с.

 

Статьи:

Fukuda H., Ohashi Y., 1997. A Guideline for Reporting Results of Statistical Analysis in Japanese Journal of Clinical Oncology // Japanese Journal of Clinical Oncology, V.27, №3, p.121–127

Ланг Т., 2005. Двадцать ошибок статистического анализа, которые Вы сами можете обнаружить в биомедицинских статьях // Международный журнал медицинской практики, 2005, №1, с. 21-31

Hurlbert S.H., 1984. Pseudoreplication and the design of ecological field experiments // Ecological Monographs, V.5, №2, p.187-211

Козлов М. В., 2003. Мнимые повторности (pseudoreplications) в экологических исследованиях: проблема, не замеченная российскими учеными // Журнал общей биологии, Т.64, № 4, с.292-307

Hargrove W.W., Pickering J., 1992. Pseudoreplication: a sine qua non for regional ecology // Landscape Ecology, V. 6, №4, p. 251-258

 

Дополнительная:

Книги:

Малета Ю.С., Тарасов В.В., 1982. Непараметрические методы статистического анализа в биологии и медицине. М.: Изд-во Московского университета. 178с.

Урбах В.Ю., 1964. Биометрические методы. М.: Наука. 415с.

 

Статьи:

Орлов А.И., 2000. Прикладная статистика XXI в. // Экономика XXI века, 2000, №9, с.3-27

Леонов В.П., Ижевский П.В., 1997. Об использовании прикладной статистики при подготовке диссертационных работ по медицинским и биологическим специальностям // Бюллетень ВАК, 1997, №5, с.56-61

Леонов В.П., Ижевский П.В., 1998. Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях // Международный Журнал Медицинской Практики, 1998, №4, с.7-12

Леонов В.П., 1999. Применение статистики в статьях и диссертациях по медицине и биологии. Часть II. История биометрии и её применения в России // Международный Журнал Медицинской Практики, 1999, №4, с.7-19

Леонов В.П., 2002. Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины // Международный Журнал Медицинской Практики, 2002, №3, с.6-10

 

Интернет-ресурсы

Сайт компании StatSoft, разработчика программы Statistica:

http://www.statsoft.ru/

Электронный журнал Биометрика:

http://www.biometrica.tomsk.ru/index.htm

Сайт программы Oriana (Kovach Computing Services):

http://www.kovcomp.co.uk/oriana/index.html

Сайт разработчиков программной среды R:

https://www.rproject.org/

 

Составители — кандидат биологических наук, доцент Сергей Викторович Огурцов, кандидат биологических наук, научный сотрудник Эльдар Нурланович Рахимбердиев