ДЕНЬ ОТКРЫТЫХ ДВЕРЕЙ

КАФЕДРА ЗООЛОГИИ ПОЗВОНОЧНЫХ

Анализ данных в биологических исследованиях

АНАЛИЗ ДАННЫХ И КОМПЬЮТЕРНЫЕ МЕТОДЫ В БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

Спецкурс ориентирован на студентов 4 курса, непосредственно заинтересованных в обработке данных к предстоящей защите курсовой работы.

Цель курса – научить студентов структурировать собираемые данные и выбирать адекватный метод обработки для решения своих задач, систематизировать представление студентов о разнообразии методов статистического анализа данных. Объём - 4 академических часа в неделю. Форма отчётности – зачёт.

Спецкурс включает в себя два крупных раздела. Первый раздел призван научить студентов упорядочивать собираемые данные, структурировать представление о собственном материале, формировать выборку, проводить первичную обработку материала и готовить его для дальнейшей статистической обработки. Эта часть спецкурса связана с овладением навыками работы с базами данных на примере СУБД Microsoft Access. Второй раздел призван научить студентов разбираться в многообразии приёмов статистического анализа, выбирать адекватный метод обработки для выполнения конкретной задачи, корректно представлять результаты, грамотно делать выводы из полученных результатов. Эта часть спецкурса охватывает работу с такими программами, как Statistica, Microsoft Excel, Oriana, Curve Expert, ArcView (модуль Animal Movement), MapInfo.

 

Основные темы:

Вводная часть. Роль математики в биологии, два взгляда на проблему. Трудности применения классической статистики к биологическим данным. Статистика как общепринятые правила для унификации и сравнения результатов. Относительность суждений, логика описания результатов по типу «опыт-контроль». Статистика и планирование сбора материала. Статистика и биологический смысл, валидность исследования. Современный уровень образования биологов в области статистического анализа данных.

Формирование выборки и первичная обработка данных. Работа с базами данных. Этапы проведения исследования: планирование работы, сбор данных, формирование выборки и первичная обработка (группировка, выделение первостепенных данных), статистический анализ, интерпретация результатов. Логика работы с базами данных. Отличия СУБД (Систем Управления Базами Данных) на примере Microsoft Access от электронных таблиц Microsoft Excel. Основные компоненты базы данных (таблица, запрос, форма, отчет), их структура и назначение. Создание таблиц. Работа с записями. Контроль введенных данных. Изменение внешнего вида таблицы.

Работа с базами данных. Создание простых запросов. Сортировка данных в таблице, использование функции поиска. Фильтрация данных. Создание запроса на основе фильтра. Запросы на выборку: отбор записей (данных) по условию и сортировка по нескольким полям таблицы, защита от введения новых записей в запрос, блокировка изменения уже существующих записей. Создание сложных условий отбора данных, использование основных операторов и функций.

Работа с базами данных. Создание сложных запросов. Использование языка SQL для создания запросов. Использование запросов на создание таблицы, запросов на удаление, обновление, добавление записей (данных). Схема данных, определение связей между таблицами. Использование группировки в запросах, групповые операции. Создание многотабличных запросов. Типы соединения таблиц в запросах. Перекрестные запросы. Работа с SQL при создании сложных запросов. Запросы на объединение данных.

Работа с базами данных. Создание связей баз данных c программами Statistica и MapInfo. Общая логика связывания баз данных с другими компьютерными программами. Использование интерфейса ODBC для определения доступа программ к базе данных. Настройка подключений. Работа с запросами СУБД в программе статистического анализа Statistica. Настройка подключения СУБД к ГИС (Геоинформационной Системе) MapInfo. Создание карт на основе СУБД Microsoft Access.

Работа с базами данных. Создание форм для ввода данных. Назначение элемента «формы». Создание простых форм для ввода данных с помощью «мастера форм» в ACCESS. Настройка формы. Форматирование полей формы, условное форматирование. Создание полей со списком. Внедрение элементов управления в форму. Создание многотабличных форм. Общие сведения о создании отчетов.

Выбор метода анализа. Основной принцип работы статистических критериев: критерий и модель, ошибка, мощность критерия. Статистическая значимость и понятие «статистически значимый». Одно- и двусторонние гипотезы. Вопросы, которые необходимо поставить перед тем, как выбрать метод. Единицы измерения и типы числовых данных: непрерывная шкала, частоты, ранги. Зависимые и независимые переменные. Взаимоисключаемость событий. Размер выборки. Описательная статистика и первичный анализ данных. Отображение материала на графиках, основные типы графиков (диаграммы рассеяния, гистограммы, «коробочки с усами», круговые диаграммы) и области их применения. Этапы выбора статистического критерия для анализа данных. Выбор между параметрическими и непараметрическими критериями. Проверка выборки на нормальность распределения: критерий Колмогорова-Смирнова, критерий Шапиро-Вилка. Трансформация данных. Проверка равенства дисперсий: F-критерий Фишера. Выбор группы критериев на основании решаемой задачи. Обзор основных групп критериев. Статистические ограничения конкретных критериев внутри выбранной группы.

Сравнение частот и долей. Частотные критерии. Частоты как тип данных. Сравнение частот 2-х взаимоисключающих событий: биномиальный критерий. Сравнение долей проявления признака в двух выборках: критерий двух пропорций. Сравнение частот на интервальной шкале: критерий хи-квадрат (сравнение практических частот с теоретическими, сравнение двух рядов практических частот, объединение интервалов внутри ряда). Методы анализа четырехпольных таблиц: принципы построения таблицы, критерий хи-квадрат, точный метод Фишера, критерий МакНемара, поправка Иэйтса.

Критерии парного сравнения выборок:

- Параметрические критерии парного сравнения по средним значениям. Сравнение независимых выборок: t-критерий для независимых выборок. Сравнение зависимых (связанных) выборок: t-критерий для зависимых выборок. Принцип построения таблиц исходных данных для зависимых и независимых переменных в программе Statistica.

Параметрические критерии парного сравнения по разбросу данных. Сравнение дисперсий двух выборок: F-критерий Фишера.

- Непараметрические критерии парного сравнения по средним тенденциям. Принцип ранжирования и мощность непараметрических критериев. Сравнение независимых выборок: критерий Манна-Уитни. Сравнение зависимых (попарно связанных) выборок: критерий знаков, критерий Вилкоксона для сопряженных пар.

- Непараметрические критерии парного сравнения по форме распределения. Сравнение независимых выборок: критерий Колмогорова-Смирнова, критерий серий Вальда-Вольфовица.

Оценка взаимосвязи. Прямолинейная корреляция. Различия между взаимосвязью (корреляцией) и зависимостью (регрессией). Оценка  взаимосвязи двух выборок: коэффициент корреляции. Значение коэффициента корреляции и его достоверность. Параметрический коэффициент корреляции Пирсона. Непараметрический коэффициент корреляции Спирмена, коэффициент корреляции тау Кендалла, коэффициент корреляции гамма. Сравнение двух коэффициентов корреляции. Оценка взаимосвязи между тремя и более выборками: непараметрический коэффициент согласованности Кендалла, сравнение экспертных оценок. Оценка взаимосвязи между двумя бинарными признаками: коэффициент сопряженности Фи, оценка согласованности простых поведенческих последовательностей.

Множественное сравнение и оценка влияния факторов:

- Параметрический дисперсионный анализ ANOVA. Принцип работы и возможности применения метода: множественное сравнение, оценка влияния факторов. Однофакторный дисперсионный анализ. Апостериорное сравнение средних значений (критерий Тьюки). Поправка Бонферрони. Двухфакторный дисперсионный анализ. Многофакторный дисперсионный анализ. Введение ковариат. Задание способов взаимодействия факторов. Дисперсионный анализ планов с повторными измерениями.

- Непараметрический дисперсионный анализ. Сравнение независимых выборок: критерий Крускала-Уоллиса, критерий медианы. Сравнение зависимых выборок (повторных наблюдений): критерий Фридмана. Особенности построения таблиц исходных данных в программе Statistica.

Выделение групп значимых факторов. Факторный анализ. Основные предпосылки к использованию метода. Интерпретация результатов анализа. Оценка долей дисперсии, определяемых факторами; влияние отдельных переменных на главные компоненты. Построение факторных диаграмм.

Оценка зависимости. Регрессионный анализ. Отбор значимых факторов методом дисперсионного анализа. Модель линейной зависимости от факторов и ограничения применения регрессионного метода. Анализ остатков, дистанция Кука. Информационный критерий Акаики. Линейная (для непрерывных значений) и логистическая (для бинарных признаков) регрессия. Оценка нелинейной регрессии в программе Curve Expert.

Оценка иерархии и классификация объектов. Кластерный анализ. Значение отбора переменных и структуры выборки на построение классификации. Неоднозначность результатов кластерного анализа. Меры сходства: коэффициент корреляции Пирсона, меры расстояния (евклидово расстояние, квадратичное евклидово расстояние, Манхетеннское расстояние), коэффициенты ассоциативности. Иерархические агломеративные методы группировки: метод одиночной связи, метод полных связей, метод средней связи, метод Уорда. Итеративные методы группировки: итерация по принципу k-средних. Дендрограммы и их интерпретация.

Общие проблемы анализа данных. Использование среднего значения и медианы. Округление данных. Регулярность и пропорциональность наблюдений. Размер выборки, соотношение внутри- и межиндивидуальной изменчивости. Использование процентных соотношений. Разрешающая способность метода: выбор методики наблюдений и соответствующего метода статистической обработки. Проблема множественности сравнений, поправка Бонферрони. Проблема псевдорепликации: некорректная работа с повторными наблюдениями и при объединении данных. Методы обработки повторных наблюдений. Общие принципы моделирования случайных процессов, метод Монте-Карло.

Круговая статистика. Особенности циклической шкалы данных. Операции с векторами. Варианты круговых диаграмм. Статистическая обработка угловых и временных данных в программе Oriana. Проверка выборки на равномерность распределения: критерий Рэйли, критерий Рао. Унимодальное распределение ван Мисес как аналог нормального распределения. Оценка отклонения среднего вектора от ожидаемого направления. Сравнение двух выборок: критерий Хи-квадрат для данных интервальной шкалы, параметрический F-критерий Уотсона-Уильямса для сравнения средних векторов, непараметрический серийный критерий Мардиа-Уотсона-Уиллера, непараметрический критерий U2 Уотсона для сравнения дисперсий. Оценка взаимосвязи выборок: коэффициент круговой корреляции, коэффициент линейно-круговой корреляции.

Методы анализа пространственных данных. Анализ перемещений животных. Оценка направленности движения: критерий Рейли, сравнение траектории со случайными маршрутами по методу Монте-Карло. Оценка кривизны траектории движения: фрактальный анализ траектории на разных масштабах. Оценка границ и структуры участка обитания: минимальный участок, метод эллипса, метод «кернела»; применение метода «бутстрепа» для планирования минимального числа наблюдений, необходимых для описания границ участка. Пространственный анализ в программе ArcView (модуль Animal Movement).

Методы анализа пространственных данных. Анализ распределения особей на местности. Постановка задачи. Проблема масштаба. Распределение точек и плотность точек. Оценка характера распределения: метод ближайшего соседа, индекс агрегированности. Сравнение пространственного распределения двух видов. Основные подходы к оценке влияния факторов на распределение особей, необходимость сравнения значений фактора в исследуемых точках со значениями в случайных точках. Пространственный анализ в ГИС MapInfo. Переход от пространственных данных к классическому статистическому анализу.


Литература

Учебные пособия:

Работа с базами данных

Бекаревич Ю.Б., Пушкина И.В., 2007. Самоучитель Access 2007. СПб.: БХВ-Петербург. 720c.

Кошелев В.Е., 2008. Access 2007. М.: Бином-пресс. 592с.

Харитонова И.А., Рудикова Д.И., 2008. Microsoft Office Access 2007. СПб.: БХВ-Петербург. 1280с.

Статистический анализ

Сидоренко Е.В., 2006. Методы математической обработки в психологии. СПб.: ООО "Речь". 350 с.

Реброва О.Ю., 2006. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica. М.:Медиасфера. 312 с.

Lehner P.N., 1996. Handbook of Ethological Methods. Cambridge University Press. 672p.

Zuur A. K., Ieno E.  N., Smith G. M., 2007. Analysing Ecological Data. Springer Science + Business Media, LLC. 648p.

Малета Ю.С., Тарасов В.В., 1982. Непараметрические методы статистического анализа в биологии и медицине. М.: Изд-во Московского университета. 178с.

Урбах В.Ю., 1964. Биометрические методы. М.: Наука. 415с.

Огурцов С.В., 2004. Методическое пособие по обработке результатов и оформлению курсовых и дипломных работ. М.:Биологический ф-т МГУ. 28с. [скачать pdf-файл]

Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р., Олдендерфер М.С., Блэшфилд Р.К., 1989. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика. 215 с.

Статьи:

Fukuda H., Ohashi Y., 1997. A Guideline for Reporting Results of Statistical Analysis in Japanese Journal of Clinical Oncology // Japanese Journal of Clinical Oncology, V.27, №3, p.121–127

Ланг Т., 2005. Двадцать ошибок статистического анализа, которые Вы сами можете обнаружить в биомедицинских статьях // Международный журнал медицинской практики, 2005, №1, с. 21-31

Hurlbert S.H., 1984. Pseudoreplication and the design of ecological field experiments // Ecological Monographs, V.5, №2, p.187-211

Козлов М. В., 2003. Мнимые повторности (pseudoreplications) в экологических исследованиях: проблема, не замеченная российскими учеными // Журнал общей биологии, Т.64, № 4, с.292-307

Hargrove W.W., Pickering J., 1992. Pseudoreplication: a sine qua non for regional ecology // Landscape Ecology, V. 6, №4, p. 251-258

Орлов А.И., 2000. Прикладная статистика XXI в. // Экономика XXI века, 2000, №9, с.3-27

Леонов В.П., Ижевский П.В., 1997. Об использовании прикладной статистики при подготовке диссертационных работ по медицинским и биологическим специальностям // Бюллетень ВАК, 1997, №5, с.56-61

Леонов В.П., Ижевский П.В., 1998. Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях // Международный Журнал Медицинской Практики, 1998, №4, с.7-12

Леонов В.П., 1999. Применение статистики в статьях и диссертациях по медицине и биологии. Часть II. История биометрии и её применения в России // Международный Журнал Медицинской Практики, 1999, №4, с.7-19

Леонов В.П., 2002. Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины // Международный Журнал Медицинской Практики, 2002, №3, с.6-10

Интернет-сайты:

Сайт поддержки пользователей Microsoft Office Access

http://office.microsoft.com/ru-ru/access

Сайт по базам данных и SQL

http://www.sql.ru

Сайт библиотеки знаний для разработчиков, использующих продукты и технологии Misrosoft

http://msdn.microsoft.com/ru-ru/library

Сайт компании StatSoft, разработчика программы Statistica 6.0:

http://www.statsoft.ru/

Электронный журнал Биометрика:

http://www.biometrica.tomsk.ru/index.htm

Сайт программы CurveExpert (разработчик Daniel G. Hyams)

http://curveexpert.webhop.biz/

Сайт программы Oriana (Kovach Computing Services)

http://www.kovcomp.co.uk/oriana/index.html

Сайт программы Animal movement для Acview GIS (Alaska Science Center)

http://www.absc.usgs.gov/glba/gistools/


Составители – доцент, кандидат биологических наук Сергей Викторович Огурцов, младший научный сотрудник, кандидат биологических наук Эльдар Нурланович Рахимбердиев

*Спецкурсы

На сайт Биологического ф-та МГУ
На сайт МГУ

Дизайн сайта: Сергей В. Огурцов, 2005-2010

E-mail: compclass7@yandex.ru

На начальную страницу