Реферат: Анализ медико-биологических данных с помощью Microsoft Excel и СПП STADIA 6.2

Анализмедико-биологических данных  с помощью Microsoft Excel иСППSTADIA 6.2

/>Рефератвыполнила аспирант кафедры биохимии и биотехнологии Ли Ирина Арсентьевна

Министерство образования РоссийскойФедерации

Дальневосточный государственныйуниверситет

Владивосток

2002

ВВЕДЕНИЕ

Вразвитых странах практически любое решение: политическое, финансовое,техническое, научно-исследовательское и даже бытовое решение принимается толькопосле всестороннего анализа данных. Поэтому изучение прикладной статистики иметодов анализа данных является неотъемлемым компонентом образования на всехуровнях, а компьютерные пакеты для аналитических исследований и прогнозированияявляются настольным рабочим инструментом любого специалиста, так или иначесвязанного с информационной сферой.

Известно,что окружающий нас мир характеризуется постоянной изменчивостью, порождающейразнообразие возможностей и свободу выбора. Однако тот, кто серьезно думает оперспективах своей деятельности, обязательно будет накапливать информацию обокружающем мире, пытаясь выделить закономерности из случайностей.

Именнотаким мощным и гибким инструментом отсеивания закономерностей от случайностей иявляется аппарат математической статистики.

Длясовременной науки характерно применение точных математических методов в самыхразличных областях. Точность и уровень той или иной области человеческих знанийчасто определяется степенью использования соответствующим разделом наукиматематических методов.

Эволюционнаятеория Ч. Дарвина, явилась по существу первой эволюционной теорией, котораяпривнесла в исследования вероятностный дух. Анализ взаимозависимости междутакими исходными понятиями эволюционной теории, как изменчивость,наследственность и отбор, оказался бы несостоятельным без того, что сейчасназывается вероятностным стилем мышления. Сегодня исследование проблеморганизации, функционирования, взаимодействия и эволюции живых систем уженемыслимо без привлечения идей и методов теории вероятностей, математическойстатистики и других разделов математики.

Характернойособенностью математизации биологии в наши дни является стремительный ростспроса на такие методы эмпирического материала, которые обеспечиваюткомплексный подход к познанию живых организмов. В исследовательской работе невсегда учитывается принцип единства и взаимосвязанности явлений в природе. Ярчевсего это проявляется при организации наблюдений и экспериментов по принципуединственного фактора, которому многое жертвовалось: вводились различныеограничения и оправдывались существенные упрощения, разрабатывалисьискусственный схемы исследований и т.д. В результате допускаласьметодологическая ошибка: игнорировался принцип единства живой природы.Известно, что упущения методологического характера нельзя исправить никакимиметодами, в том числе и математическими. Принцип единственного фактора вошел вбиологию по объективным причинам, среди которых первостепенное значение имеетфакт, что человек не может непосредственно анализировать одновременноевзаимодействие многих факторов.

Такиематематические методы, которые разработаны с всесторонним учетом принципаединства живой природы и возможности практической их реализации с использованиепрограммного обеспечения, является достижением в области постановки и анализабиологических исследований. Однако, опыт показывает, что и в век вычислительнойтехники лучших успехов достигают те специалисты, которые умеют не только использоватьобработанную информацию, но также уяснили сущность применяемых методов. Этопредохранит от механического их использования, которое рано или поздно приводитк нелепым или даже абсурдным выводам.

Математическаястатистика

Математическаястатистика – раздел математики, посвященный математическим методамсистематизации, обработки и использования статистических данных для научных ипрактических выводов. Математическая статистика исходит из предположения, чтонаблюдаемая изменчивость наблюдаемого мира имеет два источника. Один из нихдействие известных причин и факторов. Они порождают изменчивость, закономернообъяснимую. Именно эти изменения и вызывающие ее факторы обычно представляютинтерес у исследователя, ищущего, в первую очередь, причинные связи явлений.

Однакобольшинство природных и общественных явлений обнаруживают изменчивость, котораяне может быть целиком объяснена закономерными причинами. В таком случаеприбегают к концепции случайной изменчивости, которая в данном контекстеозначает «подчиняющийся законам вероятности». И если предположение о такомхарактере явлений справедливо, то оно позволяет делать надежные выводы(достоверность которых контролируется) из данных, которые зачастуюпротиворечивы, искажены ошибками, ненадежны и т.д. Без привлечениястатистических понятий в таких случаях невозможно судить о точности иобоснованности выводов, но и вообще об их адекватности.

Практиканакопила большой опыт того, в каких ситуациях приемлемы представления ослучайной изменчивости. Для наиболее ходовых из таких ситуаций разработаныматематические модели. Наиболее важные и употребительные модели отражены вкомпьютерных статистических пакетах. Программное воплощение теоретических схембывает весьма разнообразным, равно как и возможности и производительностьреализуемых алгоритмов, а также удобство использования и работы с пакетом.

Кромеосновного ядра, в той или иной форме представленного в большинстве пакетовобщего назначения, многие из них уделяют предпочтительное внимание отдельнымразделам математической статистики и могут содержать менее традиционный илидаже новый, оригинальный материал по этим разделам.

Биометрия

Дажев самых конкретных биологических исследованиях основной интерес представляютсведения, относящиеся не к индивидуальному объекту, а к целой группе илинекоторому статистическому среднему объекту. Необходимость использованиястатистических методов в биологических и медицинских исследованиях связана впервую очередь с тем, что свойства биологических объектов обычно значительноварьируют в пределах популяции, а физиологические и другие параметры однойособи испытывают флуктуации во времени.

Традиционнотесные связи между биологической проблематикой и собственно математическойстатистикой, уже давно позволили выделить рассматриваемую область прикладнойстатистики в отдельную дисциплину – биометрию.

Биометрия– область научных знаний, охватывающая планирование и анализ результатовколичественных биологических экспериментов и наблюдений методами математическойстатистики.

Современныйколичественный эксперимент включает в себя самостоятельноематематико-статистической исследование, которое начинается со статистическогопланирования эксперимента, то есть организации его постановки, и завершается статистическойобработкой полученных результатов. Поэтому биометрия находит себе все болееширокое общебиологическое применение, ибо задачи, которые она решает –планирование экспериментов и анализ их результатов, — составляют основуэкспериментальной работы в любой частной области биологии.

Биометриястроится на строгом математическом фундаменте, но этим не ограничивается.

Построениебиометрии идет по четырем основным разделам:

Отбориз громадного арсенала математических методов таких, который могут помочь биологамв их текущей работе по наблюдению, преобразованию живой природы;

Модификацияотобранных математических методов в соответствии со специфическимиособенностями биологических объектов и процессов

Разработкановых биометрических методов, требуемых современным развитием биологии, но ещене имеющихся в арсенале общей математики. Например, расчет показателейнаследуемости и повторяемости;

Унификациятерминологии и символики. В общей математике нет единой системы терминов исимволики, имеется большое разнообразие в названиях и обозначениях по каждомупоказателю. При создании биометрической терминологии большинство терминовзаимствуется. Но не всегда математические термины пригодны в биологии.Например, такое биологическое явление, как неодинаковость объектов в группе,неизбежное их различие в математике обозначается многими терминами, совершенноне соответствующими сущности этого явления: «изменчивость», «рассеяние»,«колеблемость», «разброс». Поэтому в биометрии все они заменены одним общимтермином «разнообразие».

Опираясьна такие особенности ЭВМ, как быстродействие, способность хранить большиеобъемы информации, предоставление по использованию прикладных программ,существование разнообразных форм выдачи результатов вычислений, расширилисьвозможности биометрии, она стала более доступной. Биометрия основывается теперьне только на таких математических дисциплинах, как теория вероятностей иматематическая статистика, но на информатике и программировании на ЭВМ. Этопозволяет говорить о современной биометрии как о компьютерной.

Статистическиепакеты

Стандартныестатистические методы включены в состав популярных электронных таблиц, такихкак Excel, Lotus 1-2-3, QuattroPro, а также в математические пакеты общегоназначения, например Mathcad, Maple и др. Однако гораздо большимивозможностями обладает специализированное программное обеспечение –статистические программные продукты (СПП).

Международныйрынок насчитывает более 1000 пакетов, решающих задачи статистического анализаданных в среде операционных систем Windows, DOS, OS/2.

СППможно разделить на:

Универсальныепакеты – предлагают широкий диапазон статистических методов. В них отсутствуеториентация на конкретную предметную область. Из зарубежных универсальныхпакетов наиболее распространены BAS, SPSS, Systat, Minilab, Statgraphics, STATISTICA.

Специализированныепакеты, как правило, реализуют несколько статистических методов или методы,применяемые в конкретной предметной области. Чаще всего это системы,ориентированные на анализ временных рядов, корреляционно-регресионный,факторный или кластерный анализ. Из российских пакетов известны STADIA, Олимп, Класс-Мастер, КВАЗАР,Статистик-Консультант; американские пакеты – ODA, WinSTAT, Statit и т.д.

СовременныеСПП реализуют ряд системных функций: ассистирование пользователю при выбореспособа обработки, автоматическую организацию процесса обработки данных,обеспечение диалогового режима работы пользователя с пакетом, ведениепользовательских баз данных, автоматическое составление отчета о проделаннойпользователем работе, совместимость с другими программами и некоторые другие.

МетодориентированныеСПП, как правило, имеют следующую структуру:

Блокописательной статистики и разведочного анализа исходных данных: анализ резковыделяющихся значение исследуемого признака, восстановление пропущенныхзначений, частотная обработка исходных данных (построение гистограмм, полигоновчастот, вычисление выборочных средних дисперсий и т.д.), проверкастатистических гипотез об однородности исследуемых совокупностей, оценкакритериев согласия, визуализация распределения статистических данных и др.;

Блокстатистического исследования динамики и зависимостей: дисперсионный иковариационный анализ, корреляционно-регрессионый анализ, анализ временныхрядов и др.;

Блокклассификации и снижения размерности: дискриминантный анализ, статистическиханализ смесей распределений, кластерный анализ и др.;

Блокметодов статистического анализа нечисловых данных и экспертых оценок: анализтаблиц сопряженности, логлинейные модели, ранговые методы и др.;

Блокпланирования эксперимента и выборочных исследований;

Блоквспомогательных программ.

Следуетотметить, что продвижение западных продуктов в российской аудиториинаталкивается на ряд ограничений в связи с неадекватностью культурно-историческойситуации. Эти пакеты предполагают наличие широкого первоначальногостатистического образования, доступной литературы и консультационных служб.Поэтому они содержат мало экранных подсказок и требуют внимательного изучениядокументации на английском языке.

Указанныхнедостатков в значительной степени лишены известные отечественныестатистические пакеты: Эвриста, Статистик-Консультант, STADIA, которые устойчиво представлены на рынке в течение последних лет.

Используемаяв данной работе СПП STADIA является универсальной системой,покрывающей в той или иной степени большинство основных разделов прикладнойстатистики, деловой и научной графики, и по своим интегральным возможностямсравнима с популярными зарубежными пакетами. Набор методов математическойстатистики, представленный в пакете STADIAсоставлен исходя из следующих соображений:

впакет входят все наиболее часто применяемые в России и за рубежомстатистические методы;

значительнаячасть их изучается в вузовских курсах и описана в стандартных учебниках;

пакетне перегружен очень новыми и/или сложными узкоспециализированными методами.

Всостав Microsoft Excel входит набор средств анализа данных (называемый пакетанализа), предназначенный для решения сложных статистических и инженерныхзадач. Microsoft Excel относится к весьма популярным и распространеннымэлектронным таблицам, работающий в среде Windows.

Этапы анализа данных

Впроцессе анализа данных, как правило, присутствуют следующие основные этапы:

Вводданных

Введенныеданные обычно отражаются в форме электронной таблицы или матрицы данных, гдестолбцы представляют различные переменные (например, рост, вес), а строки –измерение значений этих переменных, произведенные в различных условиях, вразличное время, у различных объектов и т.п.

Преобразованиеданных

Данныев электронной таблице можно просмотреть и скорректировать методами ручногоредактирования или же полуавтоматического преобразования к виду, адекватномувыбранному методу анализа. Здесь может быть использован широкий наборалгебраических, матричных, структурных преобразований, а также комбинированиеэтих операций в требуемой последовательности. Нередко также требуются удалениеиз введенных данных высокоамплитудных выбросов (которые могут быть результатомнекорректных измерений) и замена или удаление пропущенных (неизмеренных)значений.

Визуализацияданных

Наданные обязательно следует просто посмотреть, чтобы составить общее (в томчисле и интуитивное) представление о характере их изменения, специфических особенностяхи закономерностях, что очень важно при выборе стратегии и тактики дальнейшегоанализа. Для этого можно использовать как исходное числовое представление, таки различные формы графического изображения.

Статистическийанализ

Собственновыбор метода, анализ данных и интерпретация результатов.

Представлениерезультатов

Длянаглядности производимых выводов полученные результаты желательно представлятьв виде адекватных, убедительных и эффектных графиков.

Комплексноестатистическое исследование

Ранеебыло показано высокое терапевтическое противоопухолевое действие природногосоединения – тиакарпина. На первом этапе изучения нового биологически активноговещества исследовали его общее, физиологическое воздействие на организм. Цельданной работы состояла в изучении и поиске наиболее безвредных дозтерапевтического препарата.

Всвязи с этим были получены результаты эксперимента на животных по влияниютиакарпина на медико-биологические показатели интактного (здорового) организма.В частности регистрировали такие параметры сердечно-сосудистой системы, какактивность ферментов аланинаминотрансферазы (АЛТ) и аспарататаминотрансферазы(АСТ), уровень белка, количество лейкоцитов – клеток иммунного реагированияорганизма. В печени наблюдали состояние белоксинтетической системы посодержанию в ней общего белка и уровень продуктов тиобарбитуровой кислоты (ТБК)– конечных продуктов перекисного окисления липидов.

Животные(в данном случае беспородные лабораторные мыши) были поделены на группы для выяснениядозо-временного действия препарата. Тиакарпин вводили внутрибрюшинно каждыйдень в течение всего эксперимента за исключением контрольных животных.

Медико-биологическое действие тиакарпинана интактный организм мышей

Таблица1. Действие различных доз тиакарпина

(7.3мг/кг, 15мг/кг и 50 мг/кг) на третьи и шестые сутки

группа белок печени белок сыворотки АЛТ АСТ ТБК мг/100мг г% ммоль/л*ч ммоль/л*ч мкг/100мг контроль1 85,6 7,5 1,95 5,4 0,58 контроль2 63,6 8,1 3,48 7,11 0,42 7,5-3 66,6 3,2 3,12 5,87 0,38 15-3 33,3 5,6 3,16 5,67 0,3 50-3 42,4 7,8 2,64 4,41 0,2 7,5-6 37,1 6,3 2,92 5,05 0,34 15-6 50,7 5,1 3,77 5,49 0,4 50-6 59,8 5,1 2,36 4,78 0,3

/>


Рис1.1. Содержание белка в печени

Изрис.1.1 видно, что введение тиакарпина в низких дозах на третьи сутки изменяетсостояние белоксинтетической функции печени в пределах физиологической нормы вотличие от больших доз. Однако, если  содержание белка практическивосстанавливается в дозах 15 и 50 мг/кг, то при низких дозах снижается почти в2 раза.

/>


Рис.1.2. Содержание белка в сыворотке крови

Обратнаякартина получена для белка сыворотки крови (рис. 1.2): резкое понижение впервые три дня при малых дозах и восстановление на шестой день. В то же времябольшие дозы вызывают стабильное понижение концентрации общего белка до 5 г%.

/>


Рис.1.3. Активность аланинаминотрансферазы и аспартатаминотрансферазы в сывороткекрови

Вслучае с уровнем активности ферментов крови наблюдается положительная ситуациядля всех исследуемых групп. На рис. 1.3 можно видеть незначительные колебанияпоказателей практически в пределах нормы.

/>


Рис.1.4. Содержание продуктов тиобарбитуровой кислоты в печени

СодержаниеТБК-продуктов выравнивается до нормальных значений во всех группах на шестойдень. Наблюдавшееся понижение в первой половине недели находилось в прямойзависимости от дозы.

Анализрезультатов на первом этапе не показал негативного действия тиакарпина напоказатели организма даже при введении высоких доз, а в некоторых случаяхувеличение дозы способствовало подавлению процессов перекисного окисления впечени, свидетельствующее о некотором антиоксидантном и гепатопротекторномдействии препарата. Неодназначные результаты были получены по влияниютиакарпина на белоксинтетическую функцию организма.

ОПИСАТЕЛЬНАЯСТАТИСТИКА

Этосредство анализа служит для создания одномерного статистического отчета,содержащего информацию о центральной тенденции и изменчивости входных данных.

Переменная  Размер  <---Диапазон--->  Среднее---Ошибка  Дисперс  Ст.откл   Сумма

      x1        8     33,3     85,6    54,89    6,177    305,2    17,47    439,1

      x2        8      3,2      8,1    6,087   0,5908    2,793    1,671     48,7

      x3        8     1,95     3,77    2,925   0,2099   0,3523   0,5936     23,4

      x4        8     4,41     7,11    5,473   0,2888   0,6673   0,8169    43,78

      x5        8      0,2     0,58    0,365  0,03942  0,01243   0,1115     2,92

 

Переменная Медиана   <--Квартили-->  ДовИнтСр. <-ДовИнтДисп->  Ош.СтОткл

      x1    55,25    38,42    65,85    21,61    105,4     2160    8,953

      x2     5,95      5,1    7,725    2,067   0,9648    19,76   0,8564

      x3     3,02     2,43      3,4   0,7343   0,1217    2,493   0,3042

      x4    5,445    4,848     5,82    1,011   0,2305    4,722   0,4186

      x5     0,36      0,3    0,415   0,1379 0,004294  0,08795  0,05713

 

ПеременнаяАсимметр. Значим  Эксцесс   Значим

      x1   0,3909   0,2584    2,203   0,4266

      x2   -0,331   0,2915    2,103    0,372

      x3  -0,2451   0,3422    2,132   0,3878

      x4   0,7996   0,0924    3,209    0,107

      x5   0,5615   0,1758    3,091   0,1412

Длявсех анализируемых выборок согласно вычисленным уровням значимости (они большекритического значения 0,05) нет оснований отвергать нулевые гипотезы об отличиикоэффициентов эксцесса и асимметрии от значений нормального распределения свероятностью 95%. Таким образом использование параметрических статистическихпоказателей в данном случае будет оправдано и достоверно.

Сравниваясредние по каждому переменному (диагностикуму) с контрольными (нормальными)показателями можно сказать, что в общем тиакарпин подавляет синтез белка, хотяи незначительно, и снижает уровень продуктов перекисного окисления.Сопоставление средних и дисперсий указывает на то, что препарат оказываетзначительное влияние на все показатели и особенно на белковое содержание.

Результатыисследования образуют матрицу данных и, чтобы увидеть закономерность иструктуру общей картины эксперимента, необходимо применить многомерные методыанализа данных.

КЛАСТЕРНЫЙАНАЛИЗ

Эвклид+Дальн.сосед

                      Таблица расстояний

          (1)      (2)      (3)      (4)      (5)      (6)      (7)      (8)      (9)    (10)

( 2)    22,13

( 3)    19,52    5,889

( 4)    52,35    30,44    33,39

( 5)    43,22    21,39    24,68    9,461

( 6)    48,53    26,65    29,67    3,921    5,554

( 7)    35,03    13,35    16,03    17,42    8,869    13,69

( 8)    25,92     5,49    7,185    26,53    17,61    22,74    9,236

                         К л а с т е р ы:

                (список объектов) -> расстояние

(6,4)--> 3,921

(8,2)--> 5,49

(8,3,2)--> 7,185

(7,5)--> 8,869

(7,6,4,5)--> 17,42

(8,1,3,2)--> 25,92

(8,7,6,4,5,1,3,2)--> 52,35

/>

Рис.1.5.  Дендрограмма (стратегия дальнего соседа): по оси Y – расстояние объединения, по оси Х – номера групп

Каквидно из рис. 1.5. стратегия дальнего соседа достаточно отчетливо выделяет трикластера исследуемых групп: (4, 6), (5, 7) и (1, 2, 3, 8). При этом группу 1можно выделить в четвертый кластер. В связи с этим применим дивизивнуюстратегию в попытке получить группировку на четыре кластера.

Эвклид+Дивизивная

                      Таблица расстояний

          (1)      (2)      (3)      (4)      (5)      (6)      (7)      (8)      (9)    (10)

( 2)    22,13

( 3)    19,52    5,889

( 4)    52,35    30,44    33,39

( 5)    43,22    21,39    24,68    9,461

( 6)    48,53    26,65    29,67    3,921    5,554

( 7)    35,03    13,35    16,03    17,42    8,869    13,69

( 8)    25,92     5,49    7,185    26,53    17,61    22,74    9,236

                         К л а с т е р ы:

Среднеевнутрикластерное расстояние=5,673

1=(1,2,3*,8)

2=(4*,6)

3=(5*,7)

/>

Рис.1.6. Дендрограмма трех кластеров

Врезультате получаем разделение на три кластера. Для проверки гипотезы обадекватности получаемых классификаций применяем дискриминантный метод.

ДИСКРИМИНАНТНЫЙАНАЛИЗ

   Расстояние Махаланобиса=724,3, значимость=0

   Класс  <--- Коэффициенты дискриминантной функции:a[0],a[1],… --->

       1    -1181    45,14    58,65    528,6   -206,2    -3207

       2   -429,4    26,77    37,61    330,7   -132,4    -1884

       3    -1038    42,14    60,77    535,3   -223,7    -2953

   Объект   Класс      D^2   Значим Вероят.отнесения

       1        1     3,75   0,5859        1

       2        1     3,75   0,5859        1

       3        1     3,75   0,5859        1

       4        2      2,5   0,7764        1

       5        3      2,5   0,7764        1

       6        2      2,5   0,7764        1

       7        3      2,5   0,7764        1

       8        1     3,75   0,5859        1

Какпоказывают результаты дискриминантного анализа, предполагаемая классификацияоказалась эффективной.

Кластеризацияисследуемых групп животных выявила сохранение физиологической нормы привведении тиакарпина в течение 3-х дней в дозе 7.5 мг/кг и в течение 6-и дней вдозе 50 мг/кг. Данные дозы оказывают наименьшую нагрузку на организм.

/>

Рис.1.7. Дендрограмма переменных: по оси Y –расстояние объединения, по оси Х – переменные

Рис.1.7, иллюстрирующий классификацию переменных – диагностикумов, с использованиемметрики на основе коэффициента корреляции и стратегии ближайшего соседа,показывает, что все пять диагностикумов не взаимосвязаны.

Выводы

Графическаявизуализация экспериментальных результатов с помощью Excel показывает, что исследуемое вещество – тиакарпин, не оказываетнегативного действия на показатели организма даже при введении высоких доз, а внекоторых случаях увеличение дозы способствовало подавлению процессовперекисного окисления в печени, свидетельствующее о некотором антиоксидантном игепатопротекторном действии препарата. Неоднозначные результаты были полученыпо влиянию тиакарпина на белоксинтезирующую функцию организма.

Основываясьна результаты описательной статистики в STADIA 6.2 можно утверждать, что препарат оказывает значительное влияниена все показатели и особенно на белковое содержание. Общее действие тиакарпинанаправлено на подавление синтеза белка и ингибирование процессов перекисногоокисления липидов.

Кластеризацияисследуемых групп животных выявила сохранение физиологической нормы привведении тиакарпина в течение 3-х дней в дозе 7.5 мг/кг и в течение 6-и дней вдозе 50 мг/кг. Данные дозы оказывают наименьшую нагрузку на организм.

Использованиеметрики на основе коэффициента корреляции и стратегии ближайшего соседапоказывает, что все пять диагностикумов не взаимосвязаны, т.е. все используемыепараметры характеризуют функциональное состояние организма и обладаютодинаковой диагностической информативностью.

Список литературы

ЕлисееваИ.И., Юзбашев М.М. Общая теория статистики. Учебник / Под ред. И.И. Елисеевой.– М.: Финансы и статистика, 1995. – 386 с.

КулаичевА.П. Методы и средства анализа данных в среде Windows. STADIA 6.0. – М.: Информатика и компьютеры,1996. – 257 с.

ЛукьяноваН.Ю. Статистический анализ данных с использованием компьютера. Учебное пособие.– Калининград: Изд-во КГУ, 2001. – 89 с.

Математическийанализ биологических данных / Г.Н. Зайцев, М.: “Наука”, 1991. – 184 с.

ПлохинскийН.А. Математические методы в биологии. Учебно-методическое пособие. Изд-воМоск. ун-та, 1978. – 168 с.

Дляподготовки данной работы были использованы материалы с сайта study.online.ks.ua/

еще рефераты
Еще работы по информатике, программированию