Математический словарь

" 0 C F G H K L N P S T W Z А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

ДИСПЕРСИОННЫЙ АНАЛИЗ

Значение ДИСПЕРСИОННЫЙ АНАЛИЗ в математической энциклопедии:

в математической статистике - статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Первоначально Д. а. был предложен Р. Фишером [1] для обработки результатов агрономич. опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай. Современные приложения Д. а. охватывают широкий круг задач экономики, социологии, биологии и техники и трактуются обычно в терминах статистич. теории выявления систематич. различий между результатами непосредственных измерений, выполненных при тех пли иных меняющихся условиях.

Если значения неизвестных постоянных a₁, ... , a_I могут быть измерены с помощью различных методов или измерительных средств М ₁,..., M_J, и в каждом случае систематич. ошибка b_ij может, вообще говоря, зависеть как от выбранного метода Mj, так и от неизвестного измеряемого значения а _i, то результаты таких измерений представляют собой суммы вида

где К- количество независимых измерений неизвестной величины а _i методом M_j,a у _ijk- случайная ошибка k-го измерения величины а _i методом M_j (предполагается, что все y_ijk- независимые одинаково распределенные случайные величины, имеющие нулевое математич. ожидание: Е у _ijk=0). Такая линейная модель наз. двухфакторной схемой Д. а.; первый фактор - истинное значение измеряемой величины, второй - метод измерения, причем в данном случае для каждой возможной комбинации значений первого и второго факторов осуществляется одинаковое количество Кнезависимых измерений (это допущение для целей Д. а. не является существенным и введено здесь лишь ради простоты изложения).

Примером подобной ситуации могут служить спортивные соревнования I спортсменов, мастерство к-рых оценивается J судьями, причем каждый участник соревнований выступает Краз (имеет К"попыток"). В этом случае а _i- истинное значение показателя мастерства спортсмена с номером i, b_ij- систематич. ошибка, вносимая в оценку мастерства i -го спортсмена судьей с номером j, x_ijk- оценка, выставленная j -м судьей г-му спортсмену после выполнений последним k-й попытки, а y_ijk- соответствующая случайная погрешность. Подобная схема типична для так наз. субъективной экспертизы качества нескольких объектов, осуществляемой группой независимых экспертов. Другой пример - статистич. исследование урожайности сельскохозяйственной культуры в зависимости от одного из J сортов почвы и J методов ее обработки, причем для каждого сорта г почвы и каждого метода обработки с номером J осуществляется kнезависимых экспериментов (в этом примере b_ij- истинное значение урожайности для г-го сорта почвы при j-м способе обработки, x_ijk- соответствующая экспериментально наблюдаемая урожайность в k-м опыте, а y_ijk- ее случайная ошибка, возникающая из-за тех или иных случайных причин; что же касается величин а _i, то в агрономич. опытах их разумно считать равными нулю).

Положим c_ij=a_i+b_ij, и пусть с _i*, с _*j и с _** - результаты осреднений с _ij по соответствующим индексам, т. е.

Пусть, кроме того, a=c_**,b_i= с _i*- с _**, g_j= с _*j -с _** и d_ij= с _ij- с _i*- с _*j+c_**. Идея Д. а. основана на очевидном тождестве

Если символом (c_ij )обозначить вектор размерности IJ, получаемый из матрицы ||с _ij|| порядка IXJ с помощью какого-либо заранее фиксированного способа упорядочивания ее элементов, то (1) можно записать в виде равенства где все векторы имеют размерность IJ, причем a_ij=a, b_ij=b_i, g_ij=g_j. Так как четыре вектора в правой части (2) ортогональны, то a_ij=a - наилучшее приближение функции c_ij от аргументов i и j постоянной величиной [в смысле минимальности суммы квадратов отклонений ]. В том же смысле a_ij+b_ij=a+b_i - наилучшее приближение c_ij функцией, зависящей лишь от i, a_ij+g_ij=a+g_j - наилучшее приближение c_ij функцией, зависящей лишь от j, a a_ij+b_ij+g_ij=a+b_i+g_j- наилучшее приближение c_ij суммой функций, из к-рых одна (напр., a+b_i) зависит лишь от г, а другая - лишь от j. Этот факт, установленный Р. Фишером (см. [1]) в 1918, позднее послужил основой теории квадратичных приближений функций.

В примере, связанном со спортивными соревнованиями, функция d_ij выражает "взаимодействие" г-го спортсмена и j-го судьи (положительное значение б/у означает "подсуживание", т. с. систематич. завышение /-м судьей оценки мастерства i-го спортсмена, а отрицательное значение б/у означает "засуживание", т. е. систематич. снижение оценки). Равенство всех б/у нулю - необходимое требование, к-рое надлежит предъявлять к работе группы экспертов. В случае же агрономич. опытов такое равенство рассматривается как гипотеза, подлежащая проверке по результатам экспериментов, поскольку основная цель здесь - отыскание таких значений i и j, при к-рых функция (1) достигает максимального значения. Если эта гипотеза верна, то

и значит, выявление наилучших "почвы" и "обработки" может быть осуществлено раздельно, что приводит к существенному сокращению числа экспериментов (напр., можно при каком-либо одном способе обработки испытать все Iсортов "почвы" и определить наилучший сорт, а затем на этом сорте опробовать все J способов "обработки" и найти наилучший способ; общее количество экспериментов с повторениями будет равно (I+J) К). Если же гипотеза {все d_ij=0} неверна, то для определения max c_ij необходим описанный выше "полный план", требующий при Кповторениях IJК экспериментов.

В ситуации спортивных соревнований функция g_ij=g_j может трактоваться как систематич. ошибка, допускаемая j-м судьей по отношению ко всем спортсменам. В конечном счете g_j - характеристика "строгости" или "либеральности" j-го судьи. В идеале хотелось бы, чтобы все g_j были нулевыми, но в реальных условиях приходится мириться с наличием ненулевых значений g_j и учитывать это обстоятельство при подведении итогов экспертизы (напр., за основу сравнения мастерства спортсменов можно принять не последовательности истинных значений a+b₁+g_j, ..., a+b_I+g_j, a лишь результаты упорядочиваний этих чисел по их величине, поскольку при всех j=1, . . . , J такие упорядочивания будут одинаковыми). Наконец, сумма двух оставшихся функций a_ij+b_ij=a+b_i зависит лишь от iи поэтому может быть использована для характеризации мастерства г-го спортсмена. Однако здесь нужно помнить, что Поэтому упорядочивание всех спортсменов по значениям a+b_i (или по a+ + b_i+g_j при каждом фиксированном j) может не совпадать с упорядочиванием по значениям a_i. При практической обработке экспертных оценок этим обстоятельством приходится пренебрегать, так как Упомянутый полный план экспериментов не позволяет оценивать отдельно a_i и b_i*. Таким образом, число a+b_i=a_i + b_i* характеризует не только мастерство i -го спортсмена, но и в той или иной мере отношение экспертов к этому мастерству. Поэтому, напр., результаты субъективных экспертных оценок, осуществленных в разное время (в частности, на нескольких Олимпийских играх), едва ли можно считать сопоставимыми. В случае же агрономич. опытов подобные трудности не возникают, поскольку все a_i=0 и значит, a+b_i=b_i*.

Истинные значения функций a, b_i, g_i и d_ij неизвестны и выражаются в терминах неизвестных функций c_ij. Поэтому первый этап Д. а. заключается в отыскании статистич. оценок для c_ij по результатам наблюдений x_ijk.Несмещенная и имеющая минимальную дисперсию линейная оценка для c_ij выражается формулой

Так как a, b_i, g_j и d_ij - линейные функции от элементов матрицы ||c_ij||, то несмещенные линейные оценки для этих функций, имеющие минимальную дисперсию, получаются в результате замены аргументов c_ij соответствующими оценками, c_ij, т. е. причем случайные векторы и определенные так же, как введенные выше (a_ij),(b_ij), (g_ij). и (d_ij), обладают свойством ортогональности, и значит, они представляют собой некоррелированные случайные векторы (иными словами, любые две компоненты, принадлежащие разным векторам, имеют нулевой коэффициент корреляции). Кроме того, любая разность вида

некоррелирована с любой из компонент этих четырех векторов. Рассмотрим пять совокупностей случайных величин {x_ijk}, {x_ijk-x_ij*},Так как

то дисперсии эмпирич. распределений, соответствующих указанным совокупностям, выражаются формулами

Эти эмпирич. дисперсии представляют собой суммы квадратов случайных величин, любые две из к-рых некоррелированы, если только они принадлежат разным суммам; при этом относительно всех y_ijk справедливо тождество

объясняющее происхождение термина "Д. а."" Пусть и пусть

в таком случае

где s² - дисперсия случайных ошибок y_ijk.

На основе этих формул и строится второй этап Д. а., посвященный выявлению влияния первого и второго факторов на результаты эксперимента (в агрономич. опытах первый фактор - сорт "почвы", второй - способ "обработки"). Напр., если требуется проверить гипотезу отсутствия "взаимодействия" факторов, к-рая выражается равенствомто разумно вычислить дисперсионное отношение s²₃/s²₀= F₃. Если это отношение значимо отличается от единицы, то проверяемая гипотеза отвергается. Точно так же для проверки гипотезы полезно отношение s²₂/s²₀= F₂, к-рое надлежит также сравнить с единицей; если при этом известно, чтото вместо F₂ целесообразно сравнить с единицей отношение

Аналогичным образом можно построить статистику, позволяющую дать заключение о справедливости или ложности гипотезы

Точный смысл понятия значимого отличия указанных отношений от единицы может быть определен лишь с учетом закона распределения случайных ошибок y_ijk. В Д. а. наиболее обстоятельно изучена ситуация, в к-рой все y_ijk распределены нормально. В этом случае - независимые случайные векторы, а - независимые случайные величины, причем

отношения подчиняются нецентральным распределениям хи-квадрат с f_m степенями свободы и параметрами нецентральности l_т, m=0, 1, 2, 3, где

Если параметр нецентральности равен нулю, то нецентральное распределение хи-квадрат совпадает с обычным распределением хи-квадрат. Поэтому в случае справедливости гипотезы l₃=0 отношение подчиняется F-распре делению (распределению дисперсионного отношения) с параметрами f₃ и f₀. Пусть х- такое число, для к-рого вероятность события {F₃>x} равна заданному значению е, называемому уровнем значимости (таблицы функции х= х(e; f₃, f₀) имеются в большинстве пособий по математич. статистике). Критерием для проверки гипотезы l₃=0 служит правило, согласно к-рому эта гипотеза отвергается, если наблюдаемое значение F₃ превышает х;в противном случае гипотеза считается не противоречащей результатам наблюдений. Аналогичным образом конструируются критерии, основанные на статистиках F₂ и F*₂.

Дальнейшие этапы Д. а. существенно зависят не только от реального содержания конкретной задачи, но также и от результатов статистич. проверки гипотез на втором этапе. Напр., в условиях агрономич. опытов справедливость гипотезы l₃=0, как указано выше, позволяет более экономно спланировать аналогичные дальнейшие эксперименты (если помимо гипотезы l₃=0 справедлива также и гипотеза l₂=0, то это означает, что урожайность зависит лишь от сорта "почвы", и поэтому в дальнейших опытах можно воспользоваться схемой однофакторного Д. а.); если же гипотеза l₃=0 отвергается, то разумно проверить, нет ли в данной задаче неучтенного третьего фактора? Если сорта "почвы" и способы ее "обработки" варьировались не в одном и том же месте, а в различных географич. зонах, то таким фактором могут быть климатич. или географич. условия, и "обработка" наблюдений потребует применения трехфакторного Д. а.

В случае экспертных оценок статистически подтвержденная справедливость гипотезы l₃= 0 дает основание для упорядочивания сравниваемых объектов (напр., спортсменов) по значениям величин i=l, . .. , I.

Если же гипотеза l₃=0 отвергается (в задаче о спортивных соревнованиях это означает статистич. обнаружение "взаимодействия" нек-рых спортсменов и судей), то естественно попытаться перевычнслить все результаты заново, предварительно исключив из рассмотрения x_ijk с такими парами индексов (i, j), для к-рых абсолютные значения статистич. оценок d_ij превышают нек-рый заранее установленный допустимый уровень. Это означает, что из матрицы ||x_ij*|| вычеркиваются нек-рые элементы, и значит, план Д. а. становится неполным.

Модели современного Д. а. охватывают широкий круг реальных экспериментальных схем (напр., схемы неполных планов, со случайно или неслучайно отобранными элементами x_ij*). Соответствующие этим схемам статистич. выводы во многих случаях находятся в стадии разработки. В частности, еще (к 1978) далеки от окончательного решения те задачи,, в к-рых результаты наблюдений x_ijk=c_ij+y_ijk не являются одинаково распределенными случайными величинами; еще более трудная задача возникает в случае зависимости величин x_ijk. Неизвестно решение проблемы выбора факторов (даже в линейном случае). Суть этой проблемы заключается в следующем: пусть с=с( и, v)- непрерывная функция и пусть u=u(z, w )и u=u(z, w)- какие-либо линейные функции от переменных г и w. Фиксируя значения z₁, . .., z_I и w₁, . . ., w_J, можно при каждом заданном выборе линейных функций ии u. определить c_ij формулой и построить Д. а. этих величин по результатам соответствующих наблюдений x_ijk. Проблема заключается в отыскании таких линейных функций u и u, к-рым соответствует минимальное значение суммы квадратов

где (предполагается, что функция с( и, v )неизвестна). В терминах Д. а. эта проблема сводится к статистич. отысканию таких факторов z=z(u, v )и w-w(u, v), к-рым соответствует "наименьшее взаимодействие".

Лит.:[1] Fisher R. A., Statistical methods for research workers, Edinburgh, 1925; [2] Шеффе Г., Дисперсионный анализ, пер. с англ., М., 1963; [3] Xальд А., Математическая статистика с техническими приложениями, пер. с англ., М., 1956; [4] Снедекор Д ж. У., Статистические методы в применении к исследованиям в сельском хозяйстве и биологии, пер. с англ., М., 1961.

Л. Н. Большее.