Математический словарь
" 0 C F G H K L N P S T W Z А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

ДИСПЕРСИОННЫЙ АНАЛИЗ

Значение ДИСПЕРСИОННЫЙ АНАЛИЗ в математической энциклопедии:

в математической статистике - статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Первоначально Д. а. был предложен Р. Фишером [1] для обработки результатов агрономич. опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай. Современные приложения Д. а. охватывают широкий круг задач экономики, социологии, биологии и техники и трактуются обычно в терминах статистич. теории выявления систематич. различий между результатами непосредственных измерений, выполненных при тех пли иных меняющихся условиях.

Если значения неизвестных постоянных a1, ... , aI могут быть измерены с помощью различных методов или измерительных средств М 1,..., MJ, и в каждом случае систематич. ошибка bij может, вообще говоря, зависеть как от выбранного метода Mj, так и от неизвестного измеряемого значения а i, то результаты таких измерений представляют собой суммы вида

где К- количество независимых измерений неизвестной величины а i методом Mj,a у ijk - случайная ошибка k-го измерения величины а i методом Mj (предполагается, что все yijk- независимые одинаково распределенные случайные величины, имеющие нулевое математич. ожидание: Е у ijk=0). Такая линейная модель наз. двухфакторной схемой Д. а.; первый фактор - истинное значение измеряемой величины, второй - метод измерения, причем в данном случае для каждой возможной комбинации значений первого и второго факторов осуществляется одинаковое количество Кнезависимых измерений (это допущение для целей Д. а. не является существенным и введено здесь лишь ради простоты изложения).

Примером подобной ситуации могут служить спортивные соревнования I спортсменов, мастерство к-рых оценивается J судьями, причем каждый участник соревнований выступает Краз (имеет К"попыток"). В этом случае а i- истинное значение показателя мастерства спортсмена с номером i, bij - систематич. ошибка, вносимая в оценку мастерства i -го спортсмена судьей с номером j, xijk- оценка, выставленная j -м судьей г-му спортсмену после выполнений последним k-й попытки, а yijk- соответствующая случайная погрешность. Подобная схема типична для так наз. субъективной экспертизы качества нескольких объектов, осуществляемой группой независимых экспертов. Другой пример - статистич. исследование урожайности сельскохозяйственной культуры в зависимости от одного из J сортов почвы и J методов ее обработки, причем для каждого сорта г почвы и каждого метода обработки с номером J осуществляется kнезависимых экспериментов (в этом примере bij- истинное значение урожайности для г-го сорта почвы при j-м способе обработки, xijk- соответствующая экспериментально наблюдаемая урожайность в k-м опыте, а yijk- ее случайная ошибка, возникающая из-за тех или иных случайных причин; что же касается величин а i, то в агрономич. опытах их разумно считать равными нулю).

Положим cij=ai+bij, и пусть с i*, с *j и с ** - результаты осреднений с ij по соответствующим индексам, т. е.

Пусть, кроме того, a=c** ,bi= с i*- с **, gj= с *j** и dij= с ij- с i*- с *j+c**. Идея Д. а. основана на очевидном тождестве

Если символом (cij )обозначить вектор размерности IJ, получаемый из матрицы ||с ij|| порядка IXJ с помощью какого-либо заранее фиксированного способа упорядочивания ее элементов, то (1) можно записать в виде равенства где все векторы имеют размерность IJ, причем aij=a, bij=bi, gij=gj. Так как четыре вектора в правой части (2) ортогональны, то aij=a - наилучшее приближение функции cij от аргументов i и j постоянной величиной [в смысле минимальности суммы квадратов отклонений ]. В том же смысле aij+bij=a+bi - наилучшее приближение cij функцией, зависящей лишь от i, aij+gij=a+gj - наилучшее приближение cij функцией, зависящей лишь от j, a aij+bij+gij=a+bi+gj- наилучшее приближение cij суммой функций, из к-рых одна (напр., a+bi) зависит лишь от г, а другая - лишь от j. Этот факт, установленный Р. Фишером (см. [1]) в 1918, позднее послужил основой теории квадратичных приближений функций.

В примере, связанном со спортивными соревнованиями, функция dij выражает "взаимодействие" г-го спортсмена и j-го судьи (положительное значение б/у означает "подсуживание", т. с. систематич. завышение /-м судьей оценки мастерства i-го спортсмена, а отрицательное значение б/у означает "засуживание", т. е. систематич. снижение оценки). Равенство всех б/у нулю - необходимое требование, к-рое надлежит предъявлять к работе группы экспертов. В случае же агрономич. опытов такое равенство рассматривается как гипотеза, подлежащая проверке по результатам экспериментов, поскольку основная цель здесь - отыскание таких значений i и j, при к-рых функция (1) достигает максимального значения. Если эта гипотеза верна, то

и значит, выявление наилучших "почвы" и "обработки" может быть осуществлено раздельно, что приводит к существенному сокращению числа экспериментов (напр., можно при каком-либо одном способе обработки испытать все Iсортов "почвы" и определить наилучший сорт, а затем на этом сорте опробовать все J способов "обработки" и найти наилучший способ; общее количество экспериментов с повторениями будет равно (I+J) К). Если же гипотеза {все dij=0} неверна, то для определения max cij необходим описанный выше "полный план", требующий при Кповторениях IJК экспериментов.

В ситуации спортивных соревнований функция gij=gj может трактоваться как систематич. ошибка, допускаемая j-м судьей по отношению ко всем спортсменам. В конечном счете gj - характеристика "строгости" или "либеральности" j-го судьи. В идеале хотелось бы, чтобы все gj были нулевыми, но в реальных условиях приходится мириться с наличием ненулевых значений gj и учитывать это обстоятельство при подведении итогов экспертизы (напр., за основу сравнения мастерства спортсменов можно принять не последовательности истинных значений a+b1+gj, ..., a+bI+gj, a лишь результаты упорядочиваний этих чисел по их величине, поскольку при всех j=1, . . . , J такие упорядочивания будут одинаковыми). Наконец, сумма двух оставшихся функций aij+bij=a+bi зависит лишь от iи поэтому может быть использована для характеризации мастерства г-го спортсмена. Однако здесь нужно помнить, что Поэтому упорядочивание всех спортсменов по значениям a+bi (или по a+ + bi+gj при каждом фиксированном j) может не совпадать с упорядочиванием по значениям ai. При практической обработке экспертных оценок этим обстоятельством приходится пренебрегать, так как Упомянутый полный план экспериментов не позволяет оценивать отдельно ai и bi*. Таким образом, число a+bi=ai + bi* характеризует не только мастерство i -го спортсмена, но и в той или иной мере отношение экспертов к этому мастерству. Поэтому, напр., результаты субъективных экспертных оценок, осуществленных в разное время (в частности, на нескольких Олимпийских играх), едва ли можно считать сопоставимыми. В случае же агрономич. опытов подобные трудности не возникают, поскольку все ai=0 и значит, a+bi=bi*.

Истинные значения функций a, bi, gi и dij неизвестны и выражаются в терминах неизвестных функций cij. Поэтому первый этап Д. а. заключается в отыскании статистич. оценок для cij по результатам наблюдений xijk.Несмещенная и имеющая минимальную дисперсию линейная оценка для cij выражается формулой

Так как a, bi, gj и dij - линейные функции от элементов матрицы ||cij||, то несмещенные линейные оценки для этих функций, имеющие минимальную дисперсию, получаются в результате замены аргументов cij соответствующими оценками, cij, т. е. причем случайные векторы и определенные так же, как введенные выше (aij),(bij), (gij). и (dij), обладают свойством ортогональности, и значит, они представляют собой некоррелированные случайные векторы (иными словами, любые две компоненты, принадлежащие разным векторам, имеют нулевой коэффициент корреляции). Кроме того, любая разность вида

некоррелирована с любой из компонент этих четырех векторов. Рассмотрим пять совокупностей случайных величин {xijk}, {xijk-xij*},Так как

то дисперсии эмпирич. распределений, соответствующих указанным совокупностям, выражаются формулами

Эти эмпирич. дисперсии представляют собой суммы квадратов случайных величин, любые две из к-рых некоррелированы, если только они принадлежат разным суммам; при этом относительно всех yijk справедливо тождество

объясняющее происхождение термина "Д. а."" Пусть и пусть

в таком случае

где s2 - дисперсия случайных ошибок yijk.

На основе этих формул и строится второй этап Д. а., посвященный выявлению влияния первого и второго факторов на результаты эксперимента (в агрономич. опытах первый фактор - сорт "почвы", второй - способ "обработки"). Напр., если требуется проверить гипотезу отсутствия "взаимодействия" факторов, к-рая выражается равенствомто разумно вычислить дисперсионное отношение s23/s20= F3. Если это отношение значимо отличается от единицы, то проверяемая гипотеза отвергается. Точно так же для проверки гипотезы полезно отношение s22/s20= F2, к-рое надлежит также сравнить с единицей; если при этом известно, чтото вместо F2 целесообразно сравнить с единицей отношение

Аналогичным образом можно построить статистику, позволяющую дать заключение о справедливости или ложности гипотезы

Точный смысл понятия значимого отличия указанных отношений от единицы может быть определен лишь с учетом закона распределения случайных ошибок yijk. В Д. а. наиболее обстоятельно изучена ситуация, в к-рой все yijk распределены нормально. В этом случае - независимые случайные векторы, а - независимые случайные величины, причем

отношения подчиняются нецентральным распределениям хи-квадрат с fm степенями свободы и параметрами нецентральности l т, m=0, 1, 2, 3, где

Если параметр нецентральности равен нулю, то нецентральное распределение хи-квадрат совпадает с обычным распределением хи-квадрат. Поэтому в случае справедливости гипотезы l3=0 отношение подчиняется F-распре делению (распределению дисперсионного отношения) с параметрами f3 и f0. Пусть х- такое число, для к-рого вероятность события {F3>x} равна заданному значению е, называемому уровнем значимости (таблицы функции х= х(e; f3, f0) имеются в большинстве пособий по математич. статистике). Критерием для проверки гипотезы l3=0 служит правило, согласно к-рому эта гипотеза отвергается, если наблюдаемое значение F3 превышает х;в противном случае гипотеза считается не противоречащей результатам наблюдений. Аналогичным образом конструируются критерии, основанные на статистиках F2 и F*2.

Дальнейшие этапы Д. а. существенно зависят не только от реального содержания конкретной задачи, но также и от результатов статистич. проверки гипотез на втором этапе. Напр., в условиях агрономич. опытов справедливость гипотезы l3=0, как указано выше, позволяет более экономно спланировать аналогичные дальнейшие эксперименты (если помимо гипотезы l3=0 справедлива также и гипотеза l2=0, то это означает, что урожайность зависит лишь от сорта "почвы", и поэтому в дальнейших опытах можно воспользоваться схемой однофакторного Д. а.); если же гипотеза l3=0 отвергается, то разумно проверить, нет ли в данной задаче неучтенного третьего фактора? Если сорта "почвы" и способы ее "обработки" варьировались не в одном и том же месте, а в различных географич. зонах, то таким фактором могут быть климатич. или географич. условия, и "обработка" наблюдений потребует применения трехфакторного Д. а.

В случае экспертных оценок статистически подтвержденная справедливость гипотезы l3= 0 дает основание для упорядочивания сравниваемых объектов (напр., спортсменов) по значениям величин i=l, . .. , I.

Если же гипотеза l3=0 отвергается (в задаче о спортивных соревнованиях это означает статистич. обнаружение "взаимодействия" нек-рых спортсменов и судей), то естественно попытаться перевычнслить все результаты заново, предварительно исключив из рассмотрения xijk с такими парами индексов (i, j), для к-рых абсолютные значения статистич. оценок dij превышают нек-рый заранее установленный допустимый уровень. Это означает, что из матрицы ||xij*|| вычеркиваются нек-рые элементы, и значит, план Д. а. становится неполным.

Модели современного Д. а. охватывают широкий круг реальных экспериментальных схем (напр., схемы неполных планов, со случайно или неслучайно отобранными элементами xij*). Соответствующие этим схемам статистич. выводы во многих случаях находятся в стадии разработки. В частности, еще (к 1978) далеки от окончательного решения те задачи,, в к-рых результаты наблюдений xijk=cij+yijk не являются одинаково распределенными случайными величинами; еще более трудная задача возникает в случае зависимости величин xijk. Неизвестно решение проблемы выбора факторов (даже в линейном случае). Суть этой проблемы заключается в следующем: пусть с=с( и, v)- непрерывная функция и пусть u=u(z, wu=u(z, w)- какие-либо линейные функции от переменных г и w. Фиксируя значения z1, . .., zI и w1, . . ., wJ, можно при каждом заданном выборе линейных функций ии u. определить cij формулой и построить Д. а. этих величин по результатам соответствующих наблюдений xijk. Проблема заключается в отыскании таких линейных функций u и u, к-рым соответствует минимальное значение суммы квадратов

где (предполагается, что функция с( и, v )неизвестна). В терминах Д. а. эта проблема сводится к статистич. отысканию таких факторов z=z(u, vw-w(u, v), к-рым соответствует "наименьшее взаимодействие".

Лит.:[1] Fisher R. A., Statistical methods for research workers, Edinburgh, 1925; [2] Шеффе Г., Дисперсионный анализ, пер. с англ., М., 1963; [3] Xальд А., Математическая статистика с техническими приложениями, пер. с англ., М., 1956; [4] Снедекор Д ж. У., Статистические методы в применении к исследованиям в сельском хозяйстве и биологии, пер. с англ., М., 1961.

Л. Н. Большее.