Математический словарь

" 0 C F G H K L N P S T W Z А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Значение МАТЕМАТИЧЕСКАЯ СТАТИСТИКА в математической энциклопедии:

раздел математики, посвященный математич. методам систематизации, обработки и использования статистич. данных для научных и практич. выводов. При этом статистич. данными наз. сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Предмет и метод математической статистики. Статистич. описание совокупности объектов занимает промежуточное положение между индивидуальным описанием каждого из объектов совокупности, с одной стороны, и описанием совокупности по ее общим свойствам, совсем не требующим ее расчленения на отдельные объекты, с другой. По сравнению с первым способом статистич. данные всегда в большей или меньшей степени обезличены и имеют лишь ограниченную ценность в случаях, когда существенны именно индивидуальные данные (напр., учитель, знакомясь с классом, получит лишь весьма предварительную ориентировку о положении дела из одной статистики числа выставленных его предшественником отличных, хороших, удовлетворительных и неудовлетворительных оценок). С другой стороны, по сравнению сданными о наблюдаемых извне суммарных свойствах совокупности статистич. данные позволяют глубже проникнуть в существо дела. Напр., данные гранулометрич. анализа порвды (т. е. данные о распределении образующих породу частиц по размерам) дают ценную дополнит. информацию по сравнению с испытанием нерасчлененных образов породы, позволяя в нек-рой мере объяснить свойства породы, условия ее образования и пр.

Метод исследования, опирающийся на рассмотрение статистич. данных о тех или иных совокупностях объектов, наз. статистическим. Статистич. метод применяется в самых различных областях знания. Однако черты статистич. метода в применении к объектам различной природы столь своеобразны, что было бы бессмысленно объединять, напр., социально-экономич. статистику, физич. статистику, звездную статистику и т. п. в одну науку.

Общие черты статистич. метода в различных областях знания сводятся к подсчету числа объектов, входящих в те или иные группы, рассмотрению распределения количественных признаков, применению выборочного метода (в случаях, когда детальное исследование всех объектов обширной совокупности затруднительно), использованию теории вероятностей при оценке достаточности числа наблюдений для тех или иных выводов и т. п. Эта формальная математич. сторона статистич. методов исследования, безразличная к специфич. природе изучаемых объектов, и составляет предмет М. с.

Связь математической статистики с теорией вероятностей. Связь М. с. с теорией вероятностей имеет в разных случаях различный характер. Вероятнвстей теория изучает не любые массовые явления, а явления случайные и именно "вероятностно случайные", т. е. такие, для к-рых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее теория вероятностей играет определенную рель и при статистич. изучении массовых явлений любой природы, к-рые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и ошибок теорию. В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приемы их исследования.

Более важную роль играет теория вероятностей при статистич. исследовании вероятностно случайных явлений. Здесь в полной мере находят применение такие основанные на теории вероятностей разделы М. с., как статистических гипотез проверка, статистическое оценивание распределений вероятностей и входящих в них параметров и т. д. Область же применения этих более глубоких статистич. методов значительно уже, т. к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно определенным вероятностным закономерностям. Напр., статистич. изучение режима турбулентных водных потоков или флюктуации в радиоприемных устройствах производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам в виду того, что входящее в определение стационарного процесса допущение наличия сохраняющихся в течение длительного времени неизменных распределений вероятностей в этом случае, как правило, совершенно неприемлемо. Вероятностные закономерности получают статистич. выражение (вероятности осуществляются приближенно в виде частот, а математич. ожидания - в виде средних) в силу закона больших чисел.

Простейшие приемы статистического описания. Изучаемая совокупность из побъектов может по какому-либо качественному признаку Аразбиваться на классы А ₁, А₂, ... , А _r. Соответствующее этому разбиению статистич. распределение задается при помощи указания численностей (частот) n₁, n₂, ... , n_r (где ) отдельных классов. Вместо численностей n_i часто указывают соответствующие относительные частоты (частости) h_i=n_i/n (удовлетворяющие, очевидно, соотношению ). Если изучению подлежит нек-рый количественный признак, то его распределение в совокупности из побъектов можно задать, перечислив непосредственно наблюденные значения признака: x₁,x₂, ..., х _п, напр., в порядке их возрастания. Однако при больших n такой способ громоздок и в то же время не выявляет отчетливо существенных свойств распределения. При сколько-либо больших пна практике обычно совсем не составляют полных таблиц наблюденных значений x_i, а исходят во всей дальнейшей работе из таблиц, содержащих лишь численность классов, получающихся при группировке наблюденных значений по надлежаще выбранным интервалам.

Обычно группировка по 10-20 интервалам, в каждый из к-рых попадает не более 15-20% значений x_i, оказывается достаточной для довольно полного выявления всех существенных свойств распределения и надежного вычисления по групповым численностям основных характеристик распределения (см. о них ниже). Составленная по таким группированным данным гистограмма наглядно изображает распределение. Гистограмма, составленная на основе группировки с маленькими интервалами, обычно многовершинная и не отражает наглядно существенных свойств распределения.

В качестве примера на рис. 1 дана гистограмма распределения 200 диаметров нек-рой детали (в мм), обнаруженного при статистич. исследовании массовой продукции при длине интервала группировки 0,05 мм, а на рис. 2 - гистограмма того же распределения при интервале 0,01 мм. С другой стороны, группировка по слишком крупным интервалам может привести к потере ясного представления о характере распределения и к грубым ошибкам при вычислении среднего и других характеристик распределения (см. соответствующую гистограмму на рис. 3).

В пределах М. с. вопрос об интервалах группировки может быть рассмотрен только с формальной стороны:

полноты математич. описания распределения, точности вычисления средних по сгруппированным данным и т. д.

Простейшими сводными характеристиками распределения одного количественного признака являются среднее

и среднее квадратичное отклонение

где

При вычислении по группированным данным пользуются формулами

или

где т - число интервалов группировки, а _k - их середины. Если материал сгруппирован по слишком, крупным интервалам, то такой подсчет дает слишком грубые результаты.

Иногда в таких случаях полезно прибегать к специальным поправкам на группировку. Однако эти поправки имеет смысл вводить лишь при условии выполнения определенных вероятностных предположений.

О совместных распределениях двух и большего числа признаков см. статьи Корреляция. Регрессия.

Связь статистических распределений с вероятностными. Оценка параметров. Проверка вероятностных гипотез. Выше были изложены лишь нек-рые избранные простейшие приемы статистич. описания, представляющего собой довольно обширную дисциплину с хорошо разработанной системой понятий и техникой вычислений. Приемы статистич. описания интересны, однако не сами по себе, а в качестве средства для получения из статистич. материала выводов о закономерностях, к-рым подчиняются изучаемые явления, и о причинах, приводящих в каждом отдельном случае к тем или иным, наблюденным статистич. распределениям.

Напр., данные, нанесенные на графики на рис. 1, 2, 3, собраны с целью установления точности изготовления деталей, расчетный диаметр к-рых равен 13,40 мм, при нормальном ходе производства. Простейшим допущением, к-рое может быть в этом случае обосновано не-к-рыми теоретич. соображениями, является предположение, что диаметры отдельных деталей можно рассматривать как случайные величины X, подчиненные нормальному распределению вероятностей:

Если это допущение верно, то параметры a и s² - среднее и дисперсию вероятностного распределения - можно с достаточной точностью оценить по соответствующим характеристикам статистич. распределения (т. к. число наблюдений n=200 достаточно велико). В качестве оценки для теоретич. дисперсии s² предпочитают не статистич. дисперсию

а несмещенную оценку

Для теоретич. среднего квадратичного отклонения s. не существует общего (пригодного при любом распределении вероятностей) выражения несмещенной оценки. В качестве оценки (вообще говоря, смещенной) для s чаще всего употребляют s. Точность оценок и s для аи s указывается соответствующими дисперсиями, к-рые в случае нормального распределения (1) имеют вид

тде знак обозначает приближенное равенство при больших п. Таким образом, уславливаясь прибавлять к оценкам со знаком их среднее квадратичное отклонение, имеем при больших пв предположении нормального распределения (1):

Объем выборки n=200 достаточен для законности пользования этими формулами теории больших выборок.

Дальнейшие сведения об оценке параметров теоретич. распределений вероятностей см. в статьях Статистическая оценка, Доверительное оценивание.

Все основанные на теории вероятностей правила статистич. оценки параметров и проверки гипотез действуют лишь с определенным значимости уровнемw<1, т. е. могут приводить к ошибочным результатам с вероятностью a=1-w. Напр., если в предположении нормального распределения и известной теоретич. дисперсии s² производить оценку апо по правилу

то вероятность ошибки будет равна а, связанному с kХсоотношением:

Вопрос о рациональном выборе уровня значимости в данных конкретных условиях (напр.. при разработке правил статистического контроля качества массовой продукции) является весьма существенным. При этом желанию применять правила лишь с высоким (близким к единице) уровнем значимости противостоит то обстоятельство, что при ограниченном числе наблюдений такие правила позволяют сделать лишь очень бедные выводы (не дают возможности установить неравенство вероятностей даже при заметном неравенстве частот и т. д.).

Дальнейшие задачи математической статистики. Упоминавшиеся выше способы оценки параметров и проверки гипотез основаны на предположении, что число наблюдений, необходимых для достижения заданной точности выводов, определяют заранее (до проведения испытаний). Однако часто априорное определение числа наблюдений нецелесообразно, т. к., не фиксируя число опытов заранее, а определяя его в ходе эксперимента, можно уменьшить его математич. ожидание. Сначала это обстоятельство было подмечено на примере выбора одной из двух гипотез по последовательности независимых испытаний. Соответствующая процедура (впервые предложенная в связи с задачами приемочного статистического контроля) состоит в следующем: на каждом шаге по результатам уже проведенных наблюдений решают а) провести ли следующее испытание, или б) прекратить испытания и принять первую гипотезу, или в) прекратить испытания и принять вторую гипотезу. При надлежащем подборе количественных характеристик подобной процедуры можно добиться (при той же точности выводов) сокращения числа наблюдений в среднем почти вдвое по сравнению с процедурой выборки фиксированного объема (см. Последовательный анализ). Развитие методов последовательного анализа привело, с одной стороны, к изучению управляемых случайных процессов, с другой - к появлению статистических решений теории. Эта теория исходит из того, что результаты последовательно проводимых наблюдений служат основой принятия нек-рых решений (промежуточных - продолжать испытания или нет, и окончательных - в случае прекращения испытаний). В задачах оценки параметров окончательные решения суть числа (значение оценок), в задачах проверки гипотез - принимаемые гипотезы. Цель теории - указать правила принятия решений, минимизирующих средний риск или убыток (риск зависит и от вероятностных распределений результатов наблюдений, и от принимаемого окончательного решения, и от расходов на проведение испытаний и т. п.).

Вопросы целесообразного распределения усилий при проведении статистич. анализа явлений рассматриваются в теории планирования эксперимента, ставшей важной частью современной М. с.

Наряду с развитием и уточнением общих понятий М. с. развиваются и ее отд. разделы, такие как дисперсионный анализ, ковариационный анализ, многомерный статистический анализ, статистический анализ случайных процессов, факторный анализ. Появились новые оценки в регрессионном анализе (см. также Стохастическая аппроксимация). Большую роль в задачах М. с. играет бейесовский подход к статистич. задачам.

Историческая справка. Первые начала М. с. можно найти уже в сочинениях создателей теории вероятностей - Я. Бернулли (J. Bernoulli), П. Лапласа (P. Laplace) и С. Пуассона (S. Poisson). В России методы М. с. в применении к демографии и страховому делу развивал на основе теории вероятностей В. Я. Буняковский (1846). Решающее значение для всего дальнейшего развития М. с. имели работы русской классич. школы теории вероятностей 2-й пол. 19 - нач. 20 вв. (П. Л. Чебышев, А. А. Марков, А. М. Ляпунов, С. Н. Бернштейн). Многие вопросы теории статистич. оценок были по существу разработаны на основе теории ошибок и метода наименьших квадратов [К. Гаусс (С. Gauss) и А. А. Марков]. Работы А. Кетле (A. Quetelet), Ф. Гальтона (F. Gallon) и К. Пирсона (К. Pearson) имели большое значение, но по уровню использования достижений теории вероятностей отставали от работ русской школы. К. Пирсоном была широко развернута работа по составлению таблиц функций, необходимых для применения методов М. с. Эта важная работа была продолжена во многих научных центрах (в СССР она велась усилиями Е. Е. Слуцкого, Н. В. Смирнова и Л. Н. Болыдева). В создании теории малых выборок, общей теории статистич. оценок и проверки гипотез (освобожденной от предположений о наличии априорных распределений), последовательного анализа весьма значительна роль представителей англоамериканской школы [Стьтодент (Student, псевд. У. С. Госсета, W. S. Cosset), P. Фишер (R. Fisher), Э. Пирсон (Е. Pearson), Ю. Нейман (J. Neyman)], деятельность к-рых началась в 20-х гг. 20 в. В СССР значительные результаты в области М. с. получены В. И. Романовским, А. Н. Колмогоровым, Е. Е. Слуцким, к-рому принадлежат важные работы по статистике связанных стационарных рядов, Н. В. Смирновым, заложившим основы теории непараметрич. методов М. с., Ю. В. Линником, обогатившим аналитич. аппарат М. с. новыми методами. На основе М. с. особенно интенсивно разрабатываются статистич. методы исследования и контроля массового производства, статистич. методы в области физики, гидрологии, климатологии, звездной астрономии, биологии, медицины и др.

Лит.:[1] Смирнов Н. В., Дунин-БарковскийИ. В., Курс теории вероятностей и математической статистики для технических приложений, 3 изд., М., 1969; [2] Б о л ь ш е в Л. Н., Смирнов Н. В., Таблицы математической статистики, [2 изд.], М., 1968; [3] Ван-дер-Варден Б. Л., Математическая статистика, пер. с нем., М., 1960; [4] Крамер Г., Математические методы статистики, пер. с англ., (2 изд.), М., 1975; [5] X а л ь д А., Математическая статистика с техническими приложениями, пер. с англ., М., 1956; [6] К е н д а л л М., С т ь ю а р т А., Теория распределений, пер. с англ., М., 1966; [7] их же, Статистические выводы и связи, пер. с англ., М., 1973; [8] их же, Многомерный статистический анализ и временные ряды, пер. с англ., М., 1976.

См. также лит. при статьях о разделах М. с.

А. Н. Колмогоров, Ю. В. Прохоров.