Дисперсия дискретной случайной величины может быть представлена выражением

Обновлено: 19.05.2024

…из соображений гуманности сразу весь список :) Тема не самая простая, а точнее, кропотливая, но я научу вас БЫСТРО находить все перечисленные дисперсии, а также расскажу, что они означают и для чего нужны. Для освоения данного урока нужно понимать, что такое дисперсия и группировка данных (предыдущая статья) и уметь выполнять несложные расчёты. Впрочем, всё кратко повторим по ходу пьесы, и я немедленно начинаю разбирать материал:

По данным Примера 55 рассчитать общую, групповые, внутригрупповую и межгрупповую дисперсию


Напоминаю, что в той задаче нам были даны относительные показатели металлоёмкости станков (т/кВт):

и по исходным данным мы сразу вычислили общую среднюю:
т/кВт

Общая дисперсия – показатель не новый, и её мы уже неоднократно рассчитывали ранее. Для этого нужно найти квадраты отклонений вариант от общей средней:

вычислить их сумму и разделить её на объём совокупности:

Вычисления удобно проводить в Экселе, и чуть позже будет ролик по этой теме, буквально минут за 5 разгромим всю задачу.

Общая дисперсия характеризует меру рассеяния значений относительно общей средней . Чем дисперсия больше, тем дальше разбросаны от средней, и наоборот, чем дисперсия меньше, тем они к средней ближе.


Теперь вычислим групповые дисперсии. Для этого, очевидно, нужно разбить совокупность на группы, при этом группировку можно выполнить разными способами. В Примере 55 мы упорядочили варианты по возрастанию и провели удачную равнонаполненную группировку:

В результате получилось 5 групп объёмом , по которым мы рассчитали групповые средние:


И как вы правильно догадались, у нас будет 5 групповых дисперсий. По каждой группе своя. Для этого нужно рассчитать квадраты отклонений от СВОИХ групповых средних:

Тушеваться не надо, в Экселе мы эти вычисления выполним в несколько щелчков, и если вам не терпится посмотреть, как это происходит, то можно сразу перейти к видеоролику (см. ниже).

Таким образом, групповые дисперсии:

Групповая дисперсия характеризует меру разброса значений группы относительно групповой средней. В нашем примере наименьшей получилась дисперсия по 2-й группе: , это означает, что варианты этой группы расположены достаточно близко к . Максимальная дисперсия – в 5-й группе: , это означает, что многие варианты этой группы расположены достаточно далеко от .

внутригрупповая дисперсия – это средняя, а точнее средневзвешенная арифметическая групповых дисперсий:

И внимательный читатель заметил, что для нахождения внутригрупповой дисперсии не обязательно рассчитывать групповые дисперсии, ибо:
,
т.е. достаточно просуммировать числа нижней строки вышеприведённой таблицы.

Внутригрупповая дисперсия характеризует среднюю (средневзвешенную) вариацию значений по группам. Должен сказать, что название «внутригрупповая» не совсем удачное и часто вызывает путаницу, в немалом количестве источников под ним понимают групповую дисперсию, и это тоже вполне себе логично. И посему точнее звучит «средняя из групповых».

И, наконец, ещё одна дисперсия :)

Рассмотрим общую среднюю и групповые средние .

Межгрупповая дисперсия – это дисперсия групповых средних относительно общей средней:


Для компактности удобно оформить небольшую расчётную табличку:

Таким образом:

Межгрупповая дисперсия характеризует меру разброса групповых средних относительно общей средней. Чем эта дисперсия больше, тем дальше расположены групповые средние (многие из них) относительно общей средней .

Для общей, внутригрупповой и межгрупповой дисперсий справедливо так называемое правило сложение дисперсий:

, то есть общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсии.

Примечание: в различных источниках встречаются разные обозначения этих дисперсий, и, кроме того, слагаемые правой части могут быть переставлены.

Проверим, всё ли мы правильно подсчитали:

– получено верное равенство с точностью до погрешности округлений, таким образом, все дисперсии найдены верно.


Как вычислить дисперсии? (Ютуб)

И после изучения технической стороны вопроса вникнем в СМЫСЛ этих дисперсий.

Как отмечалось выше, общая дисперсия характеризует меру вариации всей совокупности. И здесь есть такой элементарный вопрос: а почему варианты вообще разные, почему значения варьируются? Очевидно, они варьируются под действием ряда ФАКТОРОВ (как неслучайных, так и случайных). Таким образом, общая дисперсия учитывает все причины (факторы), которые обуславливают вариацию. Так в примере со станками разная металлоёмкость обусловлена различными типами станков, разными «поколениями» оборудования, разными условиями эксплуатации и, скорее всего, и другими причинами. И общая дисперсия учитывает ВСЕ эти факторы.

Теперь смотрим на правило сложения дисперсий:
, то есть, общая дисперсия включает в себя внутригрупповую и межгрупповую дисперсию.

Межгрупповая дисперсия характеризует вариацию, обусловленную фактором, который лёг в основу группировки.

Внутригрупповая дисперсия отражает вариацию, обусловленную другими факторами.

И даже если мы сгруппировали данные формально (как в нашем примере), то в основе группировки всё равно лежит некоторый группировочный фактор. Ибо числа-то в группах разные и тому есть причина! Условно предположим, что станки разбиты на 5 групп по их «поколениям» – от новейших до «древнейших». Тогда межгрупповая дисперсия отражает вариацию, обусловленную этим фактором (тем фактом, что станки принадлежат разным «поколениям»). А внутригрупповая дисперсия объясняется другими факторами.

Возникает вопрос: как оценить СУЩЕСТВЕННОСТЬ ВЛИЯНИЯ фактора, который лёг в основу группировки? Ответ очевиден: чем больше межгрупповая дисперсия , тем сильнее влияние группировочного фактора. И для оценки существенности влияния рассчитывают эмпирический коэффициент детерминации (причинности), равный отношению межгрупповой дисперсии к дисперсии общей:
( – греческая буква «эта»)

Этот коэффициент характеризует долю вариации, объяснённую группировочным фактором.

Таким образом, 85% вариации металлоёмкости объясняется тем фактом, что станки принадлежат разным «поколения», и оставшаяся часть вариации (15%) объясняется другими причинами.

Следует отметить, что это всего лишь одна из математических моделей. В том смысле, что мы можем рассмотреть другой группировочный фактор, провести новую группировку, подсчитать дисперсии и, возможно, тоже получить высокий коэффициент детерминации. И в этом не будет противоречия, ибо второй фактор по своей сути или через «перекрёстную взаимосвязь» может «накладываться» на фактор первой модели.

Эмпирический коэффициент детерминации изменяется в пределах , и чем он ближе к единице, тем сильнее влияние группировочного фактора на вариацию статистической совокупности. Если , то речь идёт о строгой функциональной зависимости, в этом случае , то есть внутригрупповая дисперсия (по правилу сложения) равна нулю: , и это в свою очередь означает, что в каждой группе находятся одинаковые и строго определённые значения (т.е. вариация по группам отсутствует).

Наоборот, чем ближе к нулю, тем влияние группировочного фактора меньше; математически это означает, что межгрупповая дисперсия слишком малА, а это в свою очередь значит, что групповые средние расположены очень близко к общей средней . И логика здесь простА: если мы провели группировку и получили примерно одинаковые средние по группам, то влияние фактора явно слабО. Но это ещё не значит, что сам фактор не важный ;)

Об этом и других коэффициентах мы ещё поговорим, даже отдельный урок можно организовать, а пока вернёмся к нашим дисперсиям. Как вы знаете, дисперсию можно вычислить по определению или по формуле, и поэтому в разных задачах вы можете встретить разные формулы. Кроме того, вам могут быть предложены различные вариационные ряды, например, ряды не просто с «одиночными» вариантами, но ещё и с частотами по каждой группе:


Распределение рабочих трех заводов одного объединения по тарифным разрядам характеризуется следующими данными:

Определить:
а) общую дисперсию;
б) дисперсию по каждому заводу (групповые дисперсии);
в) среднюю из групповых дисперсий (внутригрупповую дисперсию);
г) межгрупповую дисперсию;
д) проверить правило сложения дисперсий
е) вычислить эмпирический коэффициент детерминации и сделать вывод о том, насколько значимо различается квалификация рабочих на заводах. Иными словами, нужно выяснить, нанимали ли на какие-то заводы более квалицированных рабочих, чем на другие, или же квалификация по заводам примерно одинакова?

Числа и шаблон уже в Экселе! Вам остаётся только выполнить вычисления. По существу, в условии даны три (даже четыре) дискретных вариационных ряда, и по каждому из них требуется рассчитать среднюю и дисперсию. Дисперсии удобно найти по формуле; формулы набираем один раз и размножаем их через «Копировать - Вставить» (см. видеоролик выше). Желаю успехов!

Для интереса засёк время – все вычисления у меня заняли чуть меньше трёх минут! И это в такой-то «страшной» задаче. А эта «страшная» задача, к слову, была предложена заочникам; очников «кошмарят» гораздо хуже. Там и групп может быть с десяток и чисел больше, 100-200. В относительно «лёгких случаях» групп обычно не более пяти.

Следует отметить, что разобранные дисперсии используются и в других задачах математической статистики, где их нужно рассчитывать немного с другой спецификой. И эти задачи уже на подходе ;) На следующем уроке мы познакомимся с аналитической группировкой и гармонично разовьём тему с дисперсиями. Надеюсь, они вам понравились :)

Решения и ответы:


Пример 60. Решение: а) Заполним расчётную таблицу:

Вычислим общую среднюю: (значение вычислено примерно, но далее для простоты я буду ставить знаки «равно»).
Вычислим общую дисперсию:


б) Заполним расчётную таблицу для каждой группы:

Найдем средние значения тарифного разряда по заводам (групповые средние):

Вычислим групповые дисперсии:
;

в) Вычислим среднюю из групповых (внутригрупповую) дисперсию:


г) Для нахождения межгрупповой дисперсии удобно заполнить расчётную табличку:

или расписать так:

д) Проверим правило сложения дисперсий:
(см. пункт «а»), что и требовалось проверить

е) Вычислим эмпирический коэффициент детерминации:
, примерно ноль.

Таким образом, средняя квалификация рабочих по заводам практически одинакова (иными словами, фактор, положенный в основу группировки (распределение рабочих по заводам) не оказывает никакого влияния – нельзя сказать, что на какой-то завод специально нанимали более квалифицированных рабочих).

! Примечание: но группировочный фактор сам по себе важен, поскольку распределяет рабочих по заводам. Только вот на тарифные разряды это практически не влияет.

Автор: Емелин Александр

(Переход на главную страницу)


«Всё сдал!» — онлайн-сервис помощи студентам

Читайте также: