Оценка надёжности отклонения от равномерного распределения

Оценка надёжности отклонения от равномерного распределения

По мотивам статьи ТаниТы пишу своё дополнение.

Методика ни в коем случае не предполагает, что ожидается равномерное распределение.
Напротив: тут проверяется надёжность того, что данные отклонились от равномерности. Зачем это надо? Если мы узнаем, что да, наши наблюдения не соответствуют равномерному распределению, то идём дальше: строим конкретные модели распределения, уже учитывая полученные результаты. Например, в нашем случае знак «Петух» оказался с 99%-й надёжностью представлен в выборке меньше прочих. Значит, о соответствующей группе можно сказать:

- им льготы требуются в существенно меньшем объёме;

- или не предоставляются в нужном.

Льгт. Камч.кр. на 01.03.2011
Всего: % к норме средняя сигма Диагнз. норм. распр. Вероятн.равн.распр. %
ГодЗнак кол. % от 0 до (меньше) … точное
знач. …
больше
Петух 809 7.2 -10.9 908.3 28.9 <3δ 0.0 0.00 100.0
Собака 958 8.5 -1.2 970.1 29.8   33.8 1.24 65.0
Кабан 943 8.4 3.8 908.3 28.9   88.1 0.67 11.2
Крыса 1066 9.5 9.6 972.6 29.8 >3δ 99.9 0.01 0.1
Бык 1009 8.9 11.1 908.3 28.9 >3δ 100.0 0.00 0.0
Тигр 1022 9.1 5.4 970.1 29.8   95.7 0.29 4.0
Кот 1002 8.9 10.3 908.3 28.9 >3δ 99.9 0.01 0.1
Дракон 999 8.9 2.7 972.6 29.8   80.7 0.90 18.4
Змея 926 8.2 1.9 908.3 28.9   72.5 1.14 26.4
Лошадь 908 8.1 -6.4 970.1 29.8 <2δ 1.7 0.15 98.1
Коза 780 6.9 -14.1 908.3 28.9 <3δ 0.0 0.00 100.0
Обезьяна 856 7.6 -12.0 972.6 29.8 <3δ 0.0 0.00 100.0
Всего: 11278 100.0 11278.0

Такие модели изучал ещё Я. Бернулли (закон больших чисел). Для построения теоретических оценок важно, чтоб вероятность выпадения нужного варианта сохранялась (т.е. не менялась по ходу исследования). Тогда имеем формулы:

 

где:

p - вероятность появления объекта X при единичном испытании;

n - число появлений объекта  при N наблюдениях,

D - дисперсия,

M - математическое ожидание.

Разберём годовые знаки. Во всей выборке имеется 11278 наблюдений, поэтому рождённых в год Петуха должно быть 11278:12. Т.е. вероятность появления «Петухов» должна быть 1:12 = 8.33% (как и всех остальных знаков). Почему?

Вы ведь не верили в гороскопы? И мы не верим. Т.е. никакой особой заслуги у этой группы нет, и частота её появления в выборке определяется лишь случайным стечением обстоятельств, которые знать ничего не должны о гороскопах. Поэтому все возможные факторы действуют всегда на любые выборки с одинаковой силой и вероятностью.

Значит, все знаки должны встречаться в равной мере.

На самом деле в точности так не будет – из-за необходимости вносить поправки на разную длительность годов. Аналогично надо корректировать расчёты в соответствии с длительностями Зодиаков.

Могут быть и другие причины корректировки «нормативной» вероятности (p) - единичного появления события исследуемого знака. Например, дополнительные вычисления могут указать на то, что её значения должны быть больше, чем равная доля (в общей сумме).

При увеличении объёма выборки распределение числа совпадений приближается к нормальному закону (теорема Лапласа). Формулы для математического ожидания и дисперсии тоже давно известны.

Тут можно использовать правило «трёх сигм» - оно задаёт 99,7% интервал надёжности выводов.

«Три сигмы» используют, памятуя: если правило скажет: «всё отлично, наблюдения неслучайны», значит так и есть. Совсем другое дело - когда не скажет.

Это как у врачей: «возбудитель не найден» - не означает здоровья. Означает: то ли здоров, то ли нет. А может, искать не умеют?

«Две сигмы», соответственно, укажут на 95%-ю надёжность выводов об отклонении от средней – при равномерном распределении (или от средней нормы).

Учтя все упомянутые соображения, скорректируем расчет доли знака Петух в выборке (если они, конечно, должны встречаться с такой же вероятностью, как и прочие). Получим 8.05%, вместо 8.33%. Откуда такой скачок?

На всякий случай напомню, что в принятой системе (структурный гороскоп), год Петуха длится всего лишь 353 дня. Т.е. он короче средней длительности года, а значит, и число рождённых в этом году среди населения будет меньше (опять же, при условии равномерности таких событий, и отсутствии какой-либо связи с датами рождения, т.е. гороскопами).

Вот теперь этот норматив и можно будет сравнивать с фактическими данными. Именно такая доля (8.05%), с учётом длительности года, и взята для сравнения с реальными данными - 7.2%. При таком сравнении получается, что рождённых в год Петуха почему-то слишком, катастрофически мало… Т.е. алгоритм сравнения на основе математической статистики показывает, и с большой надёжностью, невозможность такого малого числа (при равномерном случайном распределении).

Значит? Значит этих Петухов мало НЕ случайно. И они, птицы этакие, почему-то реагируют на гороскоп, хотя и понятия о нём не имеют.

Комментарии

Лео, спасибо, понятно всё нам химикам- не математикам))))
Будет ещё разбор полётов? по имиджам?

конечно будет. И не только по имиджам, там много чего было...

Админ

Не поняла как искать в архиве публикации. Я же помню, что весной они у вас были - такие интересные публикации про знаки, разнесённые по различным структурам. Это было очень удобно для использования. Я частенько применяла это в угадайках. А сейчас вот не смогла найти, сколько не искала. Вы что их удалили? Или я что-то не пойму.

по архиву неудобно искать. я его вообще собираюсь сделать только для каких-то особых ситуаций.
Искать лучше по оглавлению всех статей, и т.д.
Чуть по-позже сделаю, что надо.
Можно, кстати, пока искать через библиотеку, где книги. Ещё можно искать через личную панель пользователя - там есть вкладка "Следить" - в ней перечисляется все, чего человек касался (читал или создавал). В результате там есть перечень всего, что вас когда-то интересовало.
Конечно, надо с этим разобраться нормально - и Бенно давно делал замечание.

Админ