Программы и методики для статистического анализа

YouTube

Программно-методическое обеспечение статистического анализа данных по дням рождений

Буду выкладывать сюда ссылки на методики расчетов, формулы, тестовые примеры, алгоритмы, ссылки на описания ресурсов, и т.д. и т.п.

Если у кого-то найдутся дополнения, альтернативные предложения - всегда пожалуйста.

Первое, что делаю - лист экселя для расчета (по дню рождения) имиджа:

<a onclick="this.target='_blank';" rel="nofollow" class="postlink zip_link" href="http://www.theoretical-history.ru/forum ... ag2010.rar

Потом дополню его расчётом дня недели, структур, и проч..

Кто-то может не понять, зачем - ведь на главной странице сайта это есть. Но там это через интернет, во-первых. Что не всегда.

Во-вторых - неудобно так обсчитывать список.
У меня такие списки появляются регулярно - по 100, по 500, а то и по несколько тысяч человек. Думаю, что всё больше нас таких будет, с громадными списками. Может каждый из новичков сам захочет всё запрограммировать - бог ему в помощь. А кто-то, думаю большинство, захотят быстрее получить результаты. Вот для них-то сюда и складываю заготовки программного обеспечения гороскописта.
Так сказать, будем формировать инструментарий рабочего места СГ-шника.

Скоро выложу расчет параметров распределений имиджей и сравнение распределений имиджей.
Такая программа давно используется коллегами, но для общего пользования ещё не выставлялась. Её ещё оформить нужно.

Я эту тему тоже прилеплю.

YouTube

Часть вторая

А вдруг последняя? в смысле, что это никому не нужно?

Вот думаю, что не все могут решиться попросить программы, которыми пользуюсь в расчётах. А если какую-то часть выложить в открытый эфир, то такого барьера вроде не должно возникнуть. Хотя как знать…

Во второй части выкладываю программку (тоже в экселе), для расчёта статистик (параметров, распределений, оценок надёжности) встречаемости по таблице имиджей, для разных их сочетаний и группировок. Все эти варианты были изобретены в попытках найти устойчивые зависимости и связи имиджей со свойствами взятой группы. Например, множество вариантов анализа подгрупп Шутов создавалось для проверки веселых людей. И так далее.

На самом деле были сгенерированы тысячи разных алгоритмов, большую часть из них я стёр. Пока что они не актуальны, да и для публичного распространения программки (т.е. листа экселя с формулами), все эти варианты слишком объемны.

Указания по использованию частично, очень кратко, присутствует прямо там, внутри. Но, скорее всего, без дополнительных разъяснений не обойтись. Так вот. Как только кто-то начнёт пробовать, и задавать конкретные вопросы, начну объяснять. Так и получится инструкция.

*http://www.s-horoscope.ru/BD/stat1-Publ.rar

Сообщение **Ёлка** » 23 мар 2010, 22:25

Давно уже задаюсь вопросом об оценке надежности какой-нибудь выборки. Как сформулирую еще вопросы, буду спрашивать( и учиться

)

YouTube

не знаю такого понятия - надёжность выборки

Есть , и это наверное то, о чём хотели спросить - репрезентативность - представительность выборки.
Но и эти понятия не существуют сами по себе - они работают в пределах какой-то задачи.

Например, мы ставим задачу выяснить, достоверно ли Шуты встречаются чаще, чем прочие имиджи. Подходов. рассуждая абстрактно, может быть много.
Самый простой - предположение о равной вероятности всех вариантов. Т.е. мы-то думаем. ч то Шуты чаще, но сравниваем с такой гипотезой: Шутов - столько же, как и прочих.
Нуль-гипотеза называется.
Ну, если всё так и есть, то есть всё ровно и случайно, то суммы случайностей (случайных выпадений сочетаний в клеточки таблички), должны накапливаться, и превращаться из равномерного распределения в нормальное - это согласно центральной предельной теореме вероятностей...

ну вот....
теперь смотрим среднюю и дисперсию у этих частот. Средняя - это число людей, которые оказались в данной клеточке делённое на общее число всех участвовавших в эсперименте. С поправками, разумеется, на гипотетическое соотношение тех количеств, которые должны были бы там быть, если б всё было равномерно....

Условий числовых много всяких, и они учтены. В предложенной табличке эксела stat1 можно открыть вкладку - например - Стркт.
Там расписаны вычисления средних. дисперсий и (главное!)
Диагнз. норм. распр.
Т.е. расчёт вероятности, что вычисленная фактически частота встречаемости НЕ соответсвует нормальному распределению.

Есть вариант и противоположной оценки. Это когда фактическая частота настолько мала, что гипотеза о том, что эта частота равно нулю подтерждается нормальным распределением.

Кроме оценки по нормальному распределению там же расчитываются параметры биноминального распределения.
Последнее, конечно, точнее отражает смысл наших задач. Но методики несколько другие, и чтобы не терять ориентацию во многообразии всех этих формул, я сохранил обе методики (оценки).
По нормальному закону - не столь надёжно, но понятнее. Биноминальное распределение - сложнее для понимания, но надёжнее.

Таких вкладок, с разными вычислениями, в программке stat1несколько. Они почти очевидны по содержанию.

Надо попробовать их пооткрывать, а потом, что не понятно, спросить.
Разумеется, прежде, чем там что-то будет считаться, надо ввести туда исходные данные.
Это делаем на вкладке в

Всё там просто, но надо внимательно относиться к строчкам и столбцам - ничего там передвигать нельзя - программа "испортится"

Принципиальны столбцы
год-з зодиак

т.е. Годовой знак и Зодиак. Они должны быть заданы в стандартных формах (языковых). Например: Петух, Собака, ...Водолей, Рыбы ... и т.д.

Остальное - для удобства.

Знаки удобно расчитывать по предыдущей программке -Z-Y-imag2010
Эта программка как раз и задаёт названия знаков нужным образом

Вернёмся на минутку к представитеьности выборки.
Да, можно поставить обратную задачу: предположить уровень надёжности наших выводов, например, об отклонении частоты встречаемости Шутов от случайного, и, зная фактические характеристики уже имеющихся данных спроектировать необходимый объём выборки.
Тут есть сложность: на самом деле нам не известны ни распределения, ни другие характеристики выборок. Мы будем вынуждены использовать в качестве сурогатных свойств наших выборок фактические среднии. Это ухудшает диагностические возможности методик.
Тем не менее, если у нас есть возможность увеличить объём выборки (экспериментальных данных) , то можно добраться до очень приличных уровней надёжности. Нужно только хорошо определиться, что именно мы хотим вычислять.

Сообщение **немо** » 22 ноя 2010, 11:25

Откуда вообще взялось векторное кольцо, есть в его основе какая-то статистика?
Понимаю, что вопрос глупый, но упорно у меня возникает. Свойство векторного кольца, что оно занимает 60 лет. Кто-нибудь рассматривал все другие варианты с таким качеством, просчитывал для них?
Да и как вообще просчитывать?
Книги Кваши полны примеров за. Примеров. А если старательно поискать примеры против.
Опять глупый вопрос: не сужаем ли мы поле поисков?
Этот раздел скорее заслуживает название тезаурус. И, читая примеры, не раз чувствую: откликаются те люди, у которых был именно вектор... Те же, у которых сильнейшие чувства были по другому поводу, просто молчат... Чувства вообще дело такое: если концентрироваться, то можно даже задним числом, через много лет влюбиться в давно как бы забытого человека. Тоже интересное занятие. Внедрение векторности в судьбу.

немо писал(а): Свойство векторного кольца, что оно занимает 60 лет.

Это как????

_ТATA · Сообщение **_ТATA** » 15 фев 2011, 19:07

leo7 писал(а):Тем не менее, если у нас есть возможность увеличить объём выборки (экспериментальных данных) , то можно добраться до очень приличных уровней надёжности. Нужно только хорошо определиться, что именно мы хотим вычислять.

Постановка задачи-полдела!
Подобную задачу решили в асторологии http://astrosociotypology.info/, http://ej.kubagro.ru/2008/01/pdf/10.pdf ... /index.htm

_ТATA · Сообщение **_ТATA** » 15 фев 2011, 19:13

немо писал(а):Откуда вообще взялось векторное кольцо, есть в его основе какая-то статистика?
Понимаю, что вопрос глупый, но упорно у меня возникает. Свойство векторного кольца, что оно занимает 60 лет. Кто-нибудь рассматривал все другие варианты с таким качеством, просчитывал для них?
Да и как вообще просчитывать?
Книги Кваши полны примеров за. Примеров. А если старательно поискать примеры против.
Опять глупый вопрос: не сужаем ли мы поле поисков?
Этот раздел скорее заслуживает название тезаурус. И, читая примеры, не раз чувствую: откликаются те люди, у которых был именно вектор... Те же, у которых сильнейшие чувства были по другому поводу, просто молчат... Чувства вообще дело такое: если концентрироваться, то можно даже задним числом, через много лет влюбиться в давно как бы забытого человека. Тоже интересное занятие. Внедрение векторности в судьбу.

Личное обояние и эрудиция автора создали то, что теперь называют СГ, а статистический анализ-неблагодарное и нудное дело- удел Фомы неверующей. И поле здесь - практически непаханное. Опрос общественного мнения Кабанов и Петухов о Собаках делу не поможет, потому что тоже нуждается в систематизации.

Сообщение **A1exander** » 28 ноя 2011, 08:41

leo7 писал(а):Программно-методическое обеспечение статистического анализа данных по дням рождений

Буду выкладывать сюда ссылки на методики расчетов, формулы, тестовые примеры, алгоритмы, ссылки на описания ресурсов, и т.д. и т.п.

Если у кого-то найдутся дополнения, альтернативные предложения - всегда пожалуйста.

Первое, что делаю - лист экселя для расчета (по дню рождения) имиджа:

<a onclick="this.target='_blank';" rel="nofollow" class="postlink zip_link" href="http://www.theoretical-history.ru/forum ... ag2010.rar

Нужно на 20 000 людей чтобы работала, а там только 730. Как можно расширить?