База данных по Новосибирску

Закрыто
Аватара пользователя
Л. Росток
Администратор
Сообщения: 21310
Зарегистрирован: 01 янв 1970, 10:01
Благодарил (а): 6430 раз
Поблагодарили: 4745 раз

База данных по Новосибирску

Сообщение Л. Росток » 22 май 2010, 11:47

Всего исходная база 640 Мгб.
Была в свободной продаже на компьютерном рынке, поэтому можно считать её свободно распространяемой.
Это не официальный источник, хотя явно прослеживается, что это стало основой для базы, что готовили к переписи населения (и, скорее всего, продолжают её заполнять).

Всего, после очистки от явных ошибок - с отсутствующими или явно неверными датами, - осталось 1122914 записи.
Удалил около 100 записей, исправил менее 150.
Выборочная проверка по 20 лично знакомым подтвердила (частично, разумеется), истинность данных.

Файл с нулевыми днями и месяцами рождений (только года): общий объём = 862977 записи.

Файл с НЕ нулевыми данными по дням и месяцам рождений: всего объём = 259937 записей.

Гистограмма годов рождений по Новосибирску (по файлу с нулевыми днями и месяцами рождений):

Изображение

Основная часть жителей указана по годам рождения с 1925 по 1980. Т.е. охват в около 55 лет - получается, что на прочих просто не введенны сведения. Хотя окончание периода заполнения этой базы примерно 1999 год.

Поскольку есть некие регистрационные номера (идущие, как правило, подряд для членов одной семьи), и следующие в близком соседстве для проживающих в одном доме, а также собственно адреса, то есть возможность во многих случаях определить семейные пары.
Все люди равны, но все — разные. И вы — тоже.

Аватара пользователя
Л. Росток
Администратор
Сообщения: 21310
Зарегистрирован: 01 янв 1970, 10:01
Благодарил (а): 6430 раз
Поблагодарили: 4745 раз

Re: База данных по Новосибирску

Сообщение Л. Росток » 22 май 2010, 11:49

армен писал(а):Это очень интересно :) Проверить семейные пары по СГ. :!: Какие типы браков продолжительны,какие знаки чаще впрягаются в семейное ярмо,притягиваются.В общем,кто с кем дольше живет.Конечно,это не говорит о качестве жизни,но дает представление,какие знаки уживаются друг с другом-хотя бы статистически. :D

Всё это на самом деле интересно. Но копаться и разбираться ещё есть что.
Например, сравнение графиков числа рождений по годам. тут две состовляющие:
- первая большая - где даты полностью не указаны.
- в три раза меньшая - с датами.

Они, в сумме и по отдельности, кажется, повторяют общероссийскую динамику рождений (в период с 1925 по 1980 - примерно):

Изображение

А вот как интересно ведут себя числа рождений:

Изображение

С 1 (первым) днём каждого месяца вообще-то можно понять. Надеюсь, это всё же в большей степени первоянварские - куда сбрасывали всех, у кого не известен день.

Тем более, что собственно январь тоже слишком уж выпирает:

Изображение


Но чего и как надо думать о 31 ?
А о 5, 10, 15, 20 и 25 числах?
Это что, любовь народа к круглым числам?
Которого народа: который записывает населению даты, или того, который само население? И оно само требует для себя таких дат?
загадочки...
Mowgli писал(а):
leo7 писал(а):Но чего и как надо думать о 31 ?
В половине месяцев нет 31-х чисел, поэтому родившихся 31-го должно быть примерно вдвое меньше. А в феврале нет 30-го, поэтому 30-го (в отличие от 5, 10, 15, 20 и 25) и нет всплеска.
я примерно такое и думаю, Маугли. Но продолжаю подозревать анамалию.
Подозрения собираюсь развеять так:
хочу смоделировать равномерное распределение дат, и посмотреть, как бы легли статистики в таком, равномерном случае. Вот тогда и решим, кто виноват.
Все люди равны, но все — разные. И вы — тоже.

Аватара пользователя
Л. Росток
Администратор
Сообщения: 21310
Зарегистрирован: 01 янв 1970, 10:01
Благодарил (а): 6430 раз
Поблагодарили: 4745 раз

Re: База данных по Новосибирску

Сообщение Л. Росток » 22 май 2010, 11:50

армен писал(а):Лео,ну как -есть продвижки по этой базе? что интересного выкопали? :?
ох... :)
там каждый шаг - как по миному полю :)

эта песня долгая. Рад уже тому, что выяснил "ядро" в данных, в котором можно быть более-менее уверенным. Например, убедился, что, ещё больше, чем в общероссийской статистике, 1 января фальшивка.
Т.е., как считал раньше, и как некоторый эксперты заявляли, в целом по России превышение случаев рождений 01.01(фальсифицированное, разумеется) всего в 4 раза превышает возможную норму. А в этой, новосибирской базе дата 01.01 превышает среднее в 10-30 раз. Что явно ближе к практике - ведь тут есть не только фальсикация дней рождений, но и просто ошибки учёта.

Изображение


Утомительное занятие выдумывать алгоритмы фильтрации вранья.
Надо ж ещё так отфильтровать, чтоб потом хоть что-то с остатком сделать можно было...

Например, посмотрите на фантастические замки на таком рисунке (до 1931 года).

Изображение


Изображение


Я думаю, что это результаты путаницы значений года, дня и месяца. Но как проверить, и как исправить - пока не знаю. Просто выкинуть все данные до 1931 года? Жалко...в кои-то веки есть слепки реальности, и разбрасываться ими не хочется...
Все люди равны, но все — разные. И вы — тоже.

Anders
Сообщения: 76
Зарегистрирован: 01 сен 2010, 07:29

Re: База данных по Новосибирску

Сообщение Anders » 01 сен 2010, 08:33

Здравствуйте, Leo7
Не могли бы Вы уточнить, что представляет собой эта база данных по Новосибирску? От этого зависит объяснение наблюдаемых распределений частот. Судя по тому, что я вижу, это может быть справочник типа "Кто есть кто в Новосибирске" или список лиц прописанных/проживающих в Новосибирске на какую-то дату. Одним словом, список живых (без умерших), актуальная, а не историческая выборка.
Я изучал календарные и астрологические распределения дат рождений персоналий справочника "Кто есть кто в Украине" (по состоянию на 1996 г.). За исключением периода до 1920 г. картина идентичная.
Выясняя конкретные причины существенных колебаний рождаемости по годам, месяцам, дням и т.д. , обнаружил следующее:
1. "Ямы" в начале 30-х и 40-х - демографические, связанные со снижением рождаемости и ростом детской смертности в эти годы (репрессии, голод, войны). "Яма" в середине 60-х - вторичное демографическое последствие военных 40-х. Рискну предположить, что ненормально высокий процент родившихся до 1920 г. в Новосибирске может быть связан с более ранними или поздними миграционными притоками в те края. Наиболее вероятная причина зависит от типа выборки. Во-всяком случае миграции, которые могли бы дать такую картину имели место быть. Более банальная причина - "мертвые души" (умершие) из-за плохого учета или по другим причинам.
2. Процент родившихся 1 января (особенно) и 1 мая в несколько раз выше среднего. Такие же аномалии по другим числам приходятся на православные религиозные праздники. Причины разные, но все регистрационные. Основных две: 1) нежелание терять год и запись (особенно девочек) родившихся 31 декабря 1 января; 2) реконструкция дня рождения задним числом при получении паспорта (в сельской местности)
[size=85]Будешь верить в гороскоп - попадешь под перископ![/size]

Аватара пользователя
Azazello
Сообщения: 8885
Зарегистрирован: 01 янв 1970, 06:33
Поблагодарили: 7 раз

Re: База данных по Новосибирску

Сообщение Azazello » 01 сен 2010, 13:28

Anders писал(а):реконструкция дня рождения задним числом при получении паспорта (в сельской местности)
я знаю несколько случаев, когда в крупных городах-мегаполисах двигают дату при регистрации, по тем или иным причинам. В Ленинграде брежневского времени, Люберцах, два случая в Москве. Есть большие подвижки: рожденный 27 декабря 1951 зарегистрирован на 6 января 1952, если не ошибаюсь. Слава богу, что определить векторного Кота, вместо Дракона-Вождя в данном случае было проще простого. В роддоме ночную девочку 13 января сами врачи предложили записать на 14-е, мать отказалась. А ведь тоже пограничница – Обезьяна-Коза.
Anders писал(а):1 мая.......аномалии по другим числам приходятся на православные религиозные праздники
спасибо, удивили. Буду знать. Совсем обнаглели.

01 сен 2010, 13:33
[/size]
leo7 писал(а):дата 01.01 превышает среднее в 10-30 раз. Что явно ближе к практике - ведь тут есть не только фальсикация дней рождений, но и просто ошибки учёта.
жалко было чернил, чтобы после "1" написать еще цифру?

Аватара пользователя
Л. Росток
Администратор
Сообщения: 21310
Зарегистрирован: 01 янв 1970, 10:01
Благодарил (а): 6430 раз
Поблагодарили: 4745 раз

Re: База данных по Новосибирску

Сообщение Л. Росток » 01 сен 2010, 13:58

azasello писал(а):жалко было чернил, чтобы после "1" написать еще цифру?
Не в чернилах дело. Была инструкция, обязывающая все неизвестные или не записанные своевременно случаи регистрировать именно 1 января.

Anders писал(а):список живых (без умерших), актуальная, а не историческая выборка.
именно это, актуальная. Т.е. все умершие на момент составления (оцениваю его как 1997-1998 год), в базе отсутствуют, как и выписавшиеся.
Так, например, я там нахожу знакомых, умерших в 2001 году, и не нахожу тех, кто выписался в конце 1997 (себя, например).

Скачки в статистике я аналогичным образом объясняю, как вы, Anders, тут говорите. Просто, получив вдруг в руки этот материал, (на что я года три назад и не надеялся), я засел за демографические учебники, и мой пыл в проведении работ несколько остыл. А точнее - просто отвлекся на другие, очень срочные дела.
Но не бывает худа без добра - теперь я чувствую себя способным лучше решать задачи с такими данными, и, даже мечтаю выложить конкретно эту базу в ограниченный доступ, для "своих", вместе с алгоритмами обработки... надеюсь, это случится в относительно близкое будущее...
Все люди равны, но все — разные. И вы — тоже.

Anders
Сообщения: 76
Зарегистрирован: 01 сен 2010, 07:29

Re: База данных по Новосибирску

Сообщение Anders » 01 сен 2010, 17:28

1. Спасибо за информацию: об инструкции, предписывающей относить всех невыясненных на 1 числа я не знал. Просто опрашивал "проблемных" людей из БД по возможности. А насчет демографических "ям" консультировался с демографами и сопоставлял агрегированные возрастные группировки (41-50, 51-60 и т.д.) по "Кто есть кто" с данными переписей населения.

2. Я поторопился с вопросом, не вчитавшись в текст. Да, это похоже на предварительные, неочищенные списки, подготовленные для сверки во время переписи населения. То есть скорее всего, данные о совместном проживании на жилплощади (прописке). Фактически это два-три списка, сведенных вместе. Всегда есть учетные расхождения в информации из разных источников, связанные с выбытием населения. То есть в списки внесены лица, подлежащие уточнению. Идеальная перепись должна быть всеохватной, и потому она практически неосуществима.
Следовательно, для Ваших целей хорошо было бы получить подробные результаты переписи населения в регионе (окончательные).

3. Регистрация 1 мая - отголосок советского времени. Кто-то старался таким образом выделиться, а кто-то приспособиться.

4. Ошибки регистрации дат рождений задним числом в основном заурядны. Значительная часть населения, проживающего в середине 90-х, родилась в 20-30-е гг. Записи не велись или пропадали, метрики не выписывались. Многие не отмечали и не помнили дней рождений. Восстанавливали их задним числом, когда нужно было выписывать паспорт, со слов родителей, кумовей, соседей и т.п. (На Спаса, на Крещение, на Маковея и т.п.). Были случаи, когда школьные друзья и подруги обменивались датами рождений в паспортных записях друг друга "на память". Короче, дело житейское.

5. Я сразу признаюсь, что не разбираюсь в структурных гороскопах. Просто увидел знакомый предмет, интересуясь аномальной статистикой.
[size=85]Будешь верить в гороскоп - попадешь под перископ![/size]

Аватара пользователя
Л. Росток
Администратор
Сообщения: 21310
Зарегистрирован: 01 янв 1970, 10:01
Благодарил (а): 6430 раз
Поблагодарили: 4745 раз

Re: База данных по Новосибирску

Сообщение Л. Росток » 01 сен 2010, 18:03

Конечно, это была подготовка к переписи.
Тоже встречал не раз, когда писали даты рождений "от фонаря", потому что просто не помнили, а документов не было.
Почти всё, что вы говорите - считаю верным.
Но получить чистую базу пока не удалось. Есть, правда, телефонная база, и адресного стола - за 2003 год . Но их надо сводить, это та ещё заморочка. Что, разумеется, ещё предстоит... если силы будут...

Полный перечень (точный) вряд ли когда получим (властям он не нужен), а в лучшем случае можно надеяться получить выборку за какой-то новый период, для следующей переписи.

Если у вас есть какие-то интересные базы, с полным (или по какому-то критерию), охватом населения, интересно было б послушать о них.

В будущем надеюсь на очистку своей базы от мусора, а по остаткам собираюсь проверить коэффициенты соотношений знаков в населении.
Задача номер один - знать, какие отклонения от равномерности возникают естественным образом, что б обнаруживать "неестественные". Т.е. чтобы в каких-то выборках видеть "чудеса ", вмешательство чего-то - сверх чистой случайности.
Все люди равны, но все — разные. И вы — тоже.

Anders
Сообщения: 76
Зарегистрирован: 01 сен 2010, 07:29

Re: База данных по Новосибирску

Сообщение Anders » 01 сен 2010, 18:33

В прикрепленном файле графики распределения дат рождений по годам
Это был первый справочник "Кто есть кто", поэтому в него вошло всего 3000 чел. Из них вошли в выборку лишь 1612 чел., указавшие день, месяц, год и место своего рождения полностью. Данные собирались в 1995-1996 гг. и сверялись перед сдачей в печать в конце 1996 г.

Насколько можно судить по совпадениям с новосибирской базой данных, выборки в 1600 человек достаточно для отражения общих демографических тенденций и наиболее сильных демографических шоков, эффектов поколений. То есть Вы абсолютно правы, полагая что пренебрегать массовыми, общими демографическими распределениями по годам рождений нельзя даже в сравнительно малых по сравнению с генеральной совокупностью выборках. Нельзя, например, исходить из ожидания равномерного (равновероятного) случайного распределения лет рождений. С другой стороны, значительное сходство распределений в выборках "кто есть кто" (разнородная элита)и "прописка" свидетельствует, скорее, против гипотезы важности года рождения для элитарности, чем "за". Впрочем, этлитарность - слишком общий критерий.

01 сен, Ср, 2010 18:01
[/size]

Leo, я не обнаржил опции для прикрепления файла, который хотел отправить. Это графики из "Эксель" Как их переправить на форум или Вам лично? Подскажите.

Вы взялись за нужную, но очень объемную и кропотливую работу. Почти неподъемную для одного человека по-моему. Вдохновения Вам и успехов!
[size=85]Будешь верить в гороскоп - попадешь под перископ![/size]

Аватара пользователя
Л. Росток
Администратор
Сообщения: 21310
Зарегистрирован: 01 янв 1970, 10:01
Благодарил (а): 6430 раз
Поблагодарили: 4745 раз

Re: База данных по Новосибирску

Сообщение Л. Росток » 01 сен 2010, 19:43

Anders писал(а):" Как их переправить на форум или Вам лично? Подскажите.
Я поставил вам максимум прав в этом форуме - в Математике. Попробуйте сейчас разместить файл, или что-то...

Всегда можно написать, или послать мне что-то на мыло админа (есть внизу на каждой странице), или на
0-0-7 собака майл точка ру

спасибо за пожелания, приятно с вами познакомиться!

01 сен, Ср, 2010 19:46
[/size]

О!!!
чтобы делать вложения, нужно начать новую тему.

01 сен, Ср, 2010 20:25
[/size]

графики очень интересные, хотелось бы сослаться на вашу публикацию этих результатов.
Или Мусаковой, или Шнежко?

Мне не кажется, что зависимость рождений по годам отсутствует. На ваших графиках она все-же присутствует. Другое дело, и часто такое видим, там, скорее всего, нелинейность.
Как эту нелинейность осознать и описать - проблема.

А почему так сильно упираете на Григорианский календарь? Разве по этим выборкам есть другие варианты?
Все люди равны, но все — разные. И вы — тоже.

Закрыто

Вернуться в «§ Математика»