База данных по Новосибирску

Ответить
Аватара пользователя
Л. Росток
Администратор
Сообщения: 20300
Зарегистрирован: 01 янв 1970, 10:01
СГ: Змея-Дева / Король
.: Робеспьер вроде
П о л: ( м )
Откуда: Челябинск, Россия
Благодарил (а): 5146 раз
Поблагодарили: 296 раз
Контактная информация:

База данных по Новосибирску

Сообщение Л. Росток » 15 апр 2009, 22:21

Всего исходная база 640 Мгб.
Была в свободной продаже на компьютерном рынке, поэтому можно считать её свободно распространяемой.
Это не официальный источник, хотя явно прослеживается, что это стало основой для базы, что готовили к переписи населения (и, скорее всего, продолжают её заполнять).

Всего, после очистки от явных ошибок - с отсутствующими или явно неверными датами, - осталось 1122914 записи.
Удалил около 100 записей, исправил менее 150.
Выборочная проверка по 20 лично знакомым подтвердила (частично, разумеется), истинность данных.

Файл с нулевыми днями и месяцами рождений (только года): общий объём = 862977 записи.

Файл с НЕ нулевыми данными по дням и месяцам рождений: всего объём = 259937 записей.

Гистограмма годов рождений по Новосибирску (по файлу с нулевыми днями и месяцами рождений):

Изображение

Основная часть жителей указана по годам рождения с 1925 по 1980. Т.е. охват в около 55 лет - получается, что на прочих просто не введенны сведения. Хотя окончание периода заполнения этой базы примерно 1999 год.

Поскольку есть некие регистрационные номера (идущие, как правило, подряд для членов одной семьи), и следующие в близком соседстве для проживающих в одном доме, а также собственно адреса, то есть возможность во многих случаях определить семейные пары.
Все люди равны, но все — разные. И вы — тоже.

Аватара пользователя
армен
Сообщения: 809
Зарегистрирован: 08 янв 1970, 07:40
СГ: Лошадь-Близнецы / Профессор
П о л: ( м )
Откуда: георгиевск
Поблагодарили: 2 раза

База данных по Новосибирску

Сообщение армен » 15 апр 2009, 22:52

Это очень интересно :) Проверить семейные пары по СГ.

Рисунок/images/smil-ti/icon_biggrin.gif


Аватара пользователя
Л. Росток
Администратор
Сообщения: 20300
Зарегистрирован: 01 янв 1970, 10:01
СГ: Змея-Дева / Король
.: Робеспьер вроде
П о л: ( м )
Откуда: Челябинск, Россия
Благодарил (а): 5146 раз
Поблагодарили: 296 раз
Контактная информация:

База данных по Новосибирску

Сообщение Л. Росток » 16 апр 2009, 01:47

Всё это на самом деле интересно. Но копаться и разбираться ещё есть что.
Например, сравнение графиков числа рождений по годам. тут две состовляющие:
- первая большая - где даты полностью не указаны.
- в три раза меньшая - с датами.

Они, в сумме и по отдельности, кажется, повторяют общероссийскую динамику рождений (в период с 1925 по 1980 - примерно):

Изображение

А вот как интересно ведут себя числа рождений:

Изображение

С 1 (первым) днём каждого месяца вообще-то можно понять. Надеюсь, это всё же в большей степени первоянварские - куда сбрасывали всех, у кого не известен день.

Тем более, что собственно январь тоже слишком уж выпирает:

Изображение


Но чего и как надо думать о 31 ?
А о 5, 10, 15, 20 и 25 числах?
Это что, любовь народа к круглым числам?
Которого народа: который записывает населению даты, или того, который само население? И оно само требует для себя таких дат?
загадочки...
Все люди равны, но все — разные. И вы — тоже.

Аватара пользователя
_Mowgli
Сообщения: 180
Зарегистрирован: 01 янв 1970, 05:13
СГ: Не определился
П о л: ( м )
Откуда: Симбирск - Ульяновск

База данных по Новосибирску

Сообщение _Mowgli » 16 апр 2009, 07:54

leo7 писал(а):Но чего и как надо думать о 31 ?
В половине месяцев нет 31-х чисел, поэтому родившихся 31-го должно быть примерно вдвое меньше. А в феврале нет 30-го, поэтому 30-го (в отличие от 5, 10, 15, 20 и 25) и нет всплеска.

Аватара пользователя
Л. Росток
Администратор
Сообщения: 20300
Зарегистрирован: 01 янв 1970, 10:01
СГ: Змея-Дева / Король
.: Робеспьер вроде
П о л: ( м )
Откуда: Челябинск, Россия
Благодарил (а): 5146 раз
Поблагодарили: 296 раз
Контактная информация:

База данных по Новосибирску

Сообщение Л. Росток » 16 апр 2009, 11:09

я примерно такое и думаю, Маугли. Но продолжаю подозревать анамалию.
Подозрения собираюсь развеять так:
хочу смоделировать равномерное распределение дат, и посмотреть, как бы легли статистики в таком, равномерном случае. Вот тогда и решим, кто виноват.
Все люди равны, но все — разные. И вы — тоже.

Аватара пользователя
армен
Сообщения: 809
Зарегистрирован: 08 янв 1970, 07:40
СГ: Лошадь-Близнецы / Профессор
П о л: ( м )
Откуда: георгиевск
Поблагодарили: 2 раза

База данных по Новосибирску

Сообщение армен » 19 апр 2009, 21:23

Лео,ну как -есть продвижки по этой базе? что интересного выкопали?

Рисунок/images/smil-ti/icon_confused.gif


Аватара пользователя
Л. Росток
Администратор
Сообщения: 20300
Зарегистрирован: 01 янв 1970, 10:01
СГ: Змея-Дева / Король
.: Робеспьер вроде
П о л: ( м )
Откуда: Челябинск, Россия
Благодарил (а): 5146 раз
Поблагодарили: 296 раз
Контактная информация:

База данных по Новосибирску

Сообщение Л. Росток » 20 апр 2009, 00:17

ох... :)
там каждый шаг - как по миному полю :)

эта песня долгая. Рад уже тому, что выяснил "ядро" в данных, в котором можно быть более-менее уверенным. Например, убедился, что, ещё больше, чем в общероссийской статистике, 1 января фальшивка.
Т.е., как считал раньше, и как некоторый эксперты заявляли, в целом по России превышение случаев рождений 01.01(фальсифицированное, разумеется) всего в 4 раза превышает возможную норму. А в этой, новосибирской базе дата 01.01 превышает среднее в 10-30 раз. Что явно ближе к практике - ведь тут есть не только фальсикация дней рождений, но и просто ошибки учёта.

Изображение


Утомительное занятие выдумывать алгоритмы фильтрации вранья.
Надо ж ещё так отфильтровать, чтоб потом хоть что-то с остатком сделать можно было...

Например, посмотрите на фантастические замки на таком рисунке (до 1931 года).

Изображение


Изображение


Я думаю, что это результаты путаницы значений года, дня и месяца. Но как проверить, и как исправить - пока не знаю. Просто выкинуть все данные до 1931 года? Жалко...в кои-то веки есть слепки реальности, и разбрасываться ими не хочется...
Все люди равны, но все — разные. И вы — тоже.

Ответить

Вернуться в «Проект Azazello»