База данных по Новосибирску
Модератор: Чук и Гек
- Л. Росток
- Администратор
- Сообщения: 20180
- Зарегистрирован: 01 янв 1970, 10:01
- СГ: Змея-Дева / Король
- .: Робеспьер вроде
- П о л: ( м )
- Откуда: Челябинск, Россия
- Благодарил (а): 4899 раз
- Поблагодарили: 217 раз
- Контактная информация:
База данных по Новосибирску
Всего исходная база 640 Мгб.
Была в свободной продаже на компьютерном рынке, поэтому можно считать её свободно распространяемой.
Это не официальный источник, хотя явно прослеживается, что это стало основой для базы, что готовили к переписи населения (и, скорее всего, продолжают её заполнять).
Всего, после очистки от явных ошибок - с отсутствующими или явно неверными датами, - осталось 1122914 записи.
Удалил около 100 записей, исправил менее 150.
Выборочная проверка по 20 лично знакомым подтвердила (частично, разумеется), истинность данных.
Файл с нулевыми днями и месяцами рождений (только года): общий объём = 862977 записи.
Файл с НЕ нулевыми данными по дням и месяцам рождений: всего объём = 259937 записей.
Гистограмма годов рождений по Новосибирску (по файлу с нулевыми днями и месяцами рождений):
Основная часть жителей указана по годам рождения с 1925 по 1980. Т.е. охват в около 55 лет - получается, что на прочих просто не введенны сведения. Хотя окончание периода заполнения этой базы примерно 1999 год.
Поскольку есть некие регистрационные номера (идущие, как правило, подряд для членов одной семьи), и следующие в близком соседстве для проживающих в одном доме, а также собственно адреса, то есть возможность во многих случаях определить семейные пары.
Была в свободной продаже на компьютерном рынке, поэтому можно считать её свободно распространяемой.
Это не официальный источник, хотя явно прослеживается, что это стало основой для базы, что готовили к переписи населения (и, скорее всего, продолжают её заполнять).
Всего, после очистки от явных ошибок - с отсутствующими или явно неверными датами, - осталось 1122914 записи.
Удалил около 100 записей, исправил менее 150.
Выборочная проверка по 20 лично знакомым подтвердила (частично, разумеется), истинность данных.
Файл с нулевыми днями и месяцами рождений (только года): общий объём = 862977 записи.
Файл с НЕ нулевыми данными по дням и месяцам рождений: всего объём = 259937 записей.
Гистограмма годов рождений по Новосибирску (по файлу с нулевыми днями и месяцами рождений):
Основная часть жителей указана по годам рождения с 1925 по 1980. Т.е. охват в около 55 лет - получается, что на прочих просто не введенны сведения. Хотя окончание периода заполнения этой базы примерно 1999 год.
Поскольку есть некие регистрационные номера (идущие, как правило, подряд для членов одной семьи), и следующие в близком соседстве для проживающих в одном доме, а также собственно адреса, то есть возможность во многих случаях определить семейные пары.
Все люди равны, но все — разные. И вы — тоже.
- Л. Росток
- Администратор
- Сообщения: 20180
- Зарегистрирован: 01 янв 1970, 10:01
- СГ: Змея-Дева / Король
- .: Робеспьер вроде
- П о л: ( м )
- Откуда: Челябинск, Россия
- Благодарил (а): 4899 раз
- Поблагодарили: 217 раз
- Контактная информация:
Re: База данных по Новосибирску
армен писал(а):Это очень интересно Проверить семейные пары по СГ. : Какие типы браков продолжительны,какие знаки чаще впрягаются в семейное ярмо,притягиваются.В общем,кто с кем дольше живет.Конечно,это не говорит о качестве жизни,но дает представление,какие знаки уживаются друг с другом-хотя бы статистически. :D
Всё это на самом деле интересно. Но копаться и разбираться ещё есть что.
Например, сравнение графиков числа рождений по годам. тут две состовляющие:
- первая большая - где даты полностью не указаны.
- в три раза меньшая - с датами.
Они, в сумме и по отдельности, кажется, повторяют общероссийскую динамику рождений (в период с 1925 по 1980 - примерно):
А вот как интересно ведут себя числа рождений:
С 1 (первым) днём каждого месяца вообще-то можно понять. Надеюсь, это всё же в большей степени первоянварские - куда сбрасывали всех, у кого не известен день.
Тем более, что собственно январь тоже слишком уж выпирает:
Но чего и как надо думать о 31 ?
А о 5, 10, 15, 20 и 25 числах?
Это что, любовь народа к круглым числам?
Которого народа: который записывает населению даты, или того, который само население? И оно само требует для себя таких дат?
загадочки...
я примерно такое и думаю, Маугли. Но продолжаю подозревать анамалию.Mowgli писал(а):В половине месяцев нет 31-х чисел, поэтому родившихся 31-го должно быть примерно вдвое меньше. А в феврале нет 30-го, поэтому 30-го (в отличие от 5, 10, 15, 20 и 25) и нет всплеска.leo7 писал(а):Но чего и как надо думать о 31 ?
Подозрения собираюсь развеять так:
хочу смоделировать равномерное распределение дат, и посмотреть, как бы легли статистики в таком, равномерном случае. Вот тогда и решим, кто виноват.
Все люди равны, но все — разные. И вы — тоже.
- Л. Росток
- Администратор
- Сообщения: 20180
- Зарегистрирован: 01 янв 1970, 10:01
- СГ: Змея-Дева / Король
- .: Робеспьер вроде
- П о л: ( м )
- Откуда: Челябинск, Россия
- Благодарил (а): 4899 раз
- Поблагодарили: 217 раз
- Контактная информация:
Re: База данных по Новосибирску
ох...армен писал(а):Лео,ну как -есть продвижки по этой базе? что интересного выкопали?
там каждый шаг - как по миному полю
эта песня долгая. Рад уже тому, что выяснил "ядро" в данных, в котором можно быть более-менее уверенным. Например, убедился, что, ещё больше, чем в общероссийской статистике, 1 января фальшивка.
Т.е., как считал раньше, и как некоторый эксперты заявляли, в целом по России превышение случаев рождений 01.01(фальсифицированное, разумеется) всего в 4 раза превышает возможную норму. А в этой, новосибирской базе дата 01.01 превышает среднее в 10-30 раз. Что явно ближе к практике - ведь тут есть не только фальсикация дней рождений, но и просто ошибки учёта.
Утомительное занятие выдумывать алгоритмы фильтрации вранья.
Надо ж ещё так отфильтровать, чтоб потом хоть что-то с остатком сделать можно было...
Например, посмотрите на фантастические замки на таком рисунке (до 1931 года).
Я думаю, что это результаты путаницы значений года, дня и месяца. Но как проверить, и как исправить - пока не знаю. Просто выкинуть все данные до 1931 года? Жалко...в кои-то веки есть слепки реальности, и разбрасываться ими не хочется...
Все люди равны, но все — разные. И вы — тоже.
Re: База данных по Новосибирску
Здравствуйте, Leo7
Не могли бы Вы уточнить, что представляет собой эта база данных по Новосибирску? От этого зависит объяснение наблюдаемых распределений частот. Судя по тому, что я вижу, это может быть справочник типа "Кто есть кто в Новосибирске" или список лиц прописанных/проживающих в Новосибирске на какую-то дату. Одним словом, список живых (без умерших), актуальная, а не историческая выборка.
Я изучал календарные и астрологические распределения дат рождений персоналий справочника "Кто есть кто в Украине" (по состоянию на 1996 г.). За исключением периода до 1920 г. картина идентичная.
Выясняя конкретные причины существенных колебаний рождаемости по годам, месяцам, дням и т.д. , обнаружил следующее:
1. "Ямы" в начале 30-х и 40-х - демографические, связанные со снижением рождаемости и ростом детской смертности в эти годы (репрессии, голод, войны). "Яма" в середине 60-х - вторичное демографическое последствие военных 40-х. Рискну предположить, что ненормально высокий процент родившихся до 1920 г. в Новосибирске может быть связан с более ранними или поздними миграционными притоками в те края. Наиболее вероятная причина зависит от типа выборки. Во-всяком случае миграции, которые могли бы дать такую картину имели место быть. Более банальная причина - "мертвые души" (умершие) из-за плохого учета или по другим причинам.
2. Процент родившихся 1 января (особенно) и 1 мая в несколько раз выше среднего. Такие же аномалии по другим числам приходятся на православные религиозные праздники. Причины разные, но все регистрационные. Основных две: 1) нежелание терять год и запись (особенно девочек) родившихся 31 декабря 1 января; 2) реконструкция дня рождения задним числом при получении паспорта (в сельской местности)
Не могли бы Вы уточнить, что представляет собой эта база данных по Новосибирску? От этого зависит объяснение наблюдаемых распределений частот. Судя по тому, что я вижу, это может быть справочник типа "Кто есть кто в Новосибирске" или список лиц прописанных/проживающих в Новосибирске на какую-то дату. Одним словом, список живых (без умерших), актуальная, а не историческая выборка.
Я изучал календарные и астрологические распределения дат рождений персоналий справочника "Кто есть кто в Украине" (по состоянию на 1996 г.). За исключением периода до 1920 г. картина идентичная.
Выясняя конкретные причины существенных колебаний рождаемости по годам, месяцам, дням и т.д. , обнаружил следующее:
1. "Ямы" в начале 30-х и 40-х - демографические, связанные со снижением рождаемости и ростом детской смертности в эти годы (репрессии, голод, войны). "Яма" в середине 60-х - вторичное демографическое последствие военных 40-х. Рискну предположить, что ненормально высокий процент родившихся до 1920 г. в Новосибирске может быть связан с более ранними или поздними миграционными притоками в те края. Наиболее вероятная причина зависит от типа выборки. Во-всяком случае миграции, которые могли бы дать такую картину имели место быть. Более банальная причина - "мертвые души" (умершие) из-за плохого учета или по другим причинам.
2. Процент родившихся 1 января (особенно) и 1 мая в несколько раз выше среднего. Такие же аномалии по другим числам приходятся на православные религиозные праздники. Причины разные, но все регистрационные. Основных две: 1) нежелание терять год и запись (особенно девочек) родившихся 31 декабря 1 января; 2) реконструкция дня рождения задним числом при получении паспорта (в сельской местности)
[size=85]Будешь верить в гороскоп - попадешь под перископ![/size]
- Azazello
- Сообщения: 7648
- Зарегистрирован: 01 янв 1970, 06:33
- СГ: Крыса-Овен / Король
- П о л: ( м )
- Откуда: Москва
- Поблагодарили: 28 раз
Re: База данных по Новосибирску
я знаю несколько случаев, когда в крупных городах-мегаполисах двигают дату при регистрации, по тем или иным причинам. В Ленинграде брежневского времени, Люберцах, два случая в Москве. Есть большие подвижки: рожденный 27 декабря 1951 зарегистрирован на 6 января 1952, если не ошибаюсь. Слава богу, что определить векторного Кота, вместо Дракона-Вождя в данном случае было проще простого. В роддоме ночную девочку 13 января сами врачи предложили записать на 14-е, мать отказалась. А ведь тоже пограничница – Обезьяна-Коза.Anders писал(а):реконструкция дня рождения задним числом при получении паспорта (в сельской местности)
спасибо, удивили. Буду знать. Совсем обнаглели.Anders писал(а):1 мая.......аномалии по другим числам приходятся на православные религиозные праздники
01 сен 2010, 13:33
[/size]
жалко было чернил, чтобы после "1" написать еще цифру?leo7 писал(а):дата 01.01 превышает среднее в 10-30 раз. Что явно ближе к практике - ведь тут есть не только фальсикация дней рождений, но и просто ошибки учёта.
- Л. Росток
- Администратор
- Сообщения: 20180
- Зарегистрирован: 01 янв 1970, 10:01
- СГ: Змея-Дева / Король
- .: Робеспьер вроде
- П о л: ( м )
- Откуда: Челябинск, Россия
- Благодарил (а): 4899 раз
- Поблагодарили: 217 раз
- Контактная информация:
Re: База данных по Новосибирску
Не в чернилах дело. Была инструкция, обязывающая все неизвестные или не записанные своевременно случаи регистрировать именно 1 января.azasello писал(а):жалко было чернил, чтобы после "1" написать еще цифру?
именно это, актуальная. Т.е. все умершие на момент составления (оцениваю его как 1997-1998 год), в базе отсутствуют, как и выписавшиеся.Anders писал(а):список живых (без умерших), актуальная, а не историческая выборка.
Так, например, я там нахожу знакомых, умерших в 2001 году, и не нахожу тех, кто выписался в конце 1997 (себя, например).
Скачки в статистике я аналогичным образом объясняю, как вы, Anders, тут говорите. Просто, получив вдруг в руки этот материал, (на что я года три назад и не надеялся), я засел за демографические учебники, и мой пыл в проведении работ несколько остыл. А точнее - просто отвлекся на другие, очень срочные дела.
Но не бывает худа без добра - теперь я чувствую себя способным лучше решать задачи с такими данными, и, даже мечтаю выложить конкретно эту базу в ограниченный доступ, для "своих", вместе с алгоритмами обработки... надеюсь, это случится в относительно близкое будущее...
Все люди равны, но все — разные. И вы — тоже.
Re: База данных по Новосибирску
1. Спасибо за информацию: об инструкции, предписывающей относить всех невыясненных на 1 числа я не знал. Просто опрашивал "проблемных" людей из БД по возможности. А насчет демографических "ям" консультировался с демографами и сопоставлял агрегированные возрастные группировки (41-50, 51-60 и т.д.) по "Кто есть кто" с данными переписей населения.
2. Я поторопился с вопросом, не вчитавшись в текст. Да, это похоже на предварительные, неочищенные списки, подготовленные для сверки во время переписи населения. То есть скорее всего, данные о совместном проживании на жилплощади (прописке). Фактически это два-три списка, сведенных вместе. Всегда есть учетные расхождения в информации из разных источников, связанные с выбытием населения. То есть в списки внесены лица, подлежащие уточнению. Идеальная перепись должна быть всеохватной, и потому она практически неосуществима.
Следовательно, для Ваших целей хорошо было бы получить подробные результаты переписи населения в регионе (окончательные).
3. Регистрация 1 мая - отголосок советского времени. Кто-то старался таким образом выделиться, а кто-то приспособиться.
4. Ошибки регистрации дат рождений задним числом в основном заурядны. Значительная часть населения, проживающего в середине 90-х, родилась в 20-30-е гг. Записи не велись или пропадали, метрики не выписывались. Многие не отмечали и не помнили дней рождений. Восстанавливали их задним числом, когда нужно было выписывать паспорт, со слов родителей, кумовей, соседей и т.п. (На Спаса, на Крещение, на Маковея и т.п.). Были случаи, когда школьные друзья и подруги обменивались датами рождений в паспортных записях друг друга "на память". Короче, дело житейское.
5. Я сразу признаюсь, что не разбираюсь в структурных гороскопах. Просто увидел знакомый предмет, интересуясь аномальной статистикой.
2. Я поторопился с вопросом, не вчитавшись в текст. Да, это похоже на предварительные, неочищенные списки, подготовленные для сверки во время переписи населения. То есть скорее всего, данные о совместном проживании на жилплощади (прописке). Фактически это два-три списка, сведенных вместе. Всегда есть учетные расхождения в информации из разных источников, связанные с выбытием населения. То есть в списки внесены лица, подлежащие уточнению. Идеальная перепись должна быть всеохватной, и потому она практически неосуществима.
Следовательно, для Ваших целей хорошо было бы получить подробные результаты переписи населения в регионе (окончательные).
3. Регистрация 1 мая - отголосок советского времени. Кто-то старался таким образом выделиться, а кто-то приспособиться.
4. Ошибки регистрации дат рождений задним числом в основном заурядны. Значительная часть населения, проживающего в середине 90-х, родилась в 20-30-е гг. Записи не велись или пропадали, метрики не выписывались. Многие не отмечали и не помнили дней рождений. Восстанавливали их задним числом, когда нужно было выписывать паспорт, со слов родителей, кумовей, соседей и т.п. (На Спаса, на Крещение, на Маковея и т.п.). Были случаи, когда школьные друзья и подруги обменивались датами рождений в паспортных записях друг друга "на память". Короче, дело житейское.
5. Я сразу признаюсь, что не разбираюсь в структурных гороскопах. Просто увидел знакомый предмет, интересуясь аномальной статистикой.
[size=85]Будешь верить в гороскоп - попадешь под перископ![/size]
- Л. Росток
- Администратор
- Сообщения: 20180
- Зарегистрирован: 01 янв 1970, 10:01
- СГ: Змея-Дева / Король
- .: Робеспьер вроде
- П о л: ( м )
- Откуда: Челябинск, Россия
- Благодарил (а): 4899 раз
- Поблагодарили: 217 раз
- Контактная информация:
Re: База данных по Новосибирску
Конечно, это была подготовка к переписи.
Тоже встречал не раз, когда писали даты рождений "от фонаря", потому что просто не помнили, а документов не было.
Почти всё, что вы говорите - считаю верным.
Но получить чистую базу пока не удалось. Есть, правда, телефонная база, и адресного стола - за 2003 год . Но их надо сводить, это та ещё заморочка. Что, разумеется, ещё предстоит... если силы будут...
Полный перечень (точный) вряд ли когда получим (властям он не нужен), а в лучшем случае можно надеяться получить выборку за какой-то новый период, для следующей переписи.
Если у вас есть какие-то интересные базы, с полным (или по какому-то критерию), охватом населения, интересно было б послушать о них.
В будущем надеюсь на очистку своей базы от мусора, а по остаткам собираюсь проверить коэффициенты соотношений знаков в населении.
Задача номер один - знать, какие отклонения от равномерности возникают естественным образом, что б обнаруживать "неестественные". Т.е. чтобы в каких-то выборках видеть "чудеса ", вмешательство чего-то - сверх чистой случайности.
Тоже встречал не раз, когда писали даты рождений "от фонаря", потому что просто не помнили, а документов не было.
Почти всё, что вы говорите - считаю верным.
Но получить чистую базу пока не удалось. Есть, правда, телефонная база, и адресного стола - за 2003 год . Но их надо сводить, это та ещё заморочка. Что, разумеется, ещё предстоит... если силы будут...
Полный перечень (точный) вряд ли когда получим (властям он не нужен), а в лучшем случае можно надеяться получить выборку за какой-то новый период, для следующей переписи.
Если у вас есть какие-то интересные базы, с полным (или по какому-то критерию), охватом населения, интересно было б послушать о них.
В будущем надеюсь на очистку своей базы от мусора, а по остаткам собираюсь проверить коэффициенты соотношений знаков в населении.
Задача номер один - знать, какие отклонения от равномерности возникают естественным образом, что б обнаруживать "неестественные". Т.е. чтобы в каких-то выборках видеть "чудеса ", вмешательство чего-то - сверх чистой случайности.
Все люди равны, но все — разные. И вы — тоже.
Re: База данных по Новосибирску
В прикрепленном файле графики распределения дат рождений по годам
Это был первый справочник "Кто есть кто", поэтому в него вошло всего 3000 чел. Из них вошли в выборку лишь 1612 чел., указавшие день, месяц, год и место своего рождения полностью. Данные собирались в 1995-1996 гг. и сверялись перед сдачей в печать в конце 1996 г.
Насколько можно судить по совпадениям с новосибирской базой данных, выборки в 1600 человек достаточно для отражения общих демографических тенденций и наиболее сильных демографических шоков, эффектов поколений. То есть Вы абсолютно правы, полагая что пренебрегать массовыми, общими демографическими распределениями по годам рождений нельзя даже в сравнительно малых по сравнению с генеральной совокупностью выборках. Нельзя, например, исходить из ожидания равномерного (равновероятного) случайного распределения лет рождений. С другой стороны, значительное сходство распределений в выборках "кто есть кто" (разнородная элита)и "прописка" свидетельствует, скорее, против гипотезы важности года рождения для элитарности, чем "за". Впрочем, этлитарность - слишком общий критерий.
01 сен, Ср, 2010 18:01
[/size]
Leo, я не обнаржил опции для прикрепления файла, который хотел отправить. Это графики из "Эксель" Как их переправить на форум или Вам лично? Подскажите.
Вы взялись за нужную, но очень объемную и кропотливую работу. Почти неподъемную для одного человека по-моему. Вдохновения Вам и успехов!
Это был первый справочник "Кто есть кто", поэтому в него вошло всего 3000 чел. Из них вошли в выборку лишь 1612 чел., указавшие день, месяц, год и место своего рождения полностью. Данные собирались в 1995-1996 гг. и сверялись перед сдачей в печать в конце 1996 г.
Насколько можно судить по совпадениям с новосибирской базой данных, выборки в 1600 человек достаточно для отражения общих демографических тенденций и наиболее сильных демографических шоков, эффектов поколений. То есть Вы абсолютно правы, полагая что пренебрегать массовыми, общими демографическими распределениями по годам рождений нельзя даже в сравнительно малых по сравнению с генеральной совокупностью выборках. Нельзя, например, исходить из ожидания равномерного (равновероятного) случайного распределения лет рождений. С другой стороны, значительное сходство распределений в выборках "кто есть кто" (разнородная элита)и "прописка" свидетельствует, скорее, против гипотезы важности года рождения для элитарности, чем "за". Впрочем, этлитарность - слишком общий критерий.
01 сен, Ср, 2010 18:01
[/size]
Leo, я не обнаржил опции для прикрепления файла, который хотел отправить. Это графики из "Эксель" Как их переправить на форум или Вам лично? Подскажите.
Вы взялись за нужную, но очень объемную и кропотливую работу. Почти неподъемную для одного человека по-моему. Вдохновения Вам и успехов!
[size=85]Будешь верить в гороскоп - попадешь под перископ![/size]
- Л. Росток
- Администратор
- Сообщения: 20180
- Зарегистрирован: 01 янв 1970, 10:01
- СГ: Змея-Дева / Король
- .: Робеспьер вроде
- П о л: ( м )
- Откуда: Челябинск, Россия
- Благодарил (а): 4899 раз
- Поблагодарили: 217 раз
- Контактная информация:
Re: База данных по Новосибирску
Я поставил вам максимум прав в этом форуме - в Математике. Попробуйте сейчас разместить файл, или что-то...Anders писал(а):" Как их переправить на форум или Вам лично? Подскажите.
Всегда можно написать, или послать мне что-то на мыло админа (есть внизу на каждой странице), или на
0-0-7 собака майл точка ру
спасибо за пожелания, приятно с вами познакомиться!
01 сен, Ср, 2010 19:46
[/size]
О!!!
чтобы делать вложения, нужно начать новую тему.
01 сен, Ср, 2010 20:25
[/size]
графики очень интересные, хотелось бы сослаться на вашу публикацию этих результатов.
Или Мусаковой, или Шнежко?
Мне не кажется, что зависимость рождений по годам отсутствует. На ваших графиках она все-же присутствует. Другое дело, и часто такое видим, там, скорее всего, нелинейность.
Как эту нелинейность осознать и описать - проблема.
А почему так сильно упираете на Григорианский календарь? Разве по этим выборкам есть другие варианты?
Все люди равны, но все — разные. И вы — тоже.