Главная Учебники - Разные Лекции (разные) - часть 65
Міністерство освіти і науки України Дніпропетровський національний університет ім. О. Гончара Дипломна бакалаврська робота Систематичний відбір
Виконавець: студентка групи МС-06-1 Бабічева Д.С. Дніпропетровськ 2010
Випускна бакалаврська робота
: 67 сторінок, 5 джерел, 9 таблиць, 15 рисунків. Перелік ключових слів
: популяція, вибірка, відбір, дисперсія, середнє, точність, тренд, одиниці, оцінка. Обє’кт дослідження
: систематичні вибірки Мета роботи
: в роботі ставиться задача порівняння точності систематичного відбору, простого випадкового відбору та стратифікованого відбору на прикладі вибіркового обстеження домогосподарств гіпотетичного міста StatVillage. ЗМІСТ
ВСТУП РОЗДІЛ І. СИСТЕМАТИЧНИЙ ВІДБІР 1.1 Оцінювання середнього та сумарного значення популяції 1.2 Порівняння систематичного відбору зі стратифікованим випадковим відбором 1.3 Популяції з «випадковим» порядком розміщення одиниць 1.4 Популяції з лінійним трендом 1.5 Популяції з періодичною варіацією 1.6 Автокорельовані популяції 1.7 Реальні популяції 1.8 Оцінювання дисперсії за окремою вибіркою 1.9 Стратифікований систематичний відбір 1.10 Двовимірний систематичний відбір 1.11 Приклади розв’язування задач РОЗДІЛ ІІ. ПОРІВНЯННЯ СИСТЕМАТИЧНОГО ВІДБОРУ, ПРОСТОГО ВИПАДКОВОГО ВІДБОРУ ТА СТРАТИФІКРВАНОГО ВІДБОРІВ 2.1 Місто StatVillage 2.2 Порівняння відборів ВИСНОВКИ СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ВСТУП
Вибіркове обстеження з систематичним відбором являє собою комплекс процедур, які мають деякі практичні переваги за інших методів, зокрема у відносній простоті застосування. Іноді систематичний відбір розглядають як деяке наближення простого випадкового відбору, коли не існує повного переліку або списку всієї популяції, або коли цей список не є впорядкованим за якоюсь ознакою, тобто коли елементи записано в довільному випадковому порядку. Розглянемо загальну процедуру побудови систематичної вибірки при проведенні випадкового обстеження. Нехай маємо скінчену популяцію, одиниці якої перенумеровані від 1 до 1. Вибірку легше добувати і частіше легше дотримуватись правил відбору. Це особливо важливо, коли відбір відбувається безпосередньо протягом обстеження. Іноді можна значно зекономити час, навіть коли вибірка добувається до початку обстеження. Наприклад, коли данні про всі одиниці занесені на картки однакового розміру, що знаходяться у ящиках стандартної картотеки. Тоді можна добувати картки з ящика через кожний сантиметр, відміряючи відстань лінійкою. Цю операцію, на відміну від простого випадкового відбору, можна виконати дуже швидко. Звичайно, такий метод трохи відрізняється від відбору строго кожної 2. Інтуїтивно систематичний відбір здається більш точним, ніж простий випадковий відбір. По суті, при відборі відбувається стратифікування популяції на n страт, що складаються з перших Рис.1. Систематичний відбір та стратифіксований випадковий відбір: В одному з варіантів систематичного відбору кожна одиниця відбирається в центрі страти або біля нього, тобто замість того, щоб починати послідовність номерів деяким випадковим чином від 1 до Оскільки, взагалі кажучи, Таблиця 1 Можливі систематичні вибірки при Номер систематичної вибірки перша друга третя четверта п’ята 1 6 11 16 21 2 7 12 17 22 3 8 13 18 23 4 9 14 19 5 10 15 20 Для того, щоб уникнути цього, можна скористатися таким методом. Вибираємо В роботі ставиться задача порівняння точності систематичного відбору, простого випадкового відбору та стратифікованого відбору на прикладі вибіркового обстеження домогосподарств гіпотетичного міста StatVillage. РОЗДІЛ І. СИСТЕМАТИЧНИЙ ВІДБІР
1.1 Оцінювання середнього та сумарного значення популяції
Введемо поняття кластеру. Кластер – це група одиниць популяції, яка розглядається як вихідна одиниця вибірки. Нехай Таблиця 1.1.1 Можливі систематичні вибірки Страти Кластер Середнє страти 1 2 … i … k 1 … … 2 … … … … … … … … … … … … Середнє систематичної вибірки … … Нехай випадкова величина Розподіл Теорема 1.1.1.
Середнє значення Доведення. де зокрема, дисперсія Теорема доведена. Теорема 1.1.2.
Дисперсія середнього значення систематичної вибірки визначається формулою Де є дисперсією одиниць, які належать одній систематичній вибірці (wsy − від англ. within − всередині та systematic − систематичний). Доведення. Дисперсія популяції з Розглянемо тотожність Піднесемо обидві частини рівності до квадрату Підсумуємо праву та ліву частини рівності за Покажемо, що Отже, маємо Дисперсія (обчислена за таблицею розподілу Звідси або, що теж саме, Теорема доведена. Наслідок.
Середнє значення для систематичної вибірки більш точне, ніж середнє для простої випадкової вибірки, тобто тоді і тільки тоді, коли Доведення. Дисперсія середнього значення простої випадкової вибірки дорівнює Тоді з (1.1.1) випливає, що Звідси маємо Домножимо обидві частини нерівності на Враховуючи, що або, Отже , Наслідок доведено. Таким чином, систематичний відбір точніший, ніж простий випадковий відбір, якщо дисперсія Теорема 1.1.3.
де де чисельник є середнім по всім Підставивши отримані вирази у Доведення. Дисперсія середнього значення Звідси маємо Отже, Ділимо обидві частини на Останній результат показує, що додатна кореляція між одиницями в одній і тій самій вибірці збільшує дисперсію вибіркового середнього. Навіть мала додатна кореляція може мати великий ефект за рахунок множника Теорема доведена. Дві попередні теореми виражали Існує аналог теореми 1.1.3, в якому Теорема 1.1.4.
є коефіцієнтом кореляції між відхиленнями від середнього значення для страти по всім парам одиниць, що належать до однієї й тієї ж систематичної вибірки. Доведення. Доведення цієї теореми аналогічно доведенню теореми 1.1.3. Дисперсія середнього значення Розпишемо середнє значення популяції Отже маємо Отже, Теорема доведена. Наслідок.
Якщо Це твердження випливає з того, що для такої стратифікованої випадкової вибірки Теорема 1.1.5.
Дисперсія величини Приклад
. У таблиці 1.1.2 наведені данні для невеликої штучної популяції, яка показує тенденцію до досить стійкого зростання значень ознаки у послідовності одиниць. Маємо Таблиця 1.1.2 Данні по 10 систематичним вибіркам при обсязі вибірок Страта Номер систематичної вибірки ( 1 2 3 4 5 6 7 8 9 10 I II III IV 0 6 18 26 1 8 19 30 1 9 20 31 2 10 20 31 5 13 24 33 4 12 23 32 7 15 25 35 7 16 28 37 8 16 29 38 6 17 27 38 4,1 12,2 23,3 33,1 12, 5 14, 75 15, 25 15, 75 18, 75 17, 75 20, 5 22 22, 75 22 72,7 50 58 61 63 75 71 82 88 91 88 Середнє значення систематичної вибірки має розподіл Дисперсія систематичної вибірки дорівнює Знайдемо середнє та дисперсію для всієї популяції: Тепер знайдемо дисперсію одиниць, що належать до однієї й тієї самої страти: де Тоді дисперсія оцінки середнього для простої випадкової вибірки має вид: де Дисперсія оцінки середнього для стратифікованої випадкової вибірки де Стратифікований випадковий відбір та систематичний відбір виявились набагато ефективнішими, ніж простий випадковий відбір, причому, як і очікувалось, систематичний відбір менш точний, ніж стратифікований випадковий відбір. 1.2 Порівняння систематичного відбору зі стратифікованим випадковим відбором
Ефективність систематичного відбору в порівнянні зі стратифікованим або простим випадковим відбором суттєво залежить від особливостей популяції. Існують такі популяції, в яких систематичний відбір дає високу точність, але є й такі, для яких простий випадковий відбір є більш точним ніж систематичний. Для деяких популяцій та деяких значень При дослідженні цієї проблеми існує два напрямки. При одному з них порівнюються різні типи відбору зі штучних сукупностей, для яких 1.3 Популяції з «випадковим» порядком розміщення одиниць
Систематичний відбір, оскільки він зручний, застосовується іноді до популяцій, в яких одиниці дійсно розташовані навмання. Наприклад, так буває при відборі з картотеки, що складена в алфавітному порядку за прізвищами, якщо змінюється ознака, яка ніяк не пов’язана з прізвищем того, кого обстежують. В цьому випадку не буде ніякої тенденції чи стратифікування по У такій ситуації ми могли б очікувати, що систематичний відбір буде, по суті, рівносильний простому випадковому відбору та буде мати ту саму дисперсію. Для конкретної скінченої популяції при заданих значеннях Теорема 1.3.1.
Розглянемо всі Зауважимо, що Ця теорема стверджує, що якщо перестановку, яка визначає порядок значень у деякій конкретній скінченій популяції, можна вважати обраною навмання із можливих При іншому підході скінчену популяцію вважають добутою навмання з деякої нескінченої надпопуляції, що має певні властивості. Теорема 1.3.1 відноситься не до будь-якої скінченої популяції, а до середнього по всім скінченим популяціям, які можуть бути добуті із даної нескінченої надпопуляції. Позначимо через Теорема 1.3.2.
Якщо змінні Головну роль відіграють дві умови: 1) всі 2) між значеннями Доведення.
Для будь-якої визначеної скінченої популяції Далі, Оскільки Отже, Звідси Повертаючись до За теоремою про дисперсію середнього для некорельованої вибірки, добутої з нескінченої популяції Розглянемо докладніше вираз у дужках Раніше було показано, що Отже маємо Теорема доведена. 1.4 Популяції з лінійним трендом
Якщо популяція містить тільки лінійний тренд, як показано на рис.1.4.1, то характер результатів уявити собі досить просто. З рис. 1.4.1 видно, що Рис. 1.4.1. Систематичний відбір із популяцій з лінійним трендом: Для теоретичної перевірки цих результатів достатньо розглянути випадок, коли Дисперсія сукупності, Отже, дисперсія середнього Для того, щоб знайти дисперсію всередині страт, При систематичному відборі середнє значення для другої вибірки перевищує середнє для першої на 1; середнє значення для третьої вибірки перевищує середнє для другої на 1 і т.д. Тому при обчисленні дисперсії середні Отримаємо Звідси З формул (1.4.3), (1.4.4), (1.4.5) випливає, що Дисперсії для різних способів відбору рівні тільки при Ефект використання систематичного відбору за наявності лінійного тренду можна збільшити кількома способами. Один із них полягає у тому, щоб використати центрально розташовану вибірку. Інший − в тому, щоб при обчисленні оцінки замість незваженого середнього брати зважене, в якому усім внутрішнім членам вибірки надається вага, що дорівнює одиниці (до ділення на причому вага, що надається першому члену, має знак «+», а останньому − знак «-». Очевидно, що при будь-якому 1.5 Популяції з періодичною варіацією
Якщо популяція містить періодичний тренд, наприклад, звичайну синусоїду, то ефективність систематичної вибірки залежить від значення Рис.1.5.1. Періодична варіація Вибіркові точки Найбільш сприятливим буде випадок (вибірка Популяції, які можна описати точною синусоїдою, на практиці, не зустрічаються. Однак популяції з більш або менш вираженим періодичним трендом − не рідкість. Прикладами можуть бути транспортний потік на певній ділянці дороги на протязі доби та об’єм продаж у магазині на протязі семи днів тижня. Для оцінювання середнього за деякий період часу було б, очевидно, не доцільно формувати систематичну вибірку, роблячи спостереження щоденно о 4 годині дня кожний четвер. Навпроти, потрібно розосереджувати вибірку вздовж періодичної кривої, у випадку продаж, наприклад, слідкуючи за тим, щоб кожний день тижня був однаково представлений у вибірці. У деяких популяціях зустрічаються менш помітні періодичні коливання. Наприклад, якщо є ряд щоденних платіжних відомостей для невеликої ділянки підприємства, то список робітників у кожній з них може бути складений у одному й тому ж порядку та містити від 19 до 23 прізвищ. Тоді систематична вибірка кожного 20-го робітника за період декількох тижнів може включати записи, які відносяться до одного і того ж робітника або до двох чи до трьох робітників, що належать до найбільш високооплачуваної групи. Аналогічно систематична вибірка прізвищ з міського довідника, де під однаковим прізвищем, спочатку, значиться голова домогосподарства, а потім його діти, може містити дуже багато голів домогосподарств чи дуже багато дітей. Якщо часу вистачає, щоб дослідити характер періодичності, то систематичну вибірку можна побудувати так, щоб скористатися її особливостями. В супротивному разі, коли періодичність передбачається, але характер її невідомий, краще застосовувати просту або стратифіковану випадкову вибірку. 1.6 Автокорельовані популяції
Для багатьох реальних популяцій є підстави очікувати, що два спостереження Для з’ясування того, чи можна застосовувати цю модель до конкретної популяції, можна обчислити коефіцієнти кореляції Отже, ми припускаємо, що спостереження де Здобуття одного набору значень Середня дисперсія по всім скінченим популяціям при систематичному відборі позначається через Для цього класу популяцій неважко показати, що стратифікований випадковий відбір краще простого випадкового відбору, але відносно систематичного відбору загального твердження сформулювати не можна. Всередині цього класу існують надпопуляції, для яких систематичний відбір краще стратифікованого випадкового відбору, але існують і такі, для яких, при певних значеннях Якщо припустити, що корелограма є випуклою вниз функцією, то можна довести одну загальну теорему. Теорема 1.6.1.
Якщо, разом з умовами (1.6.1), виконується то при будь якому обсязі вибірки Далі, за винятком випадку Теорема 1.6.1 була доведена Кокреном у 1946 році. Наведемо частину доведення при У випадку стратифікованої вибірки для кожної одиниці, що вилучається з відповідної страти, існує Відстань Підсумок Число комбінацій Отже, середнє значення Аналогічно Отже, Якщо то неважко показати, що кожний член всередині дужок додатний. Теорема доведена. Середня відстань між одиницями дорівнює В 1949 році Кенуй показав, що нерівності, які містяться у твердженні теореми 1.6.1, залишаються справедливими, якщо зробити менш жорсткими дві умови (1.6.1), а саме В цьому випадку кожна з трьох середніх дисперсій для надпопуляції збільшується в однаковому ступені. 1.7 Реальні популяції
Дослідження були проведені для різних реальних популяцій. Деякі з цих досліджень наведені в таблиці 1.7.1. Перші три дослідження проводилися за допомогою географічних мап. У першому з них популяція складається з 288 значень висот точок, які знаходяться на відстані 0,1 милі одна від одної у гірській місцевості. У двох наступних популяціях даними є долі довжин відрізків прямих, які проведені на мапі з розфарбуванням, що приходяться на області з визначеним покриттям (під травою, лісом і т.п.). Ці приклади можна вважати найбільш близькими до моделей з неперервною у строгому сенсі варіацією. Наступні три дослідження засновані на показах температури на протязі 192 послідовних днів у наступних точках: (а) 12 дюймів під поверхнею трави, (б) 4 дюйма під поверхнею землі, (в) у повітрі. Ці три дослідження відображають три різних ступені впливу (у напрямку збільшення) на характеристику, що вивчаються, а саме - нестійкі щоденні зміни погоди та повільні сезонні зміни. У останніх дослідженнях спостерігались рослини або дерева, що ростуть у послідовних точках, які розташовані вздовж деякої лінії. При обстеженні картоплі, типовою для цієї групи, скінчена популяція складається зі значень врожаю на 96 грядках деякого поля. У деяких обстеженнях У роботах Йетса та Фінні порівняння проводиться відносно цілої низки значень Таблиця 1.7.1 Реальні популяції, що вивчені при аналізі систематичного відбору Автор Обсяг популяції Вид даних Yates (1948) 288 Значення висот у точках, що знаходяться на відстані 0,1 милі одна від одної, отримані за мапою англійського державного картографічного управління Osborne (1942) * Відсоток площі під (а) оброблюваною землею, (б) чагарником, (в) травою, (г) лісом на паралельних прямих, які проведені на мапі з розфарбуванням Osborne (1942) * Відсоток площі під ялиною Дугласа, який підрахований за допомогою паралельних прямих, що проведені на мапі з розфарбуванням Yates (1948) 192 Температура ґрунту (12 дюймів під поверхнею трави) на протязі 192 послідовних днів Yates (1948) 192 Температура ґрунту (4 дюймів під поверхнею землі) на протязі 192 послідовних днів Yates (1948) 192 Температура повітря на протязі 192 послідовних днів Yates (1948) 96 Врожай картоплі на 96 грядках Finney (1948) 160 Об’єм лісу, придатного до продажу, у розрахунку на ділянку шириною у 3 ряди та змінної довжини (Mt. Stuart forest) Finney (1948) 288 Об’єм підростаючого лісу на ділянку шириною у 2,5 ряди та довжиною у 80 рядів (Black’s Mountain forest) Finney (1950) 292 Об’єм лісу на ділянку шириною в 2 ряди та змінної довжини (Dehra Dun forest) Johnson (1943) 400** Число саджанців на 1 фут довжини гряди для 4 гряд саджанців листяних порід Johnson (1943) 400** Число саджанців на 1 фут довжини гряди для 3 гряд саджанців хвойних порід Johnson (1943) 400** Число пересаджених дерев хвойних порід на 1 фут довжини гряди для 6 гряд * Теоретично ** Наближено. Насправді це число змінювалось від гряди до гряди. Для цих випадків дані таблиці 1.7.2 є геометричним середнім відношень дисперсій для окремих значень Таблиця 1.7.2 Відносна точність систематичного та стратифікованого випадкового відбору Данні Розмах значень Відносна точність систематичного відбору в порівнянні зі стратифікованим відбором Висоти 2 − 20 2,99 5,68 Відсоток площі (4 типів покриття) − − 4,42 Відсоток площі під ялиною Дугласа − − 1,83 Температура ґрунту (12 дюймів) 2 − 24 2,42 4,23 Температура ґрунту (4 дюйма) 4 − 24 1,45 2,07 Температура повітря 4 − 24 1,26 1,65 Картопля 3 − 16 1,37 1,90 Об’єм лісу (Mt. Stuart) 2 − 32 1,07 1,35 Об’єм лісу (Black’s Mt) 2 − 24 1,19 1,44 Об’єм лісу (Dehra Dun) 2 − 32 1,39 1,89 Листяні саджанці 14 − 1,89 Хвойні саджанці 14 − 24 − 2,22 Пересадженні хвойні дерева 12 − 22 − 0,93 Хоча ці данні обмежені за масштабами, результати справляють враження. В тих дослідженнях, де можливе порівняння з 1.8 Оцінювання дисперсії за окремою вибіркою
Згідно з результатами, які відносяться до простих випадкових вибірок з де Якщо за перший член обрати значення Але останнє не означає, що зовсім нічого не можна зробити. За виключенням випадку періодичної варіації, ми можемо користуватися інформацією про структуру популяції для того, щоб побудувати математичну модель, яка адекватно представляє існуючий в популяції тип варіації. Після цього ми могли б вивести формулу для оцінки дисперсії, яка для цієї моделі була б наближено незміщеною, хоча, можливо, для інших моделей зміщення було б великим. Вирішувати, яку з моделей необхідно застосовувати, повинен той, хто організовує спостереження. Далі наведені без доведень деякі прості моделі з відповідними оцінками дисперсій. Найбільш проста модель відноситься до популяції, в якій де Оцінка дисперсії тобто, якщо вона незміщена відносно середнього по всім скінченим популяціям, які можуть бути отримані з цієї надпопуляції. Популяція, одиниці якої розташовані навмання. Остання формула є оцінкою дисперсії систематичної вибірки Ця модель застосовується, якщо ми впевненні в тому, що порядок розташування одиниць має в основному випадковий характер відносно ознаки, що спостерігається. Формула дисперсії збігається з формулою дисперсії простого випадкового відбору, і її оцінка незміщена, якщо наша модель справедлива. Стратифікована популяція, одиниці якої у стратах розташовані навмання В цьому випадку середнє значення є постійним всередині кожної страти з Лінійний тренд Оцінка заснована на квадратах послідовних різниць, що утворюються трьома сусідніми значеннями 1.9 Стратифікований систематичний відбір
Якщо одиниці певним чином впорядковані, то систематичний відбір забезпечує деякого роду стратифікування з рівними долями відбору. Якщо стратифікування виконано за деяким іншим критерієм, то з кожної страти можна вилучити окрему систематичну вибірку, визначаючи точки відліку незалежно. Такий підхід зручний, якщо ми хочемо отримати окремі оцінки для кожної страти або якщо застосовуються нерівні долі відбору. Цей метод буде, звичайно, більш точним, ніж стратифікований випадковий відбір, якщо систематичний відбір всередині страт більш точний, ніж випадковий відбір всередині страт. Якщо Якщо страт небагато, то задача знаходження дисперсії за вибіркою зводиться до задачі пошуку за вибіркою задовільної оцінки Якщо страт багато, то може бути кращою оцінка, знайдена за методом «поєднанних страт». Оцінка де підсумовування проводиться за всіма парами страт, у середньому перебільшує дисперсію, навіть якщо варіація періодичного характеру існує всередині страт. Незміщену оцінку дисперсії похибки можна отримати, якщо з кожної страти вилучаються дві систематичні вибірки з різними точками відліку, які обрані навмання, та з інтервалом відбору 1.10 Двовимірний систематичний відбір
При відборі з популяції, що представляє собою деяку територію, найпростішим узагальненням одновимірного систематичного відбору буде відбір за схемою квадратної решітки, яка зображена на рис.1.10.1. Вибірка повністю визначається парою випадкових чисел, які задають координати лівої верхньої одиниці. Характеристики схеми квадратної решітки були дослідженні на прикладах як теоретичних, так і реальних популяцій. Матерн (1960) дослідив найкращий тип вибірки для випадку, коли кореляція спостережень у довільних двох точках виражається монотонно спадаючою випуклою вгору функцією відстані між ними У 14 сільськогосподарських дослідженнях на однорідність Хейнс (1948) знайшов, що відбір за квадратною решіткою дає майже ту саму точність, що і двовимірний простий випадковий відбір. Мілн (1959) вивчав відбір за «центральною» схемою квадратної решітки, коли вибірка визначається точкою, яка лежить в центрі квадрату, у 50 випробуваннях на однорідність. Такий спосіб відбору виявився краще простого випадкового відбору і, можливо, дещо краще, ніж стратифікований випадковий відбір, хоча остання перевага не була статистично значущою. Ці результати вказують на те, що принаймні, для даних такого типу, автокореляція виражена слабко. При оцінюванні по мапі площі, яку займає ліс чи вода, Матерн у двох прикладах помітив, що квадратна решітка перевищує випадкові методи відбору. Два типи двовимірної систематичної вибірки Рис. 1.10.1 Рис. 1.10.2 Вирівняна вибірка або Невирівняна вибірка за схемою «квадратної решітки» На рис. 1.10.2 наведена систематична вибірка іншого типу, яка називається невирівняною вибіркою. 1. Добуваючи пару випадкових чисел, задаємо координати лівої верхньої одиниці: 2. Добуваючи пару випадкових чисел, задаємо горизонтальні координати двох одиниць в першому стовбці: Наприклад, в другому рядку − координати правої одиниці, в третьому рядку − координати центральної одиниці. 3. Добуваючи пару випадкових чисел, задаємо вертикальні координати двох одиниць в першому рядку: Наприклад, в другому стовбці − координати нижньої одиниці, в третьому стовбці − координати центральної одиниці. Після цього постійний інтервал Ще одне свідчення переваги невирівняної вибірки дає досвід планування експериментів, який виявив, що для розміщення спостережень у прямокутній області цілком можна застосовувати схему латинського квадрату. Вважатимемо, що латинський квадрат (5 Принципом побудови латинських квадратів скористалися Хомейер та Блек при відборі на прямокутних полях вівса. Кожне поле містило 21 ділянку. Три можливі систематичні вибірки, які позначені відповідно літерами A, B, C, що показані на рис. 1.10.4. Таке розміщення, коли на кожному полі обирається навмання одна з літер, збільшило точність приблизно на 25% у порівнянні зі стратифікованим випадковим відбором, в якому рядки виступали стратами. Оскільки кожна літера зустрічається тричі в одному стовпчику і по два рази в інших, таке розміщення не зовсім точно задовольняє означенню латинського квадрату, але, наскільки це можливо, відповідає йому. Дві схеми систематичного відбору, засновані на латинських квадратах Рис. 1.10.3 Латинський квадрат «ходом коня» Рис. 1.10.4 Схема систематичного відбору для прямокутного поля 3 Йейтс (1960), який назвав розміщення такого типу відбором за решіткою, розглядає їх застосування для двовимірного та тривимірного відбору. У випадку трьох вимірів кожний рядок, кожний стовпець та кожна вертикаль можуть бути представлені у вибірці шляхом відбору 1.11 Приклади розв’язування задач
Приклад 1.
У таблиці 1.11.1 наведена кількість саджанців на кожному футі довжини гряди, загальною довжиною у 200 футів. Знайти дисперсію середнього систематичної вибірки, що включає кожний двадцятий фут гряди. Порівняти її з дисперсією простої випадкової вибірки. Для всіх вибірок Таблиця 1.11.1 Число саджанців Фути довжини гряди Підсумки систематичних вибірок 1-20 21-40 41-60 61-80 81-100 101-120 121-140 141-160 161-180 181-200 1 2 3 4 5 6 7 8 9 10 8 6 6 23 25 16 28 21 22 18 26 28 11 16 7 22 44 26 31 26 20 19 25 11 31 26 29 19 17 28 16 9 22 26 17 39 21 14 40 30 26 26 10 41 30 55 34 56 39 41 27 20 25 39 24 25 18 44 55 39 34 21 27 25 32 43 33 45 23 27 37 14 14 24 18 17 14 38 36 29 31 23 41 18 15 21 8 22 11 3 4 5 11 9 25 16 13 22 18 9 24 19 28 18 29 24 33 37 32 26 36 20 43 27 20 21 18 19 24 30 18 13 7 9 11 20 16 9 14 15 20 21 15 14 13 9 25 17 7 30 16 12 8 10 12 20 17 12 7 17 21 26 16 18 11 19 27 29 31 29 36 8 29 33 14 13 18 20 13 24 29 18 16 20 6 15 4 8 8 10 10 35 7 9 12 7 6 14 12 15 18 4 4 9 8 8 9 10 5 3 223 182 188 197 211 245 222 255 190 214 234 165 177 202 149 191 193 227 225 235 Підсумки для страт 410 459 674 554 325 528 303 358 342 205 4155 Розв’язання.
а) Систематична вибірка: Дисперсія середнього систематичної вибірки дорівнює б) Проста випадкова вибірка: Дисперсія простої випадкової вибірки дорівнює Відповідь:
Приклад 2.
Популяція, що складається з 360 домогосподарств (які перенумеровані від 1 до 360), розміщена в картотеці у алфавітному порядку за прізвищами головних членів господарств. Домогосподарства, де голова сім’ї небілий, мають наступні номери: 28, 31-33, 36-41, 44, 45, 47, 55, 56, 58, 68, 69, 82, 83, 85, 86, 89-94, 98, 99, 101, 107-110, 114, 154, 156, 178, 223, 224, 296, 298-300, 302-304, 306-323, 325-331, 333, 335-339, 341, 342. (Серед небілих іноді зустрічаються «скупчення» домогосподарств через зв'язок між прізвищем та кольором шкіри). Порівняйте точність систематичної вибірки кожного восьмого домогосподарства з простою випадковою вибіркою того ж обсягу при оцінюванні частки домогосподарств, у яких головний член сім’ї небілий. Розв’язання.
Будемо позначати домогосподарство, де голова сім’ї небілий як 1 і відповідно де голова білий – 0. Тоді запишемо всі систематичні вибірки кожного восьмого домогосподарства у таблицю 1.11.2: Таблиця 1.11.2 Дані по 8-ми систематичним вибіркам Номер систематичної вибірки ( 1 2 3 4 5 6 7 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 1 1 1 1 1 1 0 0 1 1 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 0 0 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,2222 0,2667 0,1556 0,2667 0,2667 0,2222 0,2444 0,1556 10 12 7 12 12 10 11 7 а) Систематична вибірка Середнє значення систематичної вибірки має розподіл Дисперсія середнього систематичної вибірки дорівнює б) Проста випадкова вибірка Частка домогосподарств, де головний член сім’ї не білий дорівнює Для простої випадкової вибірки дисперсія вибіркової частки має вигляд: де Дисперсія простої випадкової вибірки при оцінюванні частки домогосподарств з небілим головним членом сім’ї дорівнює Відповідь:
Приклад 3.
Є наступний список мешканців 13-ти будинків деякої вулиці. М – дорослий чоловік, Ж – доросла жінка, м – хлопчик, ж – дівчинка. Сім’ї 1 2 3 4 5 6 7 8 9 10 11 12 13 М М М М М М М М М М М М М Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж ж ж м м ж ж м м м ж ж м м ж м м ж ж ж м ж ж ж м Порівняйте дисперсії для систематичної вибірки кожної п’ятої людини та 20%-вої простої випадкової вибірки при оцінюванні: (а)частки людей чоловічої статі, (б) частки дітей. У випадку систематичної вибірки ведіть відлік у кожному стовбці зверху вниз і далі з верху наступного стовпця. Розв’язання.
Запишемо всі систематичні вибірки кожної п’ятої людини: 1. М М М Ж ж М М Ж ж М 2. Ж Ж Ж М М Ж Ж м М Ж 3. ж ж м Ж Ж ж м М Ж ж 4. м м ж м ж ж ж Ж ж М 5. ж ж М м м м М м м Ж а) Оцінювання частки людей чоловічої статі · Систематична вибірка кожної п’ятої людини Тоді розподіл середнього має вигляд: Дисперсія середнього систематичної вибірки дорівнює · 20%-ва проста випадкова вибірка Якщо Тоді дисперсія вибіркової частки простої випадкової вибірки дорівнює Дисперсія простої випадкової вибірки при оцінюванні частки людей чоловічої статі дорівнює б) Оцінювання частки дітей · Систематична вибірка кожної п’ятої людини Тоді розподіл середнього має вигляд: Дисперсія середнього систематичної вибірки дорівнює · 20%-ва проста випадкова вибірка Якщо Тоді дисперсія вибіркової частки простої випадкової вибірки дорівнює Дисперсія простої випадкової вибірки при оцінюванні частки дітей дорівнює Відповідь:
а) При оцінюванні частки людей чоловічої статі отримали, що РОЗДІЛ ІІ. ПОРІВНЯННЯ СИСТЕМАТИЧНОГО ВІДБОРУ, ПРОСТОГО ВИПАДКОВОГО ТА СТРАТИФІКОВАНОГО ВІДБОРІВ
2.1 Місто StatVillage
StatVillage –
це гіпотетичне місто, яке складається з окремих домогосподарств і використовується як база даних для студентів та аспірантів, що вивчають вибіркові методи. Дані домогосподарств для StatVillage обирались навмання з результатів перепису сімей, що мешкали в домогосподарствах у місті Ванкувері, Британській Колумбії, Канаді у 1991 році. Сам перепис населення проходив шляхом анонімного анкетування. Бралися до уваги наступні характеристики: · демографічні показники – розмір домогосподарства та його склад за віком та статтю; · показники доходу – зайнятість, інвестиції, валові витрати, різні доходи домогосподарств та інші; · житлові характеристики – тип житла, рік побудови, своє житло чи орендоване, оціночна вартість, щомісячні витрати на розміщення та інші; · характеристика двох головних членів сім’ї, які відповідають за добробут сім’ї – вік, стать, професія, рідна мова, освіта, зайнятість і т.д; Існують три конфігурації міста StatVillage: · Maximal village – складається зі 128 блоків, кожен з яких містить 8 домогосподарств (загальна кількість домогосподарств - 1024). · Mini village – складається з 60 блоків, кожен з яких містить 8 домогосподарств (загальна кількість домогосподарств – 480). · Micro village – складається з 36 блоків, кожен з яких містить 8 домогосподарств (загальна кількість домогосподарств – 288). Кожен блок домогосподарств нумерується в певному порядку, а саме Рис. 2.1.1 Нумерування блоку домогосподарств Для того, щоб отримати дані з міста StatVillage, необхідно спочатку відмітити домогосподарства позначкою як показано на рисунку 2.1.2 (відмічено кожне 8-ме домогосподарство) Рис. 2.1.2 Систематичної вибірка кожного восьмого домогосподарства Після цього натискаємо кнопку «Get the sample units» і отримуємо код, який представлений на рис. 2.1.3 Рис. 2.1.3 Код отриманої вибірки Отриманий код містить 36 стовбців, кожен з яких відповідає за окрему характеристику домогосподарства. Розшифровка коду наведена в додатку А. 2.2 Порівняння відборів
В своїй роботі я використовую другу конфігурацією StatVillage, а саме Mini Village, яка складається з 60-ти блоків. Для того, щоб порівняти точності систематичного, простого випадкового та стратифікованого відборів, я буду використовувати вибірки, добуті з 11-го та 13-го стовпців коду. Ці стовпці називаються TOTINCH та BUILTH, що є загальним доходом домогосподарства (включає в себе заробітну плату, пенсії, дівіденти та відсотки за депозитами і т.д.) та періодом побудови домогосподарства відповідно. В результаті дослідження виявилось, що домогосподарства в StatVillage впорядковані за загальним доходом, а саме загальний дохід зменшується зі зростанням номеру домогосподарства. Логарифмічна регресія значуща. На рисунку 2.2.1 представлена діаграма розсіювання та логарифмічна регресія. Рівняння регресії: Порівняємо дисперсії середнього доходу домогосподарств при систематичному відборі кожного восьмого домогосподарства, простому випадковому відборі та стратифікованому відборі. Після отримання коду з 11-го стовпця (див. рис 2.1.3) запишемо дані в таблицю 2.2.1, розділивши на 60 страт. Таблиця 2.2.1 Дані по 8-ми систематичним вибіркам Страта Номер систематичної вибірки (k=8) 1 2 3 4 5 6 7 8 1 214500 306000 291178 274200 250000 224230 224308 215448 249983 2 173777 200000 194322 175879 175000 173058 163673 162425 177266,8 3 143140 156667 150750 148433 151774 155215 147700 144781 149807,5 4 127600 142800 140900 140000 145148 137400 132998 137526 138046,5 5 228148 127706 129400 127109 124365 124324 126280 122300 138704 6 116200 120000 120393 120021 117561 116876 116400 131253 119838 7 112000 116000 116000 116000 115000 115400 114497 115936 115104,1 8 110300 114766 121294 117000 112100 110000 110000 109600 113132,5 9 105000 110830 112144 108481 108000 108601 105493 105000 107943,6 10 108953 165544 114427 105200 122916 102865 105664 102900 116058,6 11 100800 102400 113340 101800 124400 100702 102567 105400 106426,1 12 102400 100400 101300 101000 100333 108470 99070 99800 101596,6 13 98433 99400 98957 100871 98719 105833 104889 101700 101100,3 14 96830 98100 98000 107589 96050 96000 130797 96193 102444,9 15 97700 94728 94600 94542 93929 93728 107275 93933 96304,38 16 93100 100850 95029 93000 93626 101800 92312 93610 95415,88 17 90000 93082 108632 101221 94304 92100 101150 90800 96411,13 18 87000 90000 88846 88697 92593 88400 88000 88800 89042 19 85500 96348 87483 88615 92728 86028 86000 86257 88619,88 20 84000 87073 85320 105548 97503 85800 85691 85120 89506,88 21 85170 120000 87893 83514 84134 83201 83080 83000 88749 22 82474 93489 82720 82530 102614 82800 82986 82080 86461,63 23 80000 84000 81777 80539 86759 81200 80800 80000 81884,38 24 79854 80000 80400 80000 113400 79350 80050 94375 85928,63 25 78400 79000 81268 79400 80800 79800 79532 86117 80539,63 26 76228 78075 77600 77985 77650 77359 79122 77096 77639,38 27 75733 77000 76149 76000 86069 78974 85351 95990 81408,25 28 74700 76400 75853 75000 76983 90305 87022 75528 78973,88 29 74000 74946 74961 99015 86590 84569 77300 74800 80772,63 30 84818 73587 77909 75210 79193 72400 73000 72110 76028,38 31 71050 72093 72200 72800 72800 71856 72174 71238 72026,38 32 70509 71400 71000 121762 71647 71397 72458 70750 77615,38 33 75129 70000 70800 70400 87400 74915 70000 70800 73680,5 34 69900 69731 73282 73792 69470 83568 69833 74300 72984,5 35 67681 69105 79079 76779 68550 71178 68033 72400 71600,63 36 67700 68400 71570 74400 78843 67400 67000 77141 71556,75 37 65659 66703 67217 66800 75000 72439 65400 66132 68168,75 38 65000 69320 65000 71800 65000 76890 66154 65500 68083 39 69600 65300 73111 65065 68457 69200 64400 65229 67545,25 40 63000 67200 71943 63652 66020 64400 63993 70740 66368,5 41 62900 63800 63800 62893 63200 63200 62697 63306 63224,5 42 63519 62500 62763 83643 62400 62095 65900 69725 66568,13 43 62364 61611 71443 61304 61300 61200 61908 65000 63266,25 44 92240 61400 68700 61355 61623 60468 61151 79534 68308,88 45 71233 61612 60800 61800 62000 60800 60910 60000 62394,38 46 58988 60374 63684 78065 60733 59000 59400 59400 62455,5
|