2.2.3.1.4. Розрахунки параметрів ЗРЙ за результатами вибіркових спостережень
Основним статистичним прийомом отримання початкових відомостей у СР є вибіркове спостереження. Через неможливість охопити всю сукупність джерел інформації (генеральну сукупність, або "популяцію") вибіркова методика будується таким чином, щоб на підставі обмеженої кількості фактів можна було зробити максимально обґрунтовані висновки щодо генеральної сукупності. Задля цього планується кількість спостережень і використовуються придатні, незміщені й ефективні статистичні оцінки дійсних значень досліджуваних величин. Цим вимогам відповідають, насамперед усереднені оцінки (або міри центральної тенденції).
Середня величина — узагальнюючий показник, що характеризує найімовірніший рівень варіюючої кількісної ознаки на одиницю вибір-
кової сукупності. Розрізняють степені (прості та зважені) середні та структурні. Зважені середні застосовуються тоді, коли значення змінних (варіант, ознак) зустрічаються у вибірковій сукупності неоднакову кількість разів. До степеневих середніх належать арифметична, геометрична, гармонічна та квадратична середні. Структурні середні — це мода та медіана. На відміну від степеневих середніх значення структурних середніх збігаються з певними значеннями варіант, тому вони частіше застосовуються для опису сукупності атрибутивної ознаки.
Для розрахунків середніх у MS Excel є повний набір стандартних функцій. Користувачеві залишається ввести масив даних і викликати потрібну функцію. В системі STATISTICA розрахунки середньої арифметичної, моди та медіани автоматизовано. Інші середні розраховуються за формулами, які вводяться користувачем.
Мінливість (варіабельність) даних (варіант, ознак) описується в статистиці такими параметрами, як розмах варіації; середнє лінійне відхилення; середній квадрат відхилення, або дисперсія; середнє квадратичне відхилення (СКВ), або стандартне відхилення; коефіцієнт варіації тощо. Як і середні, характеристики мінливості можуть бути вибірковими (тобто розраховуватися за конкретною вибіркою) або можуть належати до генеральної сукупності (коли вважається, що наявні дані охоплюють більшу частину множини одиниць сукупності). Усі ці параметри обчислюються в MS Excel, але тільки для нормального ЗРЙ. За допомогою STATISTICA можна автоматично обчислити вибіркову дисперсію, стандартне відхилення та розмах варіації для будь-якого ЗРЙ.
Згадані статистичні характеристики належать до точкових оцінок, тому що наближають дійсне значення випадкової величини числом і нічого не говорять про те, з якою імовірністю ця оцінка відповідає дійсності. Наприклад, зі 100 випадково вибраних підлітків 15 відповіли ствердно на запитання, чи регулярно вони займаються спортом. Чи можна з цього зробити висновок, що лише для 15 % молоді міста створено умови для зміцнення здоров'я? Безумовно, це — оцінка і її надійність була б вищою, якби в опитуванні взяло участь, скажімо, 1000 підлітків. Але статистичні методи дають змогу зробити надійний висновок і в цьому випадку.
Різниця між оціненим (вибірковим) та дійсним (генеральним) значеннями називається помилкою вибірки. Помилки розраховуються
для середньої, дисперсії, стандартної помилки тощо. Можна розрахувати ймовірність (її називають довірчою), з якою вибіркові характеристики потрапляють в деякий заданий інтервал своїх значень, або, задавши необхідну ймовірність, визначити граничну помилку, що задає діапазон значень (довірчий інтервал), який з цією ймовірністю "накриває" вибіркове значення. Така оцінка називається довірчою. У розглянутому прикладі з імовірністю 95 % можна зробити висновок, що фактичний відсоток підлітків, які регулярно займаються спортом, лежить в інтервалі від 9 до 24 %, тобто відхиляється від точкової оцінки не більше ніж на 6 % у бік зменшення та на 9 % — у бік збільшення.
До MS Excel включено тільки одну функцію (ДОВЕРИТ), що розраховує довірчий інтервал для середньої арифметичної нормального ЗРЙ. Інші потрібно програмувати. Можливості системи STATISTICA значно ширші, вони охоплюють різні види ЗРИ. У нашому прикладі розрахунки виконувалися в системі STATISTICAз використанням біноміального ЗРЙ, тому що в анкеті було передбачено тільки два варіанти відповідей: "так" і "ні" (дихотомічні дані соціального опитування).
Розрахунки кількості потрібних спостережень не автоматизовані в обох заданих програмах, але вони легко програмуються з використанням відомих співвідношень для непараметричної %2-статистики (див., наприклад, [11; 22]).