2.2.3.1.8. Факторний аналіз і класифікація ознак
Ми вже ознайомилися з поняттям фактор і говорили про те, що з-поміж причин аналізованого явища бажано виокремити основні фактори, які не корелюють між собою. Ми також описали одну з процедур відбору другорядних факторів у процесі виконання КРА. Сукупність таких процедур є одним з напрямів множинного статистичного аналізу, який називається факторним аналізом (ФА). Поява ФА пов'язана з проблемами обробки значних масивів спостережень у психології, соціології, економіці, політології, медицині — науках, які не мають поки що розвинених теорій, спроможних пояснити результати масових обстежень. Наприклад, психологи, аналізуючи відповіді на запитання тестів, призначених для визначення професійної придатності, давно помітили наявність кореляцій між результатами тестування різних людей. Факторний аналіз намагається пояснити походження таких кореляцій і виявити невелику кількість значущих факторів, що містять всю суттєву інформацію про лінійні зв'язки між результатами тестування. В цьому разі такими факторами можуть бути здатність мислити логічно або образно, тренованість і освіченість, характер темпераменту, культурний рівень, соціальний статус, суспільна активність та інші фактори, кожний з яких безпосередньо не може спостерігатися й вимірюватися. У ФА звичайно передбачається лінійний зв'язок між результативною змінною Y та факторними ознаками /:
де: а.. — коефіцієнти, що визначаються, або факторні навантаження; £,. — f-та складова деякого додаткового вектора факторів, що має смисл статистичної перешкоди.
Вектор Ь, називають також характерним фактором [3], його середнє дорівнює 0, а дисперсія невідома.
Рівняння (17) має такий самий же вигляд, як і рівняння регресії (2), але принципово відрізняється від нього тим, що в ньому невідомі не тільки а., та В,., а й фактори /;, /2, .../ш, які у ФА називаються "загальними". Задається лише кількість факторів т. Розв'язок задачі знаходять, припускаючи, що загальні фактори не корелюють між собою, а факторні навантаження повинні бути такими, щоб мінімізувати сумарну дисперсію характерних факторів. Рівняння (17), доповнене цими припущеннями, називається моделлю головних компонент (МГК). Процедура розв'язування спрощується, якщо шукати факторні навантаження за умови доставляння мінімуму сумі модулів коефіцієнтів кореляції. Така модель ФА дістала назву моделі центроїдних компонент (МЦК). Наступним кроком у розвитку ФА було введення припущення про некорельованість загальних факторів як між собою, так і з характерними факторами. Справді, в соціології та психології характерним фактором дуже часто буває випадок. Наприклад, одним із психологічних тестів є визначення швидкості, з якою людина розв'язує ту чи іншу задачу. Ця швидкість залежить від таких загальних факторів, як рівень її інтелектуальних здібностей, рівень освіти, інтерес до розв'язування задач взагалі, — виявлення таких прихованих параметрів і становить суть тесту. Водночас на швидкість прийняття рішення впливають різні випадковості. Тестований може відволіктися або, навпаки, згадати аналогічну задачу тощо. Ці та інші випадковості зумовлюють велику дисперсію характерного фактора тестування. Модель ФА, побудована за таким додатковим припущенням, називається факторною моделлю (ФМ). Для розв'язування задач ФА використовують різноманітні процедури пошуку екстремумів функціоналів: МНК, ММП, координатного спуску, Гауса — Зайделя тощо. Однак всі вони, як і зазначені моделі, є формальними математичними прийомами і в загальному випадку можуть приводити до різних наборів факторів, які задовольняють умови моделей (тобто мають місце вироджені розв'язки). Ця ситуація дістала у ФА назву "проблема обер-
тання факторів". Вихід з неї знайшли, використавши ще одне інтуїтивне припущення: якщо вдається виділити достатньо ізольовані групи сильно пов'язаних між собою ознак, то кожний із загальних факторів повинен бути пов'язаний з однією з таких груп. Таким чином, задача ФА зводиться до задач класифікації (агрегатування, кластерного аналізу, структурного аналізу, таксономії, стратифікації).
Загальна ідея класифікації полягає у перетворенні отриманої з ФА п х т матриці (п перемінних, т факторів) таким чином, щоб можна було сформувати уздовж головної діагоналі непересічні підматриці, елементи яких були б якомога більшими, а ті, що розташовані поза ними, — маленькими, тобто діагоналізувати матрицю зв'язку. Існують певні прийоми такого перетворення, але їх розгляд виходить за межі цієї роботи.
До ФА тісно примикають методи дискримінантного аналізу (ДА), ідея якого полягає в знаходженні лінійних дискримінантних функцій типу d = а + Ь1Х1 + ... + Ь X , таких, щоб їх можна було використати для приписування спостережень до однієї з кількох груп (кластерів) на підставі відмінностей у величині d. Це можливо зробити, якщо зажадати, щоб d максимізувало відношення загальної та внутрішньо-групової дисперсій
Сучасні методи ДА є покроковими, в них ДА здійснюється в міру додавання (або видалення) класифікованих змінних на кожному кроці. Змінні вибирають з використанням лямбда-статистики Уїлкса (L= = detSSB /detSST), ц-критерію Бокса та інших критеріїв.
Всі перелічені методи реалізуються системою STATISTICA. MS Excel не має відповідних інструментів. Факторний аналіз у STATISTICA представлений модулем Factor Analisis та SEPATH — модулем структурного моделювання, що поєднує новітні досягнення в цій сфері (довідкова система ілюструє цей модуль вісімнадцятьма прикладами).
У менеджменті СР доцільно також використовувати:
• модуль Multidmensional Scaling (Багатовимірне шкалюван-
ня) — задля упорядкування (ранжирування) різних об'єктів за
якоюсь ознакою;
• модуль Discriminant Analisis (Дискримінантний аналіз) —
для розрахунків функцій класифікації та автоматичного відне
сення кожного доданого випадку до певної групи. Наприклад,
для класифікації респондентів або тестованих за відповідями на поставлені запитання;
• модуль Canonical analisis (Канонічний аналіз) — для побу
дови діаграм розсіювання, наприклад, візуалізації результатів
дискримінаційного аналізу;
• модуль Claster Analisis (Кластерний аналіз) — для поділу
нормалізованих даних між заданою кількістю груп за допомо
гою одного з шести правил об'єднання об'єктів у кластери.