Багатоваріантний аналіз і класифікації

<1 2 345 6 7 >

У природних дослідженнях досить часто доводиться мати справу з багатьма властивостями об'єктів. У зв’язку з цим постає задача скорочення даних з метою їх кращого сприйняття. Це можна зробити при урахуванні тісних взаємозв'язків і взаємозалежностей між властивостями природних об'єктів і знаходженням комплексних взаємозалежних змінних. Зазвичай для цих цілей використовується компонентний аналіз.

Компонентний аналіз, або метод головних компонент являє собою математичну операцію для визначення взаємозв'язку між низкою об'єктів п, кожний з яких характеризується набором характеристик т. Початкові дані перетворяться в набір нових параметрів, що називаються головними компонентами і які є лінійними комбінаціями первісних змінних.

Головні компоненти ортогональні, тобто незалежні одна від одної. Значення їх для кожного об'єкта – це набір змінних, що представляють початкові дані у стиснутому вигляді, які можна відображати у вигляді карт розподілу, що характеризують основні аспекти набору вихідних даних.

Подальше стиснення вихідних даних здійснюється за допомогою кластерного аналізу, коли значення головних компонент відображаються не в географічному просторі, а в просторі, обмеженому осями головних компонент. У цьому випадку показуються групи об'єктів, що мають схожі значення за обома осями. Якщо співвіднести ці кластерні угруповання з одиницями класифікаційних систем, то можна досягти ще більшого стиснення вихідної інформації. Більше того, отримане з аналізу первісних даних групування є „природним” формуванням на відміну від екзогенних та ідеографічних класифікацій, виведених буквально з нічого.

Існує багато способів проведення кластерного аналізу з метою складання карт хороплет. При цьому використовуються системи двох видів: розділові й агломераційні. В розділювальних системах використовують увесь масив вихідних даних і потім шукають найкращийспосіб його поділу на класи. В агломераційних системах досліджують подібність між окремими об'єктами, перед тим як поєднувати їх в групи.

Для визначення схожості об'єктів застосовуються методи, засновані на розрахунку відстаней у варіаційному просторі як міри подібності: евклідова відстань розраховується за формулою:

де X –значення властивості К об'єктів i та j .

Евклідова відстань залежить від масштабів, в яких виміряються змінні. Тому її зазвичай використовують для обробки даних, перетворених за допомогою методу головних компонент.

Крім евклідової відстані користуються також й іншими формулами розрахунку. Приклад порівняльної оцінки двох варіантів траси наведена на рис. 17.9.

Рис. 17.9. Порівняльна оцінка варіантів траси нафтопроводу

За допомогою того або іншого методу будується матриця подібності або розбіжності розміром де N – число пунктів у наборі даних. Потім об'єднують об'єкти в групи, відштовхуючись від знаходження пари точок, найближчих одна до одної у просторі, визначеному змінними. Подальше приєднання об'єктів до груп можна виконувати різними способами.

В методі одного можливого зв’язку точка приєднується до тієї групи, до якої належить її найближче сусідство. В центроїдному методі об'єкт приєднується до тієї групи, відстань до центра якої від нього мінімальна; в методі Варда – до тієї, яка приводить до найменшого збільшення суми середньоквадратичного відхилення між об'єктами в групі і середнього значення груп.

Способи приєднання об'єктів до груп графічно можна зобразити у вигляді дендрограми, або дерева зв'язків.

Якщо дані мають чітку структуру, то теоретично використання різних методів розрахунку подібності і формування взаємозв'язків між об'єктами повинно приводити до схожих результатів, що не завжди виходить на практиці.

При використанні кластерного аналізу виникає проблема складання карт, що показує, як розташовуються різні класи.

До недоліків методів кластерного аналізу відноситься те, що вони ідеографічні, тобто отримувані результати залежать від точності характеристик набору вихідних даних. Отже, класифікації, отримані для сусідніх територій, є непорівнянними.

Статистичні карти

Дрібномасштабні статистичні карти заслуговують особливого розгляду через їх зростаюче значення. Ці карти ґрунтуються на джерелах, що містять кількісну інформацію, наприклад на даних переписів. Серед способів передачі інформації необхідно зазначити точковий, методи ізоплет, хороплет (картограм) і картодіаграм. Все ці способи можуть використовуватися для одних і тих же даних. Точкові значки однакового розміру, кожний з яких позначає однакову кількість одиниць зображуваного явища, наносяться на карту відповідно до фактичного розміщення явища; скупчення або розрідженість точок показує розподіл (щільність) картографованого явища. Ізоплети являють собою ізолінії, що з’єднують точки з однаковими значеннями певного відносного показника, обчисленого на підставі інших показників (а не безпосередньо виміряного). Прикладом можуть слугувати ізолінії середніх місячних температур (розрахунковий показник) (рис. 17.10).

Рис. 17.10. Приклад ізоплет Рис. 17.11. Карта хороплет для оцінки приросту населення

У системі хороплет (рис. 17.11) конкретна територіальна статистична одиниця (наприклад, адміністративний округ) розглядається як однорідна по даному статистичному показнику; просторова диференціація досягається тим, що виділені одиниці поділяються на класи за величиною картографованої ознаки і кожному класу надається певний колір.

На картодіаграмах площі, статистично однорідні щодо обраної ознаки, показуються безвідносно до границь територіальних одиниць, дані про які, покладені в основу карти. Ще два способи, які часто застосовуються для статистичних карт, – це знаки, розмір яких залежить від кількісної характеристики зображуваного явища, і знаки, що вказують напрямок переміщення.

У першому способі, застосовуваному у випадку точно локалізованих явищ, наприклад, міського населення, точкові знаки мають різні вагові значення; розмір знаків вибирається пропорційним їхній вазі і має декілька градацій (наприклад, за кількістю мешканців міст).

Знаки переміщення можуть включати і кількісну характеристику (наприклад, об'єми морських перевезень). Такий ефект досягається зміною товщини ліній.

Районування

При розв’язанні питань диференціації (районування) територій і об’єктів важливо визначити не тільки структурні внутрішні ознаки (параметри) територіальних комплексів, а й співвідношення між цими комплексами, що встановлюються за сукупністю внутрішніх ознак (показників), які характерні для розглядуваних територіальних одиниць (об’єктів).

При цьому треба вміти відрізняти район від звичайного ареалу. Ареал – це ділянка поверхні, територія, однорідна за певною ознакою, тобто гомогенна (рис. 17.12).

Рис. 17.12. Ареал і район:

а – ареал, б – район

Район завжди є територією з цілісною системою зв'язків, він внутрішньо неоднорідний, тобто має певну функціонально-територіальну структуру і внутрішню організацію. Кожен район повинен мати певні ознаки об'єктивності, специфіки і єдності (цілісності) своїх компонентів і елементів. Його визначають такі параметри, як міра компактності, центральності і типовості частин.

Конкретні результати процесу районування залежать від матеріально-речовинного виразу тієї якості, яка районується.

Задачі диференціації територій або об’єктів за сукупністю показників можна вирішувати з використанням аксонометричних методів, дискримінантного і кластерного аналізу, теореми Баєйсса та інших методів.

Сутність таксонометричних методів полягає в тому, що для досліджуваних територіальних одиниць (об’єктів, процесів, явищ), визначаються значення характеристик X_ij за n показниками. Приймемо ці показники за координати в n-мірному просторі і визначимо для кожної пари одиниць аксонометричні відстані:

, де k=i=1,2,…m; j=1,2,…n.

Складемо матрицю цих відстаней D, при використанні якої виконується диференціація територій (об’єктів) за різними алгоритмами.

Наприклад, у способі, описаному Б. Беррі [8] у 1961 р., диференціація здійснюється поетапно. Спочатку маємо m вихідних територіальних одиниць (об’єктів). На першому етапі знаходимо в матриці D найменшу аксонометричну відстань d_ij між територіальними одиницями i-j й об’єднуємо їх в одну нову матрицю. Встановлюємо для неї показники, що є середньоарифметичними з показників вихідних територіальних одиниць.

У результаті таких обчислень замість m територіальних одиниць їх буде утворено m–1. За показниками цих m–1 одиниць знову обчислюємо аксонометричні відстані, складаємо матрицю цих відстаней D, знаходимо в ній найменшу відстань d_ij, об’єднуємо одиниці k та l в одну нову матрицю, що має усереднені показники. У підсумку отримуємо m–2 територіальні одиниці. Цей процес може продовжуватись до тих пір, поки не утвориться одна територіальна одиниця, або поки не буде досягнутий необхідний ступінь диференціації (необхідна кількість таксонів).

Розглянутий спосіб є простим, але потребує багатократного послідовного обчислення таксонометричних відстаней, таксони визначаються механічно, а відстані між ними не завжди можуть бути сталими.

Задачу можна розв’язати іншим способом. Спочатку виділяють еталонні одиниці на підставі оцінок фахівців (географів, картографів та інших) або за допомогою того або іншого алгоритму.

Потім розв’язують задачу віднесення кожної територіальної одиниці до тієї або іншої еталонної сукупності з використанням того або іншого алгоритму, наприклад, дискримінантного або кластерного аналізу. Якщо розглядати район як певну однорідність (єдність, сукупність), яка складає систему елементів з взаємодіючими процесами, то саме районування можна вважати специфічною формою класифікації у широкому розумінні.

Районування – система територіального розподілу на райони: адміністративні, економічні, природні тощо. Процес районування (зонування) полягає в об'єднанні об'єктів на карті у великі регіони або території для узагальнення даних за цими територіями (рис. 17.13).

Рис. 17.13. Районування ґрунтів Чернігівської області

Районування використовується в різноманітних задачах, таких як створення й аналіз територій збуту, виборчих округів, територій, що обслуговуються підрозділами аварійної служби, маршрутів доставки, аналіз розподілу ресурсів тощо. ГІС створює тематичну карту методом індивідуальних значень, в якій тематичною змінною є назва території. Крім того, ГІС дозволяє динамічно відслідковувати зміни в даних за районами при переносі об'єктів з одного району в інший.

Районування в ГІС – процедура обчислення цілісних територіальних систем на основі різниці між ними, а при топології та кількісній оцінці – однорідності виділюваних таксонів[2].

Районування може провадитися за комплексом ознак, які охоплюють усі або майже всі компоненти природного середовища (комплексне фізико-географічне або ландшафтне, районування), і за певними ознаками рельєфу, клімату, ґрунтів тощо (часткове, або галузеве, природне районування).

Районування найчастіше всього використовується для оптимізації територіального планування і розв'язку задач які іноді називаються ”балансуванням (вирівнюванням) територій”.

При районуванні не створюються нові географічні об'єкти на карті, а також не вносяться будь-які постійні зміни у стилі існуючих об'єктів. Районування являє собою інструмент динамічного групування існуючих об'єктів й аналізу відповідних даних. Однак користувач ГІС може зафіксувати зміни в об'єктах, зберігши у вигляді окремої таблиці результати районування. Районування можна здійснити для будь-якої таблиці, що містить графічні об'єкти типу область, лінія або точка. Різні райони зображуються різними штриховками, типами ліній або символів. Кількість районів для кожної таблиці зазвичай не перевищує 300.

Районування особливо корисне при великому розкиді значень даних, коли необхідно оцінити різні сценарії розподілу. Районування можна застосовувати для створення нових територіальних одиниць або для перепланування існуючого поділу.

Нормалізація

У класифікації також застосовують нормалізацію (від фр. normalization – упорядкування) – процес перетворення бази даних до вигляду, що відповідає нормальним формам. При нормалізації атрибутів відбувається поділ кожного значення атрибута на певне число, щоб утворилось співвідношення. Нормалізувати атрибути можна за:

– відношенням до суми значень атрибутів так, щоб отримані відносні значення були відсотком від суми;

– значеннями інших атрибутів, беручи до уваги просторові відмінності іншого явища, які можуть вплинути на атрибути, за якими здійснюється класифікація.

<1 2 345 6 7 >

Дата добавления: 2016-06-05; просмотров: 1707;

Поиск по сайту

Узнать еще

Публикации по технике и механике

Публикации по биологии

Публикации по информатике

Публикации по строительству

Публикации по физике

Публикации по химии

Публикации по электронике

Публикации по искусству

Публикации по географии

Публикации по медицине

Публикации по педагогике

Разделы публикаций