Оптимізація розподілу

Щоб спростити і прискорити процес сприйняття карти, необхідно коректувати діапазони розбивки в сторону спрощення класів.

Якщо не ставити за мету нанесення на карту точних значень даних, то за допомогою округлення мінімальних і максимальних значень можна отримати більш легку для зчитування легенду без втрати помітних на карті закономірностей.

Деякі ГІС при розподілі класів автоматично створюють безперервні діапазони, у яких максимальне значення кожного класу є мінімальним для наступного більш високого класу. Насправді, найнижча фактична величина даних для більш високого класу може бути значно вище мінімального значення класу, показаного в легенді. Тому, використовуючи можливості ГІС, необхідно визначити класи, а потім змінити найменше значення для кожного класу відповідно до найменшого значення об'єктів. При незмінності закономірності на карті, легенда краще відобразить діапазони реальних значень. Це особливо ефективно, якщо використовується класифікація за допомогою природного розподілу. Однак не варто цього робити, якщо застосовується метод рівних інтервалів, тому що отримувані з його допомогою діапазони безперервні за визначенням.

Можна перейменовувати класи в легенді подібно до упорядкованих величин типу ”дуже високо”, ”високо”, ”середнє”, ”низько” чи „немає даних”. Це може зробити карту більш легкою для сприйняття. Це доцільно у тих випадках, коли відносні величини більш важливі, ніж реальні значення. Особливо цей прийом допомагає при роботі з великою кількістю даних. Наприклад, при визначенні кількості аптек на 1000 осіб для кожного досліджуваного району можна отримати числа з дробовою частиною, що в даному випадку безглуздо, оскільки важливо тільки зіставити райони між собою. Щоб зробити карту більш зрозумілою і наочною, можна змінити отримані числові значення на визначення типу ”високий”, ”середній” і ”низький”.

Чимало неприємностей може завдати і проблема аномальних значень. Занадто високі або занадто низькі значення можуть настільки змінити значення середнього, що більшість об'єктів виявиться в одному класі. Змінюючи діапазони класів, аномальні значення можуть змінити і досліджувані закономірності. Це особливо помітно при використанні схеми розподілу на рівні інтервали або за середньоквадратичним відхиленням, коли всі значення, за винятком аномального, можуть потрапити в один клас. Використання природного розподілу може ізолювати аномальні значення в найвищому або найнижчому класі, але це все відіб'ється на інших класах.

Потрібно розглянути аномальні значення уважніше. Вони можуть бути результатом помилки в базі даних або випадковою для даної вибірки величиною, проте можуть виявитись і цілком об'єктивною інформацією. Багато що залежить і від постановки завдання. Наприклад, як враховувати при аналізі аномалії свинцю, причиною якої є звалище старих акумуляторів? Геолог, що досліджує природний геохімічний фон, неодмінно виключить ці дані з вибірки, оскільки вони заважають виявленню природних закономірностей. А от дослідник, що веде аналіз екологічного ризику для населення, швидше за все залишить їх як один з найважливіших факторів, що впливає на здоров'я людей.

Отже, якщо аномалії – це не помилки у базі даних, які можна виправити, то потрібно вибрати один із варіантів обробки таких значень залежно від того, як вони впливають на інші дані й на закономірності просторових розподілів на карті. Відомо декілька традиційних методів боротьби з небажаним впливом аномалій на результат класифікації. Наведемо деякі з них:

– якщо аномальні значення істотно розкидані, можна розмістити кожне з них у власному класі;

– якщо група аномальних значень локалізована в одному місці, можна згрупувати їх разом в один клас;

– можна також згрупувати їх з сусіднім верхнім чи нижнім класом, якщо вони розташовані також недалеко від інших значень у цьому класі;

– якщо відомо, що аномальні значення безпідставні, то їх можна замаскувати сірим кольором або замаркувати поле як ”Недостатньо даних” у легенді.

Аномальні значення можуть виникати і в результаті обчислення відносних значень. Незважаючи на те, що вихідні значення були нормальними, результат їх ділення може вводити в оману. Це може спричинятися невірним засобом збереження об'єктів у базі даних чи організацією взаємозв'язків між значеннями на карті. Припустимо, на карту наноситься кількість продуктових магазинів у кожному районі на 1000 осіб. Якщо ці торгівельні точки розташовані в районі, де живе небагато людей (промисловий район), то розрахунок кількості продуктових магазинів на 1000 осіб у цьому випадку призведе до завищеного значення, спотворюючи класи й спотворюючи справжні закономірності у розподілі даних.