Spatial data, sangat unik dan harus ditangani secara berbeda. Tidak sama dengan data-data lain yang tidak memiliki koordinat (xi,yi). Konsekuensi dari koordinat (xi,yi) itu bukan hanya lokasi tetapi juga jarak yang dihitung dari point-to-point. Dikala kita menghadapi outliers data, yang paling sering dilakukan seorang peneliti adalah menghapusnya atau justru membiarkannya. Saya mulai dari membiarkan outlier tetap di posisinya. Memang outliers terkadang justru menjadi petunjuk akan adanya fenomena baru yang diwakili oleh kelompok kecil di dataset besar. Contoh gampangnya begini: munculnya sel kanker untuk pertama kali yang teridentifikasi. Mungkin saja akan menjadi sel yang benar-benar berbeda dan itu adalah petunjuk akan adanya sel asing. Di statistik, itu mungkin saja hanya outliers kalau dihapus justru berbahaya karena membiarkan sesuatu terjadi tanpa dipedulikan. Berbeda dengan itu, kita bisa memposisikan outlier sebagai anomali. Kalau ini bisa kita hapus saja. Contohnya adalah di populasi perempuan ternyata ada seorang laki-laki. Ya sudah hapus saja data outlier itu, mungkin dia salah masuk kamar atau entry data. Hapus outlier adalah solusi dalam kasus ini.

Bagaimana dengan data spasial? Hapus outlier bisa saja dilakukan, tetapi ada konsekuensi di dalam perhitungan neighbourhood, nilai tetangga dan pada akhirnya berpengaruh pada nilai matematika. Ambil contoh di Geographically Weighted Regression (GWR) dimana weight dihitung dari jarak antar titik. Dikala ada 1 atau lebih titik dihapus maka akan berpengaruh pada bobotnya. Pada akhirnya hasil analisis akan mendapatkan imbas. Hapus outliers di data spasial bukan satu-satunya solusi bijak.

Lebih lanjut, lokasi di data spasial akan berhubungan dengan kualitas data. Sangat berhubungan kuat. Lagi-lagi lokasi tidak hanya berkaitan dengan dimana berada tetapi juga berkaitan dengan panjang & jarak yang dihitung dari titik-titik koordinat itu. Berapa panjang dari titik A (xa,ya) ke titik B (xb,yb)? Pakai saja pitagoras untuk menghitungnya. Yang menjadi pertanyaan sekarang, dikala koordinat A tidak akurat maka jarak A ke B dipastikan juga tidak akurat. Artinya kualitas spatial data tidak hanya ditentukan oleh informasi atas suatu data tetapi juga titik lokasinya. Rada muter-muter, maksudnya begini. Katakanlah titik A itu adalah nama rumah sakit maka kualitas data spasial ditentukan oleh (1) lokasi titik, dan (2) nama rumah sakit. Minimal ada 2 data itu yang kemudian harus di cek. Sangat berbeda dengan data biasa yang mungkin saja cukup dicek nama rumah sakit saja. Data spasial membutuhkan treatment berbeda. Begitupula dikala melakukan data cleaning, harus bekerja di 2 ranah itu: lokasi dan informasi.

Chen bersama rekan-rekannya (2007) menjelaskan cara menanganinya. Di artikel yang berjudul: on detecting spatial outliers (baca disini), dia menjelaskan dengan 2 cara: deteksi outliers spatial kemudian baru deteksi informasinya. Yang dicari lebih dahulu adalah sebaran ruangnya. Contohnya begini: di kelompok rumah-rumah mewah yang biasanya menjadi enclave ternyata terdeteksi ada rumah kumuh. Mungkin tidak kira-kira? Bisa saja itu terjadi. Lihat saja dikala membangun perumahan mewah, ada bedeng-bedeng berupa gubug yang berfungsi sebagai ‘gudang’ peralatan proyek. Itu kalau teridentifikasi sebagai ‘rumah kumuh’ maka akan menjadi anomali/ pembeda dengan rumah-rumah mewah di sekitarnya. Itu adalah outliers yang harus diperhatikan dari sisi lokasi terlebih dahulu apakah diluar boundary rumah mewah ataukah di dalamnya? Dikala itu dihilangkan apakah akan mempengaruhi boundary tadi? Kelompok spasial akan dipengaruhi oleh titik rumah ‘kumuh’ berupa bedeng tadi.

Tahap selanjutnya adalah melihat isinya. Disebut outliers dikala memiliki informasi berbeda banget dengan populasi secara umum. Ambil contoh tinggi bangunan, di kelompok rumah mewah (contoh di atas), hampir seluruh bangunan memiliki 3 lantai namun rumah bedeng itu hanya 1 lantai. Itu juga disebut sebagai outliers bukan dari lokasi (xi,yi), namun oleh tingginya bangunan. Dihapus? – mungkin itu adalah alternatif yang bisa dipertimbangkan.

Apa yang bisa disimpulkan? Spatial data outliers memiliki karakter berbeda. Harus ditelisik dari 2 sisi: lokasi dan informasi. Pertama ditelisik dari lokasi kemudian baru informasi yang dia muat. Sekarang apa yang harus dilakukan dikala datamu lebih dari 100, mungkin 1.000 atau 1.000.000 data? Harus dipelototi setiap titik. Dikala data tidak bersih maka analisis tidak memberikan informasi yang akurat, dan pada akhirnya hanya scroll up & scroll down (baca di sini)

One thought on “Spatial data outliers: harus ditangani berbeda

Comments are closed.