Terbiasa menggunakan sepeda dengan rem tangan kemudian berganti rem kaki (terpedo), apa yang terjadi? Harus menyesuaikan. Begitupula dengan regresi yang banyak ragamnya itu. Beberapa bulan lalu bergelut dengan geographically weighted regression dimana ‘posisi menentukan nilai tinggi’, harus berpindah ke model regresi untuk memperkirakan. Probability atau odds tidak memperhatikan lokasi, karakter datanya berbeda. Perilakunya berbeda dan pada akhirnya menghasilkan robustness yang tidak sama. Untuk memutuskan menghapus spatial outliers itu saja harus mensimulasikan nilai kedekatan (neighborhood), tidak asal karena akan berpengaruh pada nilai r-squared. Ini beda lagi. Ada 5 kesalahan yang harus diperhatikan saat beralih model regresi dari berbasis spasial ke non-spasial.

Jangan underestimate regresi non-spasial. Ini adalah kesalahan terbesar saya beberapa minggu lalu, terlalu underestimate dengan multinomial logistic regression. Underestimate itu terjadi karena sebelumnya bisa eksekusi data lebih dari 8.000 dan berbasis spasial. Sedangkan data yang sekarang hanya 181, hasil dari screening 1,9 juta data (longitudinal tahun 1993 – 2021). Ah gampang, paling ya gitu-gitu saja, seperti yang sudah dikerjakan. Terlalu PD dan terlalu menyepelekan, kenyataannya tidak begitu. Kebiasaan memegang data spasial yang relatif komplek kemudian ke data non-spasial ternyata harus menyesuaikan. Tetap harus membaca lagi primbon-primbon olah data dasar. Dan itu sama sekali tidak dilakukan, langsung running data di RStudio. Akibatnya, gagal: tidak robust, interval nilai confidence terlalu besar, dan banyak lagi.

Perhatikan tipe data. Kalau di SPSS ada nominal, scala dan ordinal, di R beda lagi lebih kompleks ada yang membedakan antara integer dengan character (baca di sini). Ini akan menjadi dasar RStudio melakukan gaweannya: menghitung. Dan ini adalah kesalahan terbesar kedua. Tidak memperhatikan bagian ini, padahal sesuatu yang fundamental.

Cropping data. Jika punya data longitudinal dan memang ada informasi yang spesifik di rentang tahun tertentu maka jangan sungkan untuk memotongnya. Cropping saja di rentang tahun tertentu itu sesuai dengan lingkup riset dan pesan apa yang akan disampaikan. Lama sekali keputusan untuk memotong data ini dilakukan. Awalnya saya berfikir bahwa data besar dari tahun 1993 – 2021 tentu akan lebih meyakinkan, kenyataanya justru membiaskan pesan/ informasi yang akan disampaikan. Potong, tidak usah ragu. Jika itu memang diperlukan.

Kenali kelemahan mesin. Lama sekali confidence interval tidak kunjung menyusut. Besar hingga ratusan bahkan ribuan. Ternyata masalahnya bukan hanya di distribusi dan standarisasi data, tetapi juga pada jenis package yang digunakan atau justru mesin statistiknya. Baca papernya Jokin de Irala (di sini) agar lebih jelas. Semacam sopir metromini, harus tau cara reparasi mobil meskipun sebatas ganti ban. Kurang lebih begitu.

Perhatikan variabel kontrol. Ini didapatkan dari literatur, jadi tidak bisa dibuktikan begitu saja dari dataset. Perhatikan saja bagaimana korelasi variabel kontrol itu maka itu bisa dijadikan patokan. Termasuk referensi yang akan menjadi awalan sebuah cerita.