Saya tidak tau apakah yang saya pikirkan benar, jadi kalau ada masukan atas tulisan ini, dipersilakan. Sejak akhir agustus lalu, mencari solusi atas model regresi yang tidak kuat. Istilah dalam statistiknya adalah tidak robust. Karena persoalan itu, saya meminta waktu rekan yang sedang sekolah di Groningen untuk berdiskusi. Kebetulan dia adalah ahlinya ahli matematika dan statistik. Diskusi selama 1,5 jam untuk menjawab 1 pertanyaan: bagaimana saya bisa menjadikan model regresi saya robust? Konsultasi tidak berhenti di situ. Hari ini (Rabu, 22/9/2021), pertanyaan yang sama saya lontarkan ke rekan diskusi E = MC2. Mendapatkan jawaban berbeda dari 2 pertemuan itu, yang intinya adalah modifikasi model dan sesuaikan variabel. Modifikasi model maksudnya adalah mungkin saja bukan regresi linear, coba regresi non-linear yang modelnya banyak itu. Sedangkan jawaban kedua adalah coba hilangkan variabel tidak valid dan tambahkan variabel lain yang sekiranya pas (sesuai teori tentunya).

Model regresi yang digunakan sebenarnya sudah sangat spesifik, sering disebut dengan hedonic regression method atau metode ekstraksi harga barang berdasarkan 2 komponen utama yaitu (1) kondisi internal barang atau bisa juga disebut struktur barang, dan (2) kondisi eksternal barang yang bisa juga disebut neighborhood. Setiap harga explisit barang selalu tersusun oleh 2 komponen utama itu. Sama halnya dikala barang yang kita beli memiliki kerusakan dimana sama-sama diketahui oleh penjual dan pembeli maka itupun menjadi bagian dari harga. Ada istilah the bundle of value/ price yaitu harga atau nilai yang benar-benar dibentuk oleh kesatuan variabel/ attribut dimana kalau atribut itu dipisah-pisahkan tidak bisa membentuk harga. Benar-benar harus menjadi the bundle. Analogi lain adalah kita memiliki 100 file yang kemudian kita masukkan ke dalam folder kemudian kita jadikan WinZip. Nilai/ besaran kapasitas file hasil WinZip itulah disebut sebagai the bundle. Metode ini biasanya digunakan untuk menilai harga barang dagangan seperti minuman, handphone, mobil, hingga harga property. Kita menilai preferensi kebutuhan manusia kedalam harga. Teori dasarnya memang teori permintaan konsumen yang dibentuk oleh preferensi kegunaan dan preferensi manfaat. Metode ini banyak ditemukan di penelitian urban economic dan juga spatial econometrics.

Kembali ke nilai regresi yang tidak robust itu, ternyata ada segmen pasar yang berbeda-beda yang juga direpresentasikan oleh harga. Saya rasa sudah bukan rahasia ilmiah lagi, kalau segmen pasar itu memang sangat ditentukan oleh demand/ konsumen. Mereka memiliki nilai-nilai (social value) yang kemudian membentuk harga pasar. Di sini kuncinya, dikala kita campurkan preferensi orang-orang kedalam algoritma untuk menerka harga, ternyata tidak valid, tidak robust. Kenapa? karena mereka memiliki preferensinya masing-masing. Orang-orang yang suka kendaraan mewah tidak akan memiliki preferensi sama dengan mereka yang suka kendaraan antik. Saya rasa itu sudah menjadi kesepakatan umum dan memang terjadi. Para penyuka kendaraan antik menilai umur kendaraan semakin lama semakin mahal, sedangkan kendaraan mewah menilai umur semakin baru itulah yang semakin mahal. Ada satuan nilai yang sama yaitu umur kendaraan tetapi memiliki nilai berkebalikan.

Kondisi serupa dikala orang membeli dan menjual rumah. Rumah mewah ya hanya untuk mereka yang dompetnya tipis setipis kartu kredit yang limitnya miliaran. Sebaliknya untuk rumah sederhana memiliki konsumennya sendiri. Itu yang kemudian selama ini disebut sebagai segmen pasar. Pembuatan regresi harusnya mengikuti segmen pasar ini atau di teori disebutnya sebagai sub market. Asyem… ternyata terus mendapatkan pembenaran mengenai: apa yang dihindari itu yang dihadapi.

Vocab sub-market itu sudah saya ketahui dari tahun lalu di awal baca-baca teori urban economic terutama yang berkaitan dengan individual equilibrium tulisannya Alonso (1963), ada kata itu di bukunya. Dia juga menjelaskan bahwa ada segmen pasar yang harus kamu perhatikan, tetapi saya selalu menghindari itu. Saya tidak mau membahas sub-market, tidak mau membahas segment pasar yang konsekuensinya pada pemodelan statistik yang lebih njelimet. Tetapi apa yang dihindari itulah yang saya hadapi. Tidak ada pilihan, saya harus membuat segmentasi pasar yang baru tahu kulit-kulitnya dan belum tau cara eksekusinya.

Jawaban itu didapatkan dikala melihat data-behavior. Sekali lagi data-behavior dan bukanlah behavioral data. Dua hal yang sangat berbeda. Behavioral data biasanya berkaitan dengan perilaku para responden, tetapi kalau data-behavior itu informasi yang benar-benar mencerminkan perilaku dan kegunaan data. Sebagai contoh angka 1 mewakili pria dan angka 2 mewakili wanita. Tidak bisa kita jumlahkan menjadi 1 + 2 = 3, kenapa? karena itu bukanlah continous data, itu hanya simbol saja yang juga sering disebut sebagai nominal. Angka 1 bisa saya ubah menjadi A dan angka 2 saya ubah menjadi B, kemudian A + B C. Ini tidak berhenti di sini, lebih luas lagi.

Barang yang sama persis dikala satu produk diberikan merk dan yang lain tidak maka akan berpengaruh pada harga. Ada kekuatan brand di sini, dan setiap brand memiliki konsumennya masing-masing. Mereka bisa fanatik bisa juga hanya coba-coba. Tetapi apapun itu, tetap saja brand memegang peran penting di sini. Itulah yang kemudian saya sebut sebagai segmen pasar atau sub-market. Itu sangat tercermin oleh perbedaan harga itu. Dimana perbedaan harga ini ternyata ditunjukkan oleh data-behavior. Rasanya semakin yakin dengan tulisan saya sebelumnya: Data cleaning adalah kunci analisis big data. Meskipun dibalik keyakinan itu ada konsekuensi lemburan lebih panjang.