Big Data yang selama ini digandrungi tidak hebat-hebat amat. Menurut saya justru menjadi alternatif saja atas tidak adanya data berkualitas OKE di negeri para pejuang. Negara nan kaya akan sumber daya namun minim data. Masifnya open data men-share keterbukaan data dan informasi rasanya menjadi kontraproduktif. Kenapa saya mengatakan minim data sedangkan setiap kabupaten/ kota sudah memiliki portal open data? – Jawaban dari pertanyaan itulah yang menjadi tujuan dari tulisan ini, jadi sabar saja. Tidak usah kesusu.

Selama pandemi tidak bisa survei, hanya bisa datang ke lokasi riset tipis-tipis. Itupun seabrek prokes diterapkan. Sudah tidak perlu tau prokes apa saja yang dimaksud, yang pasti it’s okay for lebay. Sisi positifnya adalah harus berjibaku mencari alternatif perolehan data lain, dan big data menjadi opsinya. Bukan berarti data yang digunakan harus bergiga-giga ataupun bertera-tera tetapi cara mendapatkan data menggunakan berbagai proxy, juga bisa dianggap sebagai langkah proses big data. Mengambil data yang berkategori unstructured kemudian distrukturkan jadilah dataset yang bisa dijadikan ‘mainan’ untuk riset. Di dalam dunia data science, ini sering disebut sebagai data wrangling dan juga data cleaning/ cleansing. Membersihkan data ‘kotor’ menjadi bersih dan siap digunakan.

Kualitas data: cermin good governance

Apa indikator good governance? – googling saja sebentar, pasti sudah ketemu berbagai parameter dari layanan terbuka hingga layanan publik. Banyak banget. Setiap institusi global maupun nasional punya indikatornya sendiri-sendiri. Tetapi ada yang tidak kalah penting yaitu kualitas data. Data yang mereka produksi, harusnya tidak berkualitas kaleng-kaleng tetapi benar akurat dan reliabel.

Masih nancep diingatan saya sekitar 15 tahun lalu, dikala mengerjakan studio. Mata kuliah praktek bidang perencanaan dan desain perkotaan, saya membandingkan jumlah penduduk menurut jenis kelamin dan jumlah penduduk menurut usia dari dataset yang sama, hasilnya berbeda. Jumlah penduduk menurut dua parameter itu berbeda, benar-benar njomplang. Artinya ada penduduk di usia tertentu tidak memiliki jenis kelamin dan sebaliknya. Itu contoh saja di 15 tahun lalu, dan sekarang sudah jarang ditemukan kembali. Akan tetapi untuk jenis data yang lain, masih saja.

Sebut saja kapling rumah yang ditampalkan dengan citra satelit apapun, banyak yang bergeser entah berapa meter. Banyak, banyak banget. Konsekuensinya adalah akurasi koordinat tiap kapling menjadi invalid. Coba pikirkan jika koordinat tiap kapling ini menjadi data dasar untuk analisis? Valid atau tidak kira-kira? – mau pakai Big Data, Huge data, Mother data dan sederet pendekatan lainnya tetap saja bakal invalid. Big data bukan satu-satunya solusi, dikala basis datanya tidak benar.

Di masa penjajahan Belanda, banyak peta-peta yang jauh lebih valid. Cek saja beberapa contohnya di semarang.nl, khusus kota Semarang. Valid. Tidak salah saya rasa jika kualitas good governance juga dilihat dari kualitas data yang mereka produksi, mereka distribusikan dan mereka pertanggungjawabkan. Bagaimana akan valid analisis, perencanaan dan pembangunan negeri di kala datanya…ya sudahlah.

Survival data

Untuk memenuhi 1 variabel, harus download citra satelit, memodelkannya guna mendapatkan apa yang kita sebut sebagai data. Tunjuk saja data mengenai peta land subsidence, penurunan muka tanah. Sudah banyak risetnya, sudah banyak berita baik di media cetak dan elektronik, tetapi mana datanya? Berita di portal A mengatakan penurunan tanah di kota X sebesar 17 cm pertahun, dirisetnya Pak Y yang diterbitkan di jurnal Z mengatakan penurunan tanah sebesar sekian cm. Informasi itu ada, instant dan siap jual, kalau hanya sebatas untuk verbal analysis. Dibaca kemudian diucapkan kembali sebagai bahan diskusi. Tetapi dikala data itu mau digunakan untuk analisis, apakah sudah memenuhi? – Tidak, sama sekali tidak. Apakah penurunan tanah 17 cm itu berlaku untuk seluruh wilayah? Atau hanya sebagian wilayah saja? – tidak bisa terjawab hanya dengan membaca berita dan artikel jurnal.

Untuk memenuhinya, download citra satelit bergiga-giga, belajar modeling citra satelit dan habis sudah waktu untuk olah data. Modeling citra satelit hanya untuk memenuhi data 1 variabel saja, ya Tuhan, tidak berlebihan saya rasa kalau menyebut negeri pejuang. Lets share knowledge, bro. Jangan hanya dagang informasi generic yang maaf, butuh pendalaman lagi.

Lagi-lagi, Big data menjadi alternatif. Membuat klasifikasi citra satelit dengan data training terstruktur, supervised learning. Harusnya tidak belajar sampai sini dikala kualitas datanya memang ajib dan bukan ajaib. Lack of data sepertinya bisa bertransformasi menjadi lack of daya.

One thought on “Big data, dilema kualitas data negeri pejuang

Comments are closed.