
Tidak semua sumber data terbuka di Indonesia menyediakan data yang dapat langsung diunduh dalam format Excel atau CSV. Beberapa badan/lembaga/organisasi mempublikasikan laporan datanya dalam bentuk Portable Document Format (PDF). Pertimbangannya agar isi dan tata letak tulisan, tabel, diagram, maupun gambar dalam berkas itu tidak mudah berubah.
Cara paling konvensional untuk mengambil data dalam tabel tersebut adalah dengan menyalin dan menempelkannya. Tidak menjadi masalah ketika data yang harus disalin jumlahnya tidak banyak. Namun bagaimana jika terdiri dari ratusan bahkan ribuan baris. Sedangkan data dalam berkas tersebut perlu dikonversi ke bentuk yang bisa dibaca dan diolah menggunakan bantuan komputer.
Satu di antara cara untuk menggambil data berbentuk tabel dalam berkas PDF yaitu menggunakan perangkat lunak bernama Tabula. Perangkat lunak ini dapat digunakan untuk mengambil tabel yang berada di dalam berkas Portable Document Format (PDF) berbasis teks.
Sebagai contoh, kita akan menggunakan Tabula untuk mengambil data Statistik Pendidikan Tinggi mulai tahun 2017 sampai 2020 di laman Pangkalan Data Pendidikan Tinggi (PDDikti) Kementerian Pendidikan, Kebudayaan, Riset, dan Teknologi Republik Indonesia.
Perlu diperhatikan, pemaparan dalam resep jurnalisme data ini hanya sampai pada tahap pengambilan data saja. Tidak sampai proses analisa.
1. Penggunaan Java untuk Windows dan Linux
Sebelum mengunduh dan menjalankan Tabula, pengguna sistem operasi Windows & Linux harus memasang Java di perangkatnya. Sedangkan pengguna Mac tidak perlu mengunduh Java karena Tabula versi Mac sudah menyertakan Java.
Di kemudian hari, secara berkala, pengguna sistem operasi Windows & Linux akan mendapat pesan yang mengingatkan untuk memperbarui versi Java di komputer.
Berikut tahapan pengunduhan dan pemasangan Java di Windows:
- Pengunduhan Java bisa dimulai dengan mencari lewat mesin pencarian (Google Search). Ketikkan “Install Java” atau langsung menuju tautan ini.
- Klik “Agree and Start Free Download”.
- Klik “Install”.
- Proses pengunduhan Java sedang berjalan.
- Java berhasil dipasang.
2. Mengunduh dan Memasang Tabula
- Cari Tabula lewat mesin pencarian atau langsung ke alamat tabula.technology.
- Begini tampilan laman tabula.technology. Tabula memiliki tiga versi yang disesuaikan untuk sistem operasi Windows, Mac OS X, dan Linux atau lainnya. Pilih sesuai sistem operasi di komputer.
- Komputer akan mengunduh file yang dimampatkan dalam bentuk zip. Pengguna Windows dan Mac harus meng-ekstrak file zip yang sudah terunduh. Untuk mulai menggunakan Tabula, masuk ke folder yang baru saja diekstrak. Jalankan program “Tabula” di dalamnya dengan cara klik file Tabula berlogo Java.
- Sebuah peramban (browser web) akan terbuka. Jika tidak, buka peramban dan ketikkan alamat http://localhost:8080
3. Mencari dan Mengunduh Data Pendidikan Tinggi di Indonesia
Pendidikan tinggi masih menjadi “barang mewah” bagi sebagian rakyat Indonesia. Selain biayanya yang besar, selama pandemi mahasiswa juga dituntut mengeluarkan biaya internet dan komputer untuk kegiatan belajar. Di tengah kesulitan ekonomi yang disebut-sebut melanda seluruh negara di dunia, potret capaian pendidikan formal generasi muda Indonesia dapat dilihat dari statistik pendidikan tinggi.
Analisa dapat dilihat dari tren penerimaan mahasiswa baru dan jumlah mahasiswa putus kuliah di Indonesia sebelum dan sesudah pandemi Covid-19. Untuk sampai pada tahap analisa–yang belum dibahas dalam resep jurnalisme data ini–perlu ketersediaan data yang cukup dan bisa diolah dengan perangkat lunak, misalnya Google Spreadsheet.
- Cari data terbuka terkait pendidikan tinggi di Indonesia melalui mesin pencarian Google.
- Klik laman PDDikti. Setelah masuk, klik menu “Publikasi” yang terletak di baris atas.
- Unduh berkas Statistik Perguruan Tinggi mulai tahun 2017 sampai 2020 di laman https://pddikti.kemdikbud.go.id/publikasi yang telah terbuka. Catat waktu mengambil data. Hal ini penting untuk mengantisipasi perubahan data yang diunggah pemilik data (badan/lembaga/organisasi) di kemudian hari.
4. Mengambil Tabel dari Berkas PDF dengan Tabula
Supaya Tabula bisa mengambil data dalam bentuk tabel di berkas PDF, hal pertama yang harus dilakukan adalah mengunggah file PDF yang berisi tabel data tersebut ke Tabula. Begini tahapannya:
- Klik kotak biru “Browse”, pilih berkas mana saja yang ingin diunggah, dan klik “Import”. Pengunggahan bisa dilakukan untuk beberapa berkas PDF sekaligus.
- Ini tampilan laman Tabula setelah semua berkas PDF sudah terunggah. Untuk membuka berkas PDF yang datanya akan diambil, klik kotak hijau “Extract Data” di samping nama berkas.
- Telusuri ke halaman yang diinginkan, lalu pilih tabel dengan mengklik dan menyeret garis merah di bagian tepi untuk menggambar kotak di sekitar tabel. Klik kotak hijau bertulsikan “Preview & Export Extracted Data”.
- Selanjutnya Tabula akan menampilkan pratinjau. Periksa susunan dan isi tabel untuk memastikan data yang diekstrak sudah benar. Jika ada sebagian data yang hilang, ulangi langkah sebelumnya.
- Jika sudah benar, klik tombol “Export”. Data secara otomatis terunduh dalam format CSV. Sebagai catatan, selain CSV, berkas juga dapat diunduh dalam format TSV, JSON dimensions atau data, zip of CSV, atau Script.
5. Penyimpanan Data dengan Google Drive
Buka berkas CSV menggunakan Google Spreadsheet. Penggunaan Spreadsheet memudahkan proses pengolahan data karena tampilan dan fiturnya sama ketika dibuka di semua perangkat.
Ini juga untuk menghindari efek hilangnya sejumlah karakter dalam data akubat penggunaan aplikasi Excel yang berbeda versi dan ilegal.
Adapun tahapan penggunaan Google Spreadsheet untuk menyimpan dan membuka data yaitu:
- Masuk ke akun Google, klik titik sembilan yang berbentuk kotak di sebelah kanan atas layar komputer. Klik ikon Drive.
- Klik tanda plus “+” warna-warni untuk membuka berkas Spreadsheet baru.
- Setelah Google Spreadsheet terbuka, Klik “File” lalu “Import”.
- Klik “Upload”, pilih berkas CSV yang akan diunggah dari penyimpanan komputer atau tarik berkasnya ke dalam kotak.
- Berkas CSV hasil Tabula sudah terbuka di Google Spreadsheet.
- Bersihkan format data sebelum masuk ke tahap pengolahan data. Pertama blok dan salin (CTRL +C) semua baris dan kolom. Letakkan kursor di sel A1, klik kanan, klik “Paste Special” lalu “Paste Value Only”.
- Selanjutnya, blok semua isi Sheet, klik “Format” lalu “Number”, klik “Plain Text”.
- Setelah itu, klik “Edit”, lalu “Find and Replace” untuk menghilangkan tanda petik satu yang ada di baris formula.
- Ulangi klik “Edit”, lalu “Find and Replace” untuk mengganti tanda titik di data menjadi tanda koma.
- Beri nama berkas dan hapus baris kedua dan ketiga sehingga Header tabel data hanya satu. Data Statistik Pendidikan Tinggi Indonesia Tahun 2017 siap digunakan. Lakukan tahapan yang sama untuk data tahun berikutnya.
Proteksi Data
Dalam laman GitHub pengembang Tabula tertulis perangkat lunak ini dirancang dengan mempertimbangkan keamanan data pengguna. Berkas PDF dan data yang diekstrak tidak pernah “menyentuh” internet. Selama bilah URL browser tertulis “localhost” atau “127.0.0.1”, semua pemrosesan berlangsung di komputer pengguna.
Meski demikian, Tabula masih melakukan dua panggilan dari browser ke mesin eksternal. Pertama untuk mengambil daftar versi Tabula terbaru dari GitHub, untuk mengingatkan pengguna jika Tabula telah diperbarui. Kedua, membuat panggilan ke penghitung statistik yang membantu pengembang menentukan seberapa sering berbagai versi Tabula digunakan.
We count every time someone opens Tabula (when using it as an application) (*)
(*) It’s opt-in. If you say no, we won’t track anything. pic.twitter.com/rTMDsRNyPr
— Tabula (@TabulaPDF) September 3, 2020
Mengutip catatan pengembang Tabula di GitHub, jika pengguna tidak ingin pengembang mendeteksi versi yang digunakan, pengguna dapat menonaktifkan dengan menambahkan -Dtabula.disable_version_check=1 ke baris perintah saat startup. Sementara panggilan penghitung statistik dapat dinonaktifkan dengan menambahkan -Dtabula.disable_notifications=1.
Kelebihan dan Kekurangan Tabula
Kelebihan Tabula:
- Gratis
Tabula dapat diunduh secara gratis di internet. Pendanaan pengembangan Tabula dilakukan dengan cara menggalang dana secara terbuka di https://opencollective.com/tabulapdf
- Mudah digunakan
Tahapan pengunduhan dan pemasangan Tabula dapat dilakukan dengan beberapa kali klik saja. Tampilan Tabula yang sederhana dan pemberian warna hijau pada tombol-tombol penting, sangat memudahkan pengguna pemula untuk mengoperasikannya.
- Menyediakan fitur template
Tabula menyediakan fitur template untuk mengekstrak tabel dari beberapa PDF dengan tata letak yang sama. Ini tentu memudahkan proses ekstraksi dari banyak berkas dengan tata letak yang sama. Pengguna juga bisa berbagi template dengan pengguna lain dengan cara mengunggah template yang diinginkan ke Tabula di halaman “Template Saya”.
Kekurangan Tabula:
- Tabula tidak bisa digunakan untuk mengambil tabel yang selnya hasil penggabungan
Tabula adalah alat ekstraksi data, bukan alat transformasi data. Sehingga pemilihan area laman PDF yang diekstrak menjadi sangat penting. Misalnya, judul tabel yang terdiri dari beberapa kolom dapat menyebabkan masalah. Terkadang juga terjadi perubahan tata letak di tabel yang diekstrak.
Berikut cara pemilihan area laman yang kurang tepat karena mengikutsertakan bagian judul yang terdiri dari beberapa kolom.
Dapat kita lihat kolom provinsi, lembaga, dan program studi jadi tercampur.
Karena itu, area laman PDF yang diekstrak sebaiknya tidak mengandung sel hasil penggabungan. Cara lain yaitu dengan memilih bagian data ini secara terpisah.
- Tabula tidak bisa digunakan untuk mengambil tabel di dalam berkas PDF hasil pemindaian
Tabula tidak dapat mengekstrak data apa pun dari PDF berbasis gambar. Sebab, berkas PDF berbasis gambar tidak memiliki teks yang disematkan. Mungkin PDF tersebut bersumber dari pemindaian data di kertas. Pengembang Tabula menyarankan pengguna mencoba OCRing PDF dengan alat seperti Adobe Acrobat Pro (berbayar), Tesseract, PDFSandwich (Mac/Linux, gratis) atau Lime OCR (Windows, gratis) lalu mencoba Tabula lagi. Jika tetap tidak bisa maka data terpaksa disalin secara manual. Misalnya untuk data tulisan tangan yang difoto lalu diubah jadi PDF.
- Pengembangan perangkat lunak ini dilakukan secara sukarela
Tidak ada jaminan kesinambungan pengembangannya. Versi terbaru dari perangkat lunak ini (Tabula 1.2.1) dirilis pada 4 Juni 2018. Meski demikian, sampai September 2021, pengembang Tabula terpantau masih aktif di media sosial Twitter. Sejumlah sukarelawan masih terus melakukan perbaikan untuk Tabula dengan versi yang lebih lama.
- Terkadang Tabula memerlukan waktu sedikit lebih lama untuk mengekstrak data
Menurut penjelasan pengembang di GitHub Tabula, lamanya waktu ekstraksi terjadi karena Tabula harus melakukan banyak tahapan untuk merekonstruksi tabel dalam berkas PDF.(iss)