Data Center: Management, preservasi dan Big Data

Perkembangan jumlah data dan media penyimpanan diperkirakan akan menyebabkan transient data (IDC, 2005). Jumlah data berkembang secara cepat dari ukuran terabyte menjadi exabyte. Sementara kapasitas penyimpanan berkembang dari gigabyte menjadi terabyte untuk ukuran normal. Organisasi menggunakan beberapa dan banyak kapasitas penyimpanan secara bersama-sama untuk mengejar transient data yang timbul. Gejala ini semakin terealisasi dengan laporan terbaru IDC yang menyebutkan per tahun 2010 perkembangan data mencapai 3 kali lipat dari perkiraan ditahun 2005 (IDC, 2010).

Data berkembang sangat pesat dipengaruhi faktor lingkungan teknologi, lingkungan ilmiah dan lingkungan bisnis (Riasetiawan, 2011). Lingkungan teknologi menciptakan bervariasinya tipe data yang dihasilkan dari aplikasi-aplikasi baru. Tipe data muncul sebagai tipe data baru dan versi baru. Lingkungan ilmiah dengan prinsip kolaborasi dan multidisiplin memberikan peluang data akan berubah baik dari sisi isi dan tipenya. Lingkungan bisnis yang mendorong kebutuhan aplikasi-aplikasi baru membawa konsekuensi data yang semakin variatif.

Data yang secara kuantitas besar, beragam dan kompleks akan membutuhkan arsitektur, teknik, algoritma dan metode analitik yang bertujuan untuk mengelola dan mengambil manfaat pengetahuan yang potensial didalamnya. Data besar ini berupa sekumpulan data dengan ukuran yang melebihi kemampuan perangkat lunak database untuk menyimpan, menangkap, menyimpan, mengelola dan menganalisisnya (The McKinsey Global Institute, 2011). Data besar ini diidentikkan dengan volume, velocity, dan variety (3V) yang berasal dari transaksi data, interaksi data dan observasi data.

Data tidak hanya diperlukan untuk keperluan saat ini, tetapi juga akan dibutuhkan untuk keperluan masa depan. Data yang dapat diakses dan digunakan di masa depan menjadi semakin penting dan valuable. Data dengan kelengkapan metadata dan tipe data sehingga bisa dikenali dan dipakai dengan aplikasi tentu memudahkan pengguna dalam penggunaannya. Data yang dapat mempertahankan kelengkapan metadata dan tipe data memberikan kepastian data dapat dipakai di masa depan ketika dibutuhkan (Riasetiawan, 2011).

Data memiliki karakteristik dapat dihasilkan dan muncul kapan saja dan dari sumber  yang banyak. Setiap data dipergunakan dan kemudian disimpan dalam isi yang lebih baru memunculkan data baru. Data meskipun isinya sama karena didapatkan dari beberapa sumber yang berlainan, maka menjadi data baru bagi pengguna. Karakterik data seperti ini membutuhkan penanganan data yang memperhitungkan faktor provenance atau dari mana data berasal (Dirks, 2009).

Industri memiliki standar spesifik masing-masing. Pada industry farmasi data elektronik disimpan dan digunakan dalam durasi 50 sampai 100 tahun untuk formulasi obat (FDA 21 CFR part 11). Industri kesehatan dalam hal ini rumah sakit memiliki standar akses dan pengunaan data selama 75 tahun untuk Xray dan 30 tahun untuk laporan kesehatan karyawan menurut OSHA. Industri Keuangan memiliki aturan internasional Rules 17-a4 dari Federal Security Laws and Regulations dengan masa 6 tahun sampai dengan 72 tahun. Industri pesawat terbang memiliki aturan akses dan penggunaan data selama 30 tahun untuk setiap spesifikasi pesawat terbang. Industri energi memiliki standar 50 tahun sesuai dengan regulasi dari Schlumberger.

Data yang bersumber dari mana saja semakin dapat terjadi dengan semakin meluasnya penggunaan cloud computing. Teknologi yang memiliki kemampuan untuk menyediakan layanan secara bersama baik dalam penggunaan sumber daya dan infrastruktur. Cloud memberikan peluang komputasi yang dapat digunakan dari mana saja. Cloud juga memberikan kemudahan dalam layanan secara on demand atau sesuai kebutuhan, menyebabkan produksi data yang dihasilkan dalam aktivitas komputasi semakin mudah (Riasetiawan, 2011).

Teknologi yang mengatur sumber daya komputasi seperti cluster, grid  dan cloud memberikan variasi saluran data akan muncul. Cluster yang memberikan sumber daya secara terdedikasi dan berbagi memudahkan data dihasilkan dengan waktu yang lebih cepat. Grid  yang mendedikasikan sumber daya yang terhubung dengan pengaturan terpusat dapat menghasilkan data yang terdistribusi. Cloud dengan sumber daya yang lebih berbagi kepada pengguna memberikan peluang data akan dihasilkan dengan mengambil keuntungan dari dua teknologi sebelumnya (Riasetiawan dan Mahmood, 2010).

Pada setiap proses akan menjalankan data mentah dan menghasilkan data baru sesuai proses yang dilewati. Perubahan terjadi dapat pada tipe data yang menyesuaikan pada aplikasi yang dpakai dalam tahap pemrosesan. Data bisa sama tetapi berbeda dalam metadatanya karena penambahan interprestasi yang dilakukan. Perubahan ini perlu dikelola untuk memastikan pengguna tidak kehilangan jalur proses data yang nantinya juga akan mempengaruhi proses interprestasi. Tetapi data tidak hanya dapat disimpan dalam konteks isi, tipe data dan metadatanya saja. Pendekatan yang lebih detail diperlukan untuk memastikan data tersebut meski melalui proses akan tetap terjaga kualitas sehingga bisa diakses dan digunakan kapan saja (Chervenak et al, 2000).

Lingkungan Cloud meskipun memiliki kemampuan untuk memberikan layanan virtualisasi yang memungkinkan sumber daya bisa dimanfaatkan secara terbuka. Layanan cloud memberikan layanan yang memudahkan pengguna dengan model on-demand. Layanan cloud memberikan kepastian layanan karena dikelola secara mandiri oleh penyedia layanan cloud, sehingga organisasi memiliki elastisitas terhadap keperluan sumber daya. Lingkungan cloud tidak single-instant bisa menangani karakteristik layanan-layanan tersebut. Lingkungan cloud membutuhkan adaptasi untuk bisa menjamin layanan cloud berjalan dengan baik. Tantangan dengan adanya big data, preservasi dan data management memerlukan karakteristik lingkungan cloud yang secara dinamis bisa menyesuaikan dengan isi/content yang berjalan diatas infrastruktur cloud itu sendiri.