Pendahuluan
Dalam pengolahan data, tahapan pra-pemrosesan seperti data cleaning, transformasi data, dan reduksi data memiliki peran penting dalam memastikan kualitas dan relevansi data yang digunakan untuk analisis. Data cleaning bertujuan untuk memperbaiki kesalahan, menghapus inkonsistensi, dan meningkatkan kelengkapan data, sementara transformasi data mengubah format data sesuai kebutuhan analisis. Di sisi lain, reduksi data mengurangi kompleksitas dataset tanpa mengorbankan informasi penting. Pembahasan ini akan menjelaskan setiap tahapan secara singkat dan menerapkannya pada dataset spesifik.
Dataset yang Digunakan
Untuk tugas ini, kami menggunakan data tentang kelulusan dan transkrip mahasiswa dari Universitas Buanan Perjuangan Karawang, yang diakses melalui tautan API yang disediakan dalam tugas.
Pembahasan
1. Data Cleaning
Data cleaning melibatkan perbaikan atau penghapusan data yang tidak akurat, rusak, berformat salah, duplikat, atau tidak lengkap dalam sebuah dataset. Langkah pra-pemrosesan ini sangat penting karena memastikan bahwa data yang digunakan untuk analisis atau pemodelan akurat, konsisten, dan dapat dipercaya. Dengan membersihkan data, kita membentuk dasar yang kuat untuk pengambilan keputusan yang tepat.
2. Transformasi Data
Transformasi data adalah proses mengubah data dari satu format atau struktur ke format atau struktur lainnya. Juga dikenal sebagai data wrangling atau data munging, proses ini mentransformasi dan memetakan data mentah ke format lain untuk penyimpanan dan analisis. Tujuan utamanya adalah untuk meningkatkan interpretasi dan kinerja analisis. Teknik yang digunakan meliputi normalisasi, encoding kategori, dan transformasi distribusi data.
3. Reduksi Data
Reduksi data melibatkan pengurangan jumlah atribut atau fitur dalam sebuah dataset sambil tetap mempertahankan sebagian besar informasi yang relevan. Tujuannya adalah untuk mengatasi masalah kompleksitas komputasi, overfitting, atau memfasilitasi pemahaman dan interpretasi yang lebih mudah. Terdapat dua pendekatan umum dalam reduksi data:
Pemilihan Fitur: Mengidentifikasi dan memilih subset paling relevan dari semua fitur yang tersedia dalam dataset. Hal ini dilakukan dengan mempertimbangkan korelasi antar fitur, signifikansi terhadap variabel target, atau menggunakan teknik pemilihan fitur seperti Recursive Feature Elimination (RFE) atau Principal Component Analysis (PCA).
Ekstraksi Fitur: Transformasi dataset ke ruang fitur yang lebih rendah dimensi dengan menggabungkan beberapa fitur menjadi satu fitur baru yang lebih representatif dan tetap mengandung sebagian besar informasi dari fitur asli.
Kesimpulan
Sebagai kesimpulan, data cleaning, transformasi data, dan reduksi data merupakan langkah-langkah kunci dalam mempersiapkan data untuk analisis yang berarti dan pengambilan keputusan yang tepat. Dengan menerapkan teknik pra-pemrosesan ini secara efektif, organisasi dapat memastikan bahwa data mereka memiliki kualitas tinggi, relevan, dan dioptimalkan untuk mengekstraksi wawasan yang dapat diimplementasikan. Pendekatan proaktif ini tidak hanya meningkatkan akurasi model analitis tetapi juga mendukung inisiatif bisnis strategis dan efisiensi operasional.
Dengan fokus pada optimasi kualitas data melalui tahapan pra-pemrosesan ini, Universitas Buanan Perjuangan Karawang dapat mengoptimalkan potensi penuh dataset rekam jejak mahasiswanya, membuka jalan untuk keputusan akademis dan administratif yang berbasis informasi yang solid.
Implementasi dalam Gcolab :
Cleaning Data :
- Missing Value
- Kolom seperti
nim,IPS_SMT3hinggaLulus tepat waktu/tidaktidak memiliki missing value, yang berarti setiap entri dalam kolom tersebut terisi dengan nilai yang valid. - Sebaliknya, kolom seperti
IPS_SMT9danIPS_SMT Tambahanmemiliki jumlah missing value yang sangat tinggi, mencapai ratusan ribu. Ini menunjukkan bahwa data untuk kolom-kolom ini tidak lengkap dan memerlukan penanganan khusus sebelum dapat digunakan untuk analisis.
Pengisian missing value dengan angka 0 adalah salah satu pendekatan yang umum dilakukan untuk melengkapi data dalam situasi di mana nilai yang tepat tidak dapat diakses atau tidak ada. Namun, perlu mempertimbangkan apakah pengisian dengan 0 akan memengaruhi analisis atau interpretasi data secara signifikan tergantung pada konteks aplikasinya.
2. Duplikat Data
- Data Duplikat: Merujuk pada entri dalam dataset yang memiliki nilai yang sama untuk setiap atribut atau kolom. Dalam konteks ini, ada sebanyak 251,773 baris data yang bersifat duplikat.
- Dampak: Keberadaan data duplikat dapat mempengaruhi analisis data karena dapat menyesatkan hasil analisis statistik atau machine learning. Analisis yang dilakukan pada dataset dengan banyak duplikat dapat menghasilkan estimasi yang bias atau model yang tidak akurat.
- Penanganan: Sebelum melakukan analisis lanjutan, data duplikat biasanya dihapus dari dataset untuk memastikan keakuratan dan validitas hasil analisis. Proses penghapusan duplikat ini dapat dilakukan dengan menggunakan fungsi atau metode khusus dalam library atau tools pengolahan data seperti pandas di Python.
Penting untuk memastikan bahwa dataset yang digunakan dalam analisis memiliki kualitas yang baik, termasuk dengan mengidentifikasi dan mengatasi masalah seperti data duplikat sebelum melakukan proses analisis lebih lanjut.
3. Outlier
- Outlier: Data yang dianggap sebagai outlier memiliki nilai yang signifikan berbeda dari mayoritas nilai dalam distribusi data. Ini dapat disebabkan oleh kesalahan pengukuran, peristiwa langka, atau karakteristik yang tidak biasa dari sampel.
- Penghapusan Outlier: Penghapusan outlier dilakukan untuk memastikan keakuratan analisis statistik atau model prediksi. Dengan menghapus outlier, distribusi data menjadi lebih representatif dan hasil analisis lebih dapat dipercaya.
- Pengaruh Penghapusan: Penghapusan outlier mengurangi jumlah data dari 4,441 menjadi 4,014, yang berarti sejumlah outlier telah diidentifikasi dan dianggap tidak relevan atau tidak sesuai dengan pola umum dalam dataset.
Proses identifikasi dan penghapusan outlier adalah langkah penting dalam pra-pemrosesan data untuk memastikan data yang digunakan dalam analisis atau pemodelan adalah data yang valid dan mewakili fenomena yang sebenarnya.
Gcolab : https://colab.research.google.com/drive/1ibeJSTUNlvLvh9rC1eirXQIRGbx5jiQx?usp=sharing
Komentar
Posting Komentar