Langsung ke konten utama

Preprosesing Data

Pendahuluan

Dalam pengolahan data, tahapan pra-pemrosesan seperti data cleaning, transformasi data, dan reduksi data memiliki peran penting dalam memastikan kualitas dan relevansi data yang digunakan untuk analisis. Data cleaning bertujuan untuk memperbaiki kesalahan, menghapus inkonsistensi, dan meningkatkan kelengkapan data, sementara transformasi data mengubah format data sesuai kebutuhan analisis. Di sisi lain, reduksi data mengurangi kompleksitas dataset tanpa mengorbankan informasi penting. Pembahasan ini akan menjelaskan setiap tahapan secara singkat dan menerapkannya pada dataset spesifik.

Dataset yang Digunakan

Untuk tugas ini, kami menggunakan data tentang kelulusan dan transkrip mahasiswa dari Universitas Buanan Perjuangan Karawang, yang diakses melalui tautan API yang disediakan dalam tugas.

Pembahasan

1. Data Cleaning

Data cleaning melibatkan perbaikan atau penghapusan data yang tidak akurat, rusak, berformat salah, duplikat, atau tidak lengkap dalam sebuah dataset. Langkah pra-pemrosesan ini sangat penting karena memastikan bahwa data yang digunakan untuk analisis atau pemodelan akurat, konsisten, dan dapat dipercaya. Dengan membersihkan data, kita membentuk dasar yang kuat untuk pengambilan keputusan yang tepat.

2. Transformasi Data

Transformasi data adalah proses mengubah data dari satu format atau struktur ke format atau struktur lainnya. Juga dikenal sebagai data wrangling atau data munging, proses ini mentransformasi dan memetakan data mentah ke format lain untuk penyimpanan dan analisis. Tujuan utamanya adalah untuk meningkatkan interpretasi dan kinerja analisis. Teknik yang digunakan meliputi normalisasi, encoding kategori, dan transformasi distribusi data.

3. Reduksi Data

Reduksi data melibatkan pengurangan jumlah atribut atau fitur dalam sebuah dataset sambil tetap mempertahankan sebagian besar informasi yang relevan. Tujuannya adalah untuk mengatasi masalah kompleksitas komputasi, overfitting, atau memfasilitasi pemahaman dan interpretasi yang lebih mudah. Terdapat dua pendekatan umum dalam reduksi data:

  • Pemilihan Fitur: Mengidentifikasi dan memilih subset paling relevan dari semua fitur yang tersedia dalam dataset. Hal ini dilakukan dengan mempertimbangkan korelasi antar fitur, signifikansi terhadap variabel target, atau menggunakan teknik pemilihan fitur seperti Recursive Feature Elimination (RFE) atau Principal Component Analysis (PCA).

  • Ekstraksi Fitur: Transformasi dataset ke ruang fitur yang lebih rendah dimensi dengan menggabungkan beberapa fitur menjadi satu fitur baru yang lebih representatif dan tetap mengandung sebagian besar informasi dari fitur asli.

Kesimpulan

Sebagai kesimpulan, data cleaning, transformasi data, dan reduksi data merupakan langkah-langkah kunci dalam mempersiapkan data untuk analisis yang berarti dan pengambilan keputusan yang tepat. Dengan menerapkan teknik pra-pemrosesan ini secara efektif, organisasi dapat memastikan bahwa data mereka memiliki kualitas tinggi, relevan, dan dioptimalkan untuk mengekstraksi wawasan yang dapat diimplementasikan. Pendekatan proaktif ini tidak hanya meningkatkan akurasi model analitis tetapi juga mendukung inisiatif bisnis strategis dan efisiensi operasional.

Dengan fokus pada optimasi kualitas data melalui tahapan pra-pemrosesan ini, Universitas Buanan Perjuangan Karawang dapat mengoptimalkan potensi penuh dataset rekam jejak mahasiswanya, membuka jalan untuk keputusan akademis dan administratif yang berbasis informasi yang solid.

Implementasi dalam Gcolab :

Cleaning Data :

  1. Missing Value

  • Kolom seperti nim, IPS_SMT3 hingga Lulus tepat waktu/tidak tidak memiliki missing value, yang berarti setiap entri dalam kolom tersebut terisi dengan nilai yang valid.
  • Sebaliknya, kolom seperti IPS_SMT9 dan IPS_SMT Tambahan memiliki jumlah missing value yang sangat tinggi, mencapai ratusan ribu. Ini menunjukkan bahwa data untuk kolom-kolom ini tidak lengkap dan memerlukan penanganan khusus sebelum dapat digunakan untuk analisis.

Pengisian missing value dengan angka 0 adalah salah satu pendekatan yang umum dilakukan untuk melengkapi data dalam situasi di mana nilai yang tepat tidak dapat diakses atau tidak ada. Namun, perlu mempertimbangkan apakah pengisian dengan 0 akan memengaruhi analisis atau interpretasi data secara signifikan tergantung pada konteks aplikasinya.

    2. Duplikat Data


  • Data Duplikat: Merujuk pada entri dalam dataset yang memiliki nilai yang sama untuk setiap atribut atau kolom. Dalam konteks ini, ada sebanyak 251,773 baris data yang bersifat duplikat.
  • Dampak: Keberadaan data duplikat dapat mempengaruhi analisis data karena dapat menyesatkan hasil analisis statistik atau machine learning. Analisis yang dilakukan pada dataset dengan banyak duplikat dapat menghasilkan estimasi yang bias atau model yang tidak akurat.
  • Penanganan: Sebelum melakukan analisis lanjutan, data duplikat biasanya dihapus dari dataset untuk memastikan keakuratan dan validitas hasil analisis. Proses penghapusan duplikat ini dapat dilakukan dengan menggunakan fungsi atau metode khusus dalam library atau tools pengolahan data seperti pandas di Python.

Penting untuk memastikan bahwa dataset yang digunakan dalam analisis memiliki kualitas yang baik, termasuk dengan mengidentifikasi dan mengatasi masalah seperti data duplikat sebelum melakukan proses analisis lebih lanjut.

    3. Outlier  

  • Outlier: Data yang dianggap sebagai outlier memiliki nilai yang signifikan berbeda dari mayoritas nilai dalam distribusi data. Ini dapat disebabkan oleh kesalahan pengukuran, peristiwa langka, atau karakteristik yang tidak biasa dari sampel.
  • Penghapusan Outlier: Penghapusan outlier dilakukan untuk memastikan keakuratan analisis statistik atau model prediksi. Dengan menghapus outlier, distribusi data menjadi lebih representatif dan hasil analisis lebih dapat dipercaya.
  • Pengaruh Penghapusan: Penghapusan outlier mengurangi jumlah data dari 4,441 menjadi 4,014, yang berarti sejumlah outlier telah diidentifikasi dan dianggap tidak relevan atau tidak sesuai dengan pola umum dalam dataset.

Proses identifikasi dan penghapusan outlier adalah langkah penting dalam pra-pemrosesan data untuk memastikan data yang digunakan dalam analisis atau pemodelan adalah data yang valid dan mewakili fenomena yang sebenarnya.

Gcolab : https://colab.research.google.com/drive/1ibeJSTUNlvLvh9rC1eirXQIRGbx5jiQx?usp=sharing

Youtube : https://youtu.be/zA9bDq7ZxXs?si=pGvd3ne6-z_sQ4uu

Komentar

Postingan populer dari blog ini

Penjelasan Basis Data/Database

           Basis data terdiri dari beberapa elemen yang salah satunya adalah data dan informasi. Data merupakan sesuatu yang belum memiliki arti atau nilai. Sedangkan Informasi merupakan bagian dari data dengan makna dan fungsi, atau lebih jelasnya informasi merupakan hasil pengolahan data yang memiliki nilai tertentu, dan bisa dimengerti oleh penerimanya.      Secara garis besar basis data bisa disimpulkan kumpulan data terpusat dan terstruktur yang di simpan di sebuah sistem komputer. Basis data dapat menyediakan fasilitas untuk menambahkan, memodifikasi, dan menghapus data sesuai kemauan pengguna tersebut. Basis data biasanya kelola oleh Administrator Database (DBA).     Basis data dapat digunakan dalam berbagai keperluan management, contohnya management keuangan yang ada di perbankan sebagai pusat transaksi keuangan, management penerbangan sebagai pemesanan tiket, dan masih banyak yang lainnya.     Sekian dari saya sem...

Apa itu attribute, entitas dan relasi dalam ERD

      Pada Kesempatan kali ini saya akan mereview apa yang saya pelajari pada mata kuliah basis data sebelumnya. Pada postingan ini saya akan menjelaskan apa itu attribute, entitas dan relasi dalam ERD. yang pertama - tama saya akan menjelaskan apa itu ERD. Entity Relationship Diagram (ERD) merupakan model atau rancangan untuk membuat daatabase, agar lebih mudah dalam menggambarkan data yang memiliki hubungan atau relasi dalam bentuk sebuah desain. Dengan menggunakan ERD maka desain database yang kita buat akan terlihat rapih dan terstruktur.     Dalam Pemodelan data ada 2 jenis data yang perlu kita ketahui, yaitu : Data Logis : dalam proses pembuatannya tidak membutuhkan model data konseptual. Komponen di dalamnya mencakup entitas data master, operasional, dan transaksional yang telah terdefinisikan sebelumnya. Data Fisik : Model ini di gunakan untuk database. Model data fisik di pakai dalam menentukan metadata struktural dalam sistem managemen database sebagai...