Rangkuman Bab 2 Informatika Chelsea K.L 8B 16
Rangkuman Informatika Kelas 8 Bab 2: Data, Keputusan,
Impor Kata, dan Cleansing
1. Pengertian Data
Data adalah fakta atau informasi yang belum diolah dan masih
dalam bentuk mentah. Data bisa berupa angka, teks, gambar, suara, dan lainnya.
Dalam informatika, data merupakan bahan utama yang akan diolah menjadi
informasi.
Data dapat diklasifikasikan menjadi beberapa jenis, antara
lain:
- Data
Numerik: Data berupa angka, misalnya nilai, jumlah, dan statistik.
- Data
Kategorikal: Data berupa kategori atau label, misalnya warna, jenis
kelamin, atau status.
- Data
Teks: Data dalam bentuk tulisan atau kata-kata.
- Data
Gambar dan Multimedia: Data berupa gambar, audio, atau video.
Pengolahan data dilakukan agar dapat menghasilkan informasi
yang berguna untuk pengambilan keputusan.
2. Keputusan Berbasis Data
Pengambilan keputusan adalah proses memilih salah satu dari
beberapa alternatif berdasarkan informasi yang tersedia. Dalam dunia
informatika, pengambilan keputusan biasanya dibantu oleh data yang sudah diolah
menjadi informasi.
Contohnya, sebuah perusahaan menggunakan data penjualan
untuk memutuskan produk mana yang harus ditingkatkan produksinya atau
dihentikan. Data yang akurat dan bersih sangat penting agar keputusan yang
diambil tepat dan efektif.
Keputusan dapat bersifat:
- Keputusan
Terstruktur: Keputusan yang bisa diotomatisasi berdasarkan aturan dan
data yang jelas.
- Keputusan
Tidak Terstruktur: Keputusan yang membutuhkan analisis lebih mendalam
dan tidak bisa sepenuhnya diotomatisasi.
3. Impor Kata dalam Pengolahan Data Teks
Dalam pengolahan data teks, khususnya dalam bidang seperti
pemrosesan bahasa alami (Natural Language Processing/NLP), impor kata
adalah proses memasukkan kumpulan kata atau data teks ke dalam sistem agar bisa
dianalisis.
Impor kata bisa dilakukan dari berbagai sumber, misalnya:
- Dokumen
teks (.txt, .docx)
- Spreadsheet
- Database
- Web
scraping
Tujuan impor kata adalah agar data teks tersebut bisa
diproses, dianalisis, dan digunakan untuk berbagai aplikasi, seperti:
- Pencarian
kata kunci
- Analisis
sentimen
- Klasifikasi
teks
- Penerjemahan
otomatis
Dalam proses impor kata, penting untuk memastikan data yang
diimpor sudah benar dan lengkap agar analisis menjadi akurat.
4. Cleansing (Pembersihan) Data
Cleansing atau pembersihan data adalah tahap krusial
dalam pengolahan data yang bertujuan memastikan bahwa data yang digunakan dalam
analisis adalah berkualitas tinggi, akurat, dan siap untuk diolah lebih lanjut.
Data yang diimpor dari berbagai sumber sering kali mengandung banyak masalah,
seperti data duplikat, data hilang, kesalahan penulisan, dan format yang tidak
konsisten. Semua masalah ini jika tidak ditangani dengan baik dapat menyebabkan
hasil analisis menjadi salah atau menyesatkan.
Mengapa Cleansing Data Penting?
Data yang kotor atau bermasalah dapat menyebabkan
berbagai masalah serius, seperti:
- Kesalahan
dalam pengambilan keputusan karena data yang salah atau tidak lengkap.
- Analisis
yang bias akibat data duplikat atau data yang tidak relevan.
- Waktu
dan sumber daya yang terbuang untuk memperbaiki masalah di tahap akhir.
- Menurunnya
kepercayaan pada hasil analisis dan sistem yang digunakan.
Oleh karena itu, cleansing data menjadi proses wajib yang
harus dilakukan agar data dapat dipakai secara optimal.
Langkah-langkah Cleansing Data
Berikut adalah beberapa langkah penting dalam proses
cleansing data beserta penjelasan dan contohnya:
- Menghapus
Data Duplikat
Data duplikat adalah data yang muncul lebih dari satu
kali dalam dataset. Contohnya, seorang pelanggan yang memberikan ulasan yang
sama sebanyak dua kali atau data transaksi yang tercatat berulang. Keberadaan
data duplikat dapat menyebabkan analisis menjadi tidak akurat, misalnya
menghitung jumlah penjualan atau rating produk menjadi berlebihan.
Cara mengatasi:
- Identifikasi
data duplikat berdasarkan atribut unik (seperti nomor ID, tanggal, dan
nama).
- Hapus
data yang sama agar hanya ada satu data yang valid.
Contoh: Jika ada dua data pelanggan dengan nama dan nomor
telepon yang sama, salah satunya akan dihapus.
- Mengisi
Data yang Hilang
Dalam dataset, sering ditemukan data yang kosong atau
hilang pada beberapa kolom, misalnya tidak semua pelanggan mengisi alamat
lengkap atau nomor telepon.
Cara mengatasi:
- Mengisi
nilai kosong dengan nilai rata-rata, median, modus (imputasi statistik).
- Mengisi
dengan nilai default yang logis.
- Jika
data hilang terlalu banyak dan tidak mungkin diisi, data tersebut bisa
dihapus jika dianggap tidak relevan.
Contoh: Jika data umur pelanggan hilang, bisa diisi
dengan rata-rata umur pelanggan lain.
- Memperbaiki
Kesalahan Penulisan
Kesalahan penulisan (typo) dan inkonsistensi format bisa
terjadi terutama pada data teks yang diketik manual. Contohnya, nama produk
bisa ditulis “ProdukA”, “produk a”, atau “produka” yang seharusnya sama.
Cara mengatasi:
- Gunakan
teknik pemeriksaan ejaan otomatis (spell check).
- Terapkan
aturan penulisan baku (case normalization, yaitu mengubah semua huruf
menjadi kecil atau besar).
- Gunakan
algoritma pencocokan pola (pattern matching) untuk memperbaiki kata yang
mirip.
Contoh: Semua kata “ProdukA”, “produka” distandarkan
menjadi “produk a”.
- Standarisasi
Format Data
Data yang berasal dari berbagai sumber biasanya memiliki
format yang berbeda-beda, misalnya format tanggal yang ada yang menggunakan
“DD/MM/YYYY” dan ada yang menggunakan “YYYY-MM-DD”. Angka juga bisa dipisah
dengan tanda koma atau titik, tergantung standar regional.
Cara mengatasi:
- Menyatukan
format tanggal agar seragam.
- Menyatukan
format angka dan satuan.
- Menyamakan
format teks agar konsisten.
Contoh: Semua tanggal transaksi distandarkan ke format
“YYYY-MM-DD” agar mudah diurutkan.
- Menghapus
Data yang Tidak Relevan
Dalam dataset terkadang terdapat data yang tidak berguna
atau mengganggu proses analisis, seperti komentar spam, data tes, atau data
yang tidak terkait dengan tujuan analisis.
Cara mengatasi:
- Identifikasi
data yang tidak relevan berdasarkan konteks.
- Hapus
data tersebut dari dataset.
Contoh: Dalam analisis ulasan pelanggan, komentar yang
hanya berisi emotikon tanpa kata-kata bermakna bisa dihapus.
Contoh Implementasi Cleansing Data
Misalnya, sebuah toko online mengumpulkan data transaksi
dari berbagai cabang. Dalam data tersebut ditemukan beberapa masalah:
- Beberapa
transaksi tercatat dua kali.
- Ada
data pelanggan yang tidak mengisi nomor telepon.
- Nama
produk ditulis dengan berbagai variasi, misalnya “Kaos Polos”, “kaos
polos”, dan “kaosPolos”.
- Format
tanggal transaksi berbeda-beda.
- Ada
beberapa data tes yang dimasukkan oleh karyawan saat percobaan sistem.
Dengan melakukan cleansing data, toko online tersebut
dapat memperbaiki semua masalah di atas agar data transaksi bisa dianalisis
dengan benar untuk mengambil keputusan bisnis.
Manfaat Cleansing Data
- Meningkatkan
akurasi analisis: Data yang bersih menghasilkan informasi yang valid.
- Mempercepat
proses pengolahan data: Data bersih lebih mudah diproses dan dianalisis.
- Meningkatkan
kualitas keputusan: Keputusan yang diambil berdasarkan data berkualitas
akan lebih tepat dan efektif.
- Mengurangi
biaya: Menghindari kesalahan akibat data buruk yang dapat menimbulkan
kerugian.
Dengan memahami dan melakukan cleansing data dengan
benar, kita dapat memastikan bahwa proses pengolahan data berjalan lancar dan
hasilnya dapat dipercaya untuk berbagai keperluan, terutama dalam pengambilan
keputusan penting.
5. Contoh Aplikasi Data, Keputusan, Impor Kata, dan
Cleansing (Pengembangan)
Misalnya, sebuah perusahaan e-commerce ingin meningkatkan
kualitas produknya berdasarkan ulasan pelanggan yang dikumpulkan dari berbagai
platform, seperti website resmi, media sosial, dan aplikasi mobile. Perusahaan
ingin memanfaatkan data ulasan tersebut untuk mengambil keputusan strategis
dalam pengembangan produk dan pelayanan pelanggan.
Data
Data yang dimiliki perusahaan berupa ratusan ribu ulasan
pelanggan dalam bentuk teks. Ulasan ini berisi berbagai komentar, kritik, dan
pujian mengenai produk, layanan pengiriman, serta pengalaman berbelanja secara
umum. Data ini bersifat tidak terstruktur karena berupa teks bebas dengan
berbagai variasi bahasa, ejaan, dan gaya penulisan.
Impor Kata
Langkah pertama dalam pengolahan data ini adalah
mengimpor kata-kata dari ulasan tersebut ke dalam sistem analisis teks. Proses
impor ini melibatkan:
- Pengumpulan
data dari berbagai sumber seperti file CSV, database, atau API media
sosial.
- Ekstraksi
teks dari data mentah, misalnya mengambil bagian komentar saja dari
metadata yang menyertainya.
- Konversi
format agar data teks dapat dibaca oleh program analisis, misalnya
mengubah file dokumen ke dalam format teks yang standar.
Impor kata ini penting agar seluruh data yang tersebar di
berbagai sumber dapat terkonsolidasi dan siap dianalisis secara terpusat.
Cleansing (Pembersihan Data)
Setelah data berhasil diimpor, tahap selanjutnya adalah
cleansing atau pembersihan data, yang meliputi beberapa proses penting:
- Penghapusan
data duplikat: Kadang pelanggan mengirim ulasan yang sama lebih dari
sekali, atau data yang sama terekam berulang. Data duplikat ini harus
dihapus agar tidak mempengaruhi analisis secara tidak proporsional.
- Mengoreksi
kesalahan penulisan dan ejaan: Dalam ulasan, sering ditemukan kata-kata
yang salah ketik atau slang. Proses ini menggunakan teknik koreksi
otomatis dan kamus bahasa agar kata-kata tersebut dikenali dengan benar.
- Penghilangan
kata-kata tidak relevan (stop words): Kata-kata umum seperti “dan”,
“atau”, “yang” biasanya dihilangkan agar analisis fokus pada kata-kata
bermakna.
- Normalisasi
teks: Mengubah kata-kata menjadi bentuk dasar (stemming) seperti mengubah
“membeli”, “pembelian” menjadi “beli” agar analisis menjadi lebih efisien.
- Penyaringan
konten negatif atau spam: Ulasan yang tidak relevan atau spam juga dihapus
agar data tetap berkualitas.
Analisis dan Pengambilan Keputusan
Setelah data dibersihkan, langkah berikutnya adalah
menganalisis data tersebut untuk mendapatkan insight yang berguna dalam
pengambilan keputusan:
- Analisis
sentimen: Sistem mengkategorikan ulasan menjadi sentimen positif, negatif,
atau netral menggunakan algoritma pemrosesan bahasa alami. Misalnya,
kalimat “Produk ini sangat bagus dan awet” masuk kategori positif,
sementara “Barangnya rusak dan pengirimannya lama” masuk negatif.
- Ekstraksi
kata kunci: Dari ulasan diambil kata kunci yang sering muncul, misalnya
“pengiriman”, “kualitas”, “harga”, atau “layanan pelanggan”. Ini membantu
perusahaan mengetahui aspek mana yang paling banyak dibicarakan pelanggan.
- Identifikasi
masalah utama: Dengan menggabungkan hasil sentimen dan kata kunci,
perusahaan bisa mengetahui masalah spesifik yang harus diperbaiki, seperti
pengiriman yang lambat, kualitas produk yang kurang, atau pelayanan
customer service yang tidak memuaskan.
- Segmentasi
pelanggan: Ulasan juga dianalisis berdasarkan kategori pelanggan, misalnya
berdasarkan wilayah geografis, usia, atau jenis produk yang dibeli,
sehingga keputusan dapat lebih tepat sasaran.
Keputusan
Berdasarkan hasil analisis data ulasan yang sudah melalui
proses impor kata dan cleansing, perusahaan mengambil berbagai keputusan
strategis, misalnya:
- Perbaikan
produk: Memutuskan untuk meningkatkan kualitas bahan baku atau desain
produk berdasarkan keluhan yang paling sering muncul.
- Optimalisasi
layanan pengiriman: Jika masalah pengiriman menjadi sorotan utama,
perusahaan bekerja sama dengan jasa pengiriman yang lebih cepat dan
handal.
- Pelatihan
layanan pelanggan: Menyediakan pelatihan bagi tim customer service agar
dapat menangani keluhan dengan lebih baik.
- Strategi
pemasaran yang lebih tepat: Menyesuaikan promosi atau fitur produk sesuai
dengan kebutuhan dan preferensi pelanggan yang teridentifikasi dari
ulasan.
Dengan menggunakan data yang sudah bersih dan dianalisis
dengan baik, keputusan yang diambil perusahaan menjadi lebih berbasis fakta dan
mampu meningkatkan kepuasan pelanggan secara nyata. Proses ini juga membantu
perusahaan untuk terus berinovasi dan bersaing di pasar yang semakin
kompetitif.

wow
ReplyDeletethe bestttt
ReplyDeletebaguss banget
ReplyDeleteim paham
ReplyDeleteKEREN
ReplyDeleteBAGUUSSS
ReplyDeleteartikel nya sangat bermanfaat
ReplyDelete