Soal UAS UT MSIM4403 Data Mining dan Kunci Jawaban

Menjelang Ujian Akhir Semester di Universitas Terbuka, banyak mahasiswa mulai merasakan tekanan yang cukup nyata. Bukan semata soal volume materi yang tebal, tapi soal bagaimana mengolah isi modul menjadi pemahaman yang benar-benar mengakar. Soal UAS UT MSIM4403 Data Mining menjadi salah satu tantangan.

Di sinilah mahasiswa diajak memahami bagaimana data diolah menjadi pola bermakna yang bisa digunakan untuk pengambilan keputusan. Kemampuan ini sangat relevan di era digital sekarang, ketika hampir setiap bidang kerja membutuhkan pemahaman dasar.

Cara paling efektif untuk mengukur kesiapan sebelum ujian adalah dengan langsung mengerjakan Soal Ujian UT dari materi yang sudah dipelajari. Latihan soal membantu kamu mengenali tipe pertanyaan yang sering muncul, melatih kecepatan berpikir, dan menutup celah pemahaman.

Soal UT MSIM4403 Data Mining

Data mining didefinisikan sebagai proses untuk menemukan pola atau pengetahuan yang berguna dari…

A. Basis data relasional yang terstruktur secara manual
B. Kumpulan data yang besar dengan menggunakan teknik otomatis atau semi-otomatis
C. Laporan statistik deskriptif yang dibuat oleh analis data
D. Sistem informasi manajemen berbasis cloud computing

Jawaban: B. Kumpulan data yang besar dengan menggunakan teknik otomatis atau semi-otomatis.
Data mining adalah proses ekstraksi pola atau pengetahuan tersembunyi dari kumpulan data berukuran besar secara otomatis atau semi-otomatis, bukan sekadar pembuatan laporan statistik biasa.

Salah satu alasan utama kebutuhan akan data mining dalam era modern adalah…

A. Volume data yang terus meningkat sehingga analisis manual tidak lagi memungkinkan
B. Keterbatasan kemampuan komputer dalam menyimpan data
C. Penurunan kualitas data akibat penggunaan teknologi baru
D. Kebutuhan untuk menggantikan fungsi sistem basis data relasional

Jawaban: A. Volume data yang terus meningkat sehingga analisis manual tidak lagi memungkinkan.
Ledakan data (data explosion) menjadi pendorong utama kebutuhan data mining karena manusia tidak mampu menganalisis data berskala besar secara manual dengan efisien.

Ilmu yang menjadi landasan utama dalam proses data mining adalah…

A. Ilmu jaringan komputer dan keamanan siber
B. Ilmu manajemen proyek perangkat lunak
C. Statistika, kecerdasan buatan, dan basis data
D. Rekayasa perangkat lunak dan teknik kompilasi

Jawaban: C. Statistika, kecerdasan buatan, dan basis data.
Data mining merupakan perpaduan ilmu statistika, kecerdasan buatan (machine learning), dan teknologi basis data yang bekerja bersama untuk menemukan pola dalam data.

Dalam konteks teknik basis data untuk data mining, data warehouse memiliki karakteristik yang disebut non-volatile, artinya…

A. Data dapat diubah kapan saja oleh pengguna akhir
B. Data disimpan secara terpisah di setiap departemen
C. Data diperbarui secara berkala mengikuti transaksi harian
D. Data yang sudah dimuat tidak dihapus atau diubah secara rutin

Jawaban: D. Data yang sudah dimuat tidak dihapus atau diubah secara rutin.
Non-volatile berarti data dalam data warehouse bersifat stabil setelah dimuat, hanya operasi pembacaan (read) yang dilakukan, bukan penghapusan atau pembaruan rutin seperti pada basis data transaksional.

Kualitas data yang baik dalam konteks data mining ditentukan oleh beberapa dimensi. Dimensi yang mengukur sejauh mana data bebas dari kesalahan disebut…

A. Kelengkapan (completeness)
B. Akurasi (accuracy)
C. Konsistensi (consistency)
D. Ketepatan waktu (timeliness)

Jawaban: B. Akurasi (accuracy).
Akurasi mengukur sejauh mana nilai data mencerminkan nilai aktual yang benar dan bebas dari kesalahan, berbeda dengan kelengkapan yang mengukur tidak adanya nilai yang hilang.

Proses normalisasi data dalam tahap preprocessing bertujuan untuk…

A. Mengubah skala nilai atribut agar berada dalam rentang yang sebanding
B. Menghapus seluruh rekaman yang memiliki nilai duplikat
C. Mengganti nilai yang hilang dengan nilai rata-rata kolom
D. Mengubah tipe data kategorikal menjadi data numerik biner

Jawaban: A. Mengubah skala nilai atribut agar berada dalam rentang yang sebanding.
Normalisasi data bertujuan menyeragamkan skala atribut (misalnya ke rentang 0-1) sehingga atribut dengan nilai besar tidak mendominasi proses analisis dibanding atribut bernilai kecil.

Teknik visualisasi data yang paling tepat untuk menampilkan distribusi frekuensi data numerik adalah…

A. Diagram lingkaran (pie chart)
B. Grafik garis (line chart)
C. Histogram
D. Diagram batang bertumpuk (stacked bar)

Jawaban: C. Histogram.
Histogram dirancang khusus untuk menggambarkan distribusi frekuensi data numerik kontinu dengan membagi data ke dalam interval (bin) dan menampilkan frekuensinya.

Dalam data preprocessing, teknik yang digunakan untuk menangani data yang hilang (missing values) dengan mengganti nilai yang hilang menggunakan nilai atribut yang paling sering muncul disebut…

A. Imputasi rata-rata (mean imputation)
B. Imputasi median (median imputation)
C. Penghapusan rekaman (listwise deletion)
D. Imputasi modus (mode imputation)

Jawaban: D. Imputasi modus (mode imputation).
Imputasi modus mengganti nilai yang hilang dengan nilai yang paling sering muncul (modus) pada atribut tersebut, dan umumnya digunakan untuk data kategorikal.

Teknik data mining yang bertujuan untuk memprediksi nilai suatu variabel berdasarkan variabel lain yang sudah diketahui nilainya disebut…

A. Clustering
B. Predictive data mining
C. Association rule mining
D. Descriptive data mining

Jawaban: B. Predictive data mining.
Predictive data mining berfokus pada prediksi nilai variabel target berdasarkan variabel prediktor yang diketahui, menggunakan model seperti regresi atau klasifikasi.

10.

Descriptive data mining berbeda dari predictive data mining karena descriptive data mining bertujuan untuk…

A. Membangun model yang mampu memprediksi label kelas baru
B. Mengestimasi nilai numerik berdasarkan data historis
C. Menemukan pola, hubungan, dan struktur tersembunyi dalam data
D. Mengklasifikasikan data baru ke dalam kategori yang telah ditentukan

Jawaban: C. Menemukan pola, hubungan, dan struktur tersembunyi dalam data.
Descriptive data mining bertujuan mendeskripsikan karakteristik data seperti pengelompokan atau asosiasi, tanpa membuat prediksi terhadap variabel target tertentu.

11.

Pada regresi linier sederhana, persamaan garis regresi dinyatakan sebagai Y = a + bX. Nilai b dalam persamaan tersebut merepresentasikan…

A. Kemiringan garis (slope) yang menunjukkan perubahan Y per satu satuan perubahan X
B. Titik potong garis regresi dengan sumbu Y ketika X bernilai nol
C. Koefisien determinasi yang mengukur kecocokan model
D. Nilai rata-rata dari variabel dependen Y

Jawaban: A. Kemiringan garis (slope) yang menunjukkan perubahan Y per satu satuan perubahan X.
Dalam persamaan Y = a + bX, koefisien b adalah slope atau gradien garis yang menunjukkan besarnya perubahan variabel Y untuk setiap kenaikan satu unit variabel X.

12.

Metode Ordinary Least Squares (OLS) pada regresi linier sederhana bekerja dengan cara…

A. Memaksimalkan jumlah residual kuadrat antara nilai prediksi dan nilai aktual
B. Meminimalkan jumlah nilai absolut dari setiap residual
C. Memaksimalkan korelasi antara variabel independen dan dependen
D. Meminimalkan jumlah kuadrat selisih antara nilai prediksi dan nilai aktual

Jawaban: D. Meminimalkan jumlah kuadrat selisih antara nilai prediksi dan nilai aktual.
OLS (Ordinary Least Squares) mencari koefisien regresi yang meminimalkan jumlah kuadrat residual (Sum of Squared Errors) sehingga garis regresi yang dihasilkan paling dekat dengan seluruh titik data.

13.

Perbedaan utama antara regresi linier sederhana dan regresi linier berganda terletak pada…

A. Jenis variabel dependen yang digunakan dalam model
B. Jumlah variabel independen yang digunakan dalam model
C. Metode estimasi koefisien yang diterapkan pada model
D. Skala pengukuran variabel dependen dalam model

Jawaban: B. Jumlah variabel independen yang digunakan dalam model.
Regresi linier sederhana menggunakan satu variabel independen (X), sedangkan regresi linier berganda menggunakan dua atau lebih variabel independen (X1, X2, …, Xk) untuk memprediksi variabel dependen.

14.

Sebuah perusahaan ingin memprediksi penjualan berdasarkan anggaran iklan dan jumlah tenaga penjual. Model yang paling tepat digunakan adalah…

A. Regresi linier sederhana dengan variabel iklan sebagai prediktor
B. Algoritma klasifikasi pohon keputusan
C. Regresi linier berganda dengan iklan dan tenaga penjual sebagai prediktor
D. Algoritma clustering K-Means

Jawaban: C. Regresi linier berganda dengan iklan dan tenaga penjual sebagai prediktor.
Karena terdapat dua variabel independen (anggaran iklan dan jumlah tenaga penjual) dan satu variabel dependen numerik (penjualan), maka regresi linier berganda adalah pilihan yang paling tepat.

15.

Algoritma ID3 dalam klasifikasi pohon keputusan menggunakan ukuran bernama Information Gain untuk memilih atribut terbaik. Information Gain dihitung berdasarkan konsep…

A. Entropi, yang mengukur tingkat ketidakmurnian atau ketidakpastian dalam sekumpulan data
B. Gini index, yang mengukur probabilitas kesalahan klasifikasi acak
C. Chi-square, yang mengukur kemandirian statistik antar atribut
D. Jarak Euclidean antara centroid kelas yang berbeda

Jawaban: A. Entropi, yang mengukur tingkat ketidakmurnian atau ketidakpastian dalam sekumpulan data.
ID3 menggunakan Information Gain yang dihitung dari pengurangan entropi sebelum dan sesudah pemisahan berdasarkan suatu atribut, sehingga atribut dengan Information Gain tertinggi dipilih sebagai node pemisah.

16.

Kelemahan utama algoritma ID3 yang diperbaiki oleh algoritma C4.5 adalah…

A. ID3 tidak dapat menangani data kategorikal
B. ID3 menggunakan Gini index yang tidak akurat untuk data berdimensi tinggi
C. ID3 tidak mampu menghasilkan aturan klasifikasi dari pohon keputusan
D. ID3 cenderung memilih atribut dengan jumlah nilai yang banyak meskipun tidak informatif

Jawaban: D. ID3 cenderung memilih atribut dengan jumlah nilai yang banyak meskipun tidak informatif.
ID3 bias terhadap atribut yang memiliki banyak nilai unik karena menghasilkan Information Gain tinggi secara artifisial. C4.5 mengoreksi ini dengan menggunakan Gain Ratio yang mempertimbangkan jumlah cabang.

17.

Algoritma C4.5 memperbaiki kelemahan ID3 dengan menggunakan ukuran pemilihan atribut yang disebut…

A. Weighted Information Gain
B. Gain Ratio
C. Adjusted Gini Index
D. Normalized Entropy

Jawaban: B. Gain Ratio.
C4.5 menggunakan Gain Ratio yang membagi Information Gain dengan Split Information untuk mengurangi bias terhadap atribut dengan banyak nilai unik yang menjadi kelemahan utama algoritma ID3.

18.

Pada algoritma Nearest Neighbor, klasifikasi objek baru ditentukan berdasarkan…

A. Nilai rata-rata atribut dari seluruh data pelatihan
B. Model matematis yang dibangun selama fase pelatihan
C. Kelas dari objek-objek terdekat dalam data pelatihan berdasarkan ukuran jarak
D. Probabilitas posterior menggunakan teorema Bayes

Jawaban: C. Kelas dari objek-objek terdekat dalam data pelatihan berdasarkan ukuran jarak.
Nearest Neighbor mengklasifikasikan objek baru dengan mencari K objek terdekat (tetangga) dalam ruang fitur dan mengambil kelas mayoritas dari tetangga tersebut sebagai hasil klasifikasi.

19.

Teorema Bayes digunakan dalam algoritma Bayesian untuk klasifikasi dengan menghitung probabilitas…

A. Posterior suatu kelas diberikan fitur-fitur tertentu dari data yang diklasifikasi
B. Jarak antara objek baru dengan centroid setiap kelas
C. Entropi setiap atribut dalam pohon keputusan
D. Korelasi linier antara variabel fitur dan variabel kelas

Jawaban: A. Posterior suatu kelas diberikan fitur-fitur tertentu dari data yang diklasifikasi.
Algoritma Naive Bayes menggunakan Teorema Bayes untuk menghitung P(Kelas|Fitur), yaitu probabilitas posterior setiap kelas berdasarkan bukti (fitur) yang ada, kemudian memilih kelas dengan probabilitas tertinggi.

20.

Asumsi utama yang mendasari algoritma Naive Bayes adalah…

A. Data pelatihan harus berdistribusi normal secara sempurna
B. Jumlah kelas dalam dataset harus ganjil
C. Setiap kelas harus memiliki jumlah data pelatihan yang sama
D. Setiap fitur bersifat independen satu sama lain diberikan kelas tertentu

Jawaban: D. Setiap fitur bersifat independen satu sama lain diberikan kelas tertentu.
Kata “Naive” (naif) dalam algoritma Naive Bayes merujuk pada asumsi kuat bahwa semua fitur saling independen secara kondisional, asumsi yang jarang terpenuhi sepenuhnya dalam data nyata.

21.

Algoritma Apriori digunakan dalam teknik analisis asosiasi untuk menemukan…

A. Kelompok data yang memiliki kemiripan fitur terbesar
B. Itemset yang sering muncul bersamaan dalam transaksi dan aturan asosiasi yang kuat
C. Model prediksi nilai numerik berdasarkan pola historis transaksi
D. Urutan kejadian yang paling sering terjadi dalam data sekuensial

Jawaban: B. Itemset yang sering muncul bersamaan dalam transaksi dan aturan asosiasi yang kuat.
Algoritma Apriori menemukan frequent itemsets (kumpulan item yang muncul dengan frekuensi di atas ambang minimum support) kemudian menghasilkan aturan asosiasi berdasarkan nilai confidence.

22.

Dalam analisis asosiasi, nilai support untuk suatu itemset {A, B} dihitung sebagai…

A. Proporsi transaksi yang mengandung A dibagi dengan transaksi yang mengandung B
B. Jumlah transaksi yang mengandung A dikalikan jumlah transaksi yang mengandung B
C. Proporsi transaksi yang mengandung A dan B terhadap total seluruh transaksi
D. Proporsi transaksi yang mengandung B di antara transaksi yang sudah mengandung A

Jawaban: C. Proporsi transaksi yang mengandung A dan B terhadap total seluruh transaksi.
Support mengukur seberapa sering suatu itemset muncul dalam keseluruhan dataset, dihitung sebagai frekuensi kemunculan bersama itemset dibagi total jumlah transaksi.

23.

Dalam analisis asosiasi, nilai confidence dari aturan A => B dihitung sebagai…

A. Support {A, B} dibagi dengan support {A}
B. Support {A} dibagi dengan support {A, B}
C. Support {A, B} dibagi dengan support {B}
D. Support {A} ditambah support {B} dikurangi support {A, B}

Jawaban: A. Support {A, B} dibagi dengan support {A}.
Confidence dari aturan A => B mengukur seberapa sering B muncul dalam transaksi yang sudah mengandung A, dihitung dengan membagi frekuensi kemunculan {A, B} dengan frekuensi kemunculan {A}.

24.

Prinsip Apriori menyatakan bahwa setiap subset dari frequent itemset juga merupakan frequent itemset. Implikasi praktis dari prinsip ini adalah…

A. Tidak perlu menghitung support untuk itemset berukuran satu
B. Itemset yang lebih besar selalu memiliki support yang lebih tinggi
C. Confidence aturan asosiasi selalu lebih besar dari nilai support-nya
D. Itemset yang tidak memenuhi minimum support dapat dipangkas beserta seluruh supersetnya

Jawaban: D. Itemset yang tidak memenuhi minimum support dapat dipangkas beserta seluruh supersetnya.
Prinsip Apriori memungkinkan pruning (pemangkasan): jika suatu itemset infrequent, maka semua supersetnya pasti juga infrequent sehingga tidak perlu dieksplorasi, menghemat komputasi secara signifikan.

25.

Keunggulan utama algoritma FP-Growth dibandingkan Apriori dalam menemukan frequent itemsets adalah…

A. FP-Growth menghasilkan aturan asosiasi dengan confidence yang lebih tinggi
B. FP-Growth tidak memerlukan pemindaian basis data berulang kali untuk kandidat itemset
C. FP-Growth hanya dapat digunakan pada dataset yang memiliki sedikit item unik
D. FP-Growth menghasilkan lebih banyak aturan asosiasi daripada Apriori

Jawaban: B. FP-Growth tidak memerlukan pemindaian basis data berulang kali untuk kandidat itemset.
FP-Growth mengompres database ke dalam struktur FP-Tree sehingga hanya perlu memindai database dua kali, jauh lebih efisien dibanding Apriori yang harus memindai database berulang kali untuk setiap ukuran kandidat itemset.

26.

Struktur data utama yang digunakan oleh algoritma FP-Growth untuk menyimpan informasi transaksi secara terkompresi adalah…

A. Hash table yang memetakan setiap item ke frekuensi kemunculannya
B. Array dua dimensi yang merepresentasikan matriks ketidakhadiran item
C. FP-Tree, yaitu struktur pohon yang merepresentasikan pola transaksi
D. Graf berarah yang merepresentasikan urutan item dalam setiap transaksi

Jawaban: C. FP-Tree, yaitu struktur pohon yang merepresentasikan pola transaksi.
FP-Growth membangun FP-Tree (Frequent Pattern Tree) yang mengompres seluruh informasi transaksi ke dalam struktur pohon, memungkinkan penggalian frequent itemsets tanpa pembangkitan kandidat secara eksplisit.

27.

Algoritma K-Means melakukan pengelompokan (clustering) data dengan cara…

A. Mempartisi data ke dalam K kelompok berdasarkan kedekatan dengan centroid kelompok
B. Membangun hierarki kelompok berdasarkan jarak antara pasangan objek data
C. Mengklasifikasikan data ke kelas yang sudah ditentukan sebelumnya
D. Menemukan aturan hubungan antar item dalam transaksi

Jawaban: A. Mempartisi data ke dalam K kelompok berdasarkan kedekatan dengan centroid kelompok.
K-Means adalah algoritma clustering partisi yang membagi data menjadi K cluster dengan meminimalkan total jarak dalam cluster (inertia), di mana setiap titik data ditugaskan ke centroid terdekat.

28.

Salah satu kelemahan utama algoritma K-Means adalah…

A. K-Means tidak dapat menangani data numerik
B. K-Means membutuhkan data pelatihan yang berlabel untuk bekerja
C. K-Means selalu menghasilkan cluster dengan ukuran yang sama
D. Jumlah cluster K harus ditentukan terlebih dahulu sebelum proses clustering

Jawaban: D. Jumlah cluster K harus ditentukan terlebih dahulu sebelum proses clustering.
Kelemahan K-Means adalah pengguna harus menentukan nilai K (jumlah cluster) sebelum algoritma dijalankan, padahal jumlah cluster yang optimal sering kali tidak diketahui sebelumnya.

29.

Langkah pertama dalam algoritma K-Means setelah penentuan nilai K adalah…

A. Menghitung jarak antara setiap pasang titik data dalam dataset
B. Memilih K titik secara acak sebagai centroid awal
C. Mengelompokkan data ke dalam K cluster berdasarkan label yang ada
D. Menghitung nilai rata-rata seluruh atribut dalam dataset

Jawaban: B. Memilih K titik secara acak sebagai centroid awal.
Tahapan K-Means dimulai dengan inisialisasi K centroid secara acak dari data, kemudian dilanjutkan dengan penugasan setiap titik ke centroid terdekat dan pembaruan posisi centroid secara iteratif.

30.

Perbedaan utama antara algoritma Hierarchical Agglomerative Clustering dan K-Means adalah…

A. Hierarchical Agglomerative Clustering membutuhkan nilai K yang ditentukan di awal
B. K-Means menghasilkan dendogram sedangkan Hierarchical Agglomerative Clustering tidak
C. Hierarchical Agglomerative Clustering membangun hierarki cluster secara bertahap dari bawah ke atas
D. K-Means lebih lambat dibandingkan Hierarchical Agglomerative Clustering untuk dataset besar

Jawaban: C. Hierarchical Agglomerative Clustering membangun hierarki cluster secara bertahap dari bawah ke atas.
Hierarchical Agglomerative Clustering (HAC) bekerja secara bottom-up, dimulai dari setiap titik sebagai cluster tunggal kemudian menggabungkan dua cluster terdekat secara berulang, menghasilkan dendogram yang merepresentasikan hierarki cluster.

31.

Dalam evaluasi kinerja algoritma klasifikasi, nilai accuracy dihitung sebagai…

A. Jumlah prediksi benar dibagi total seluruh prediksi
B. Jumlah prediksi positif benar dibagi total prediksi positif
C. Jumlah prediksi positif benar dibagi total data positif aktual
D. Rata-rata harmonis antara precision dan recall

Jawaban: A. Jumlah prediksi benar dibagi total seluruh prediksi.
Accuracy adalah proporsi prediksi yang benar (baik True Positive maupun True Negative) dari keseluruhan data uji, diformulasikan sebagai (TP + TN) / (TP + TN + FP + FN).

32.

Matriks konfusi (confusion matrix) dalam evaluasi model klasifikasi berfungsi untuk…

A. Mengukur tingkat kemiripan antara dua model klasifikasi yang berbeda
B. Menghitung jarak antara centroid cluster dalam algoritma K-Means
C. Menentukan jumlah pohon optimal dalam algoritma Random Forest
D. Menampilkan perbandingan antara label aktual dan label yang diprediksi model

Jawaban: D. Menampilkan perbandingan antara label aktual dan label yang diprediksi model.
Confusion matrix adalah tabel yang menunjukkan hasil klasifikasi model dalam empat kategori yaitu True Positive, True Negative, False Positive, dan False Negative, sehingga memudahkan analisis kesalahan prediksi.

33.

Pada evaluasi algoritma prediktif, metrik yang mengukur proporsi data positif aktual yang berhasil diprediksi benar oleh model disebut…

A. Precision
B. Recall (Sensitivity)
C. Specificity
D. F1-Score

Jawaban: B. Recall (Sensitivity).
Recall atau Sensitivity dihitung sebagai TP / (TP + FN), mengukur kemampuan model untuk menemukan semua data positif yang ada, sehingga disebut juga True Positive Rate.

34.

F1-Score digunakan sebagai metrik evaluasi karena…

A. F1-Score selalu lebih tinggi dari accuracy pada dataset yang seimbang
B. F1-Score menghitung total kesalahan prediksi secara absolut
C. F1-Score menyeimbangkan precision dan recall menjadi satu nilai tunggal
D. F1-Score dapat digunakan hanya pada dataset dengan kelas yang seimbang

Jawaban: C. F1-Score menyeimbangkan precision dan recall menjadi satu nilai tunggal.
F1-Score adalah rata-rata harmonis dari precision dan recall, berguna ketika terdapat trade-off antara kedua metrik tersebut terutama pada dataset dengan kelas yang tidak seimbang (imbalanced).

35.

Metrik evaluasi yang umum digunakan untuk mengukur kinerja algoritma regresi adalah…

A. Mean Squared Error (MSE) dan Root Mean Squared Error (RMSE)
B. Accuracy dan F1-Score
C. Silhouette coefficient dan Davies-Bouldin index
D. Support, confidence, dan lift

Jawaban: A. Mean Squared Error (MSE) dan Root Mean Squared Error (RMSE).
MSE dan RMSE mengukur rata-rata kesalahan kuadrat antara nilai prediksi dan nilai aktual, cocok untuk evaluasi model regresi yang memprediksi nilai numerik kontinu.

36.

Metrik evaluasi kinerja algoritma clustering yang mengukur seberapa kompak setiap cluster dan seberapa terpisah cluster satu dengan yang lain adalah…

A. F1-Score
B. Root Mean Squared Error
C. Confusion matrix
D. Silhouette coefficient

Jawaban: D. Silhouette coefficient.
Silhouette coefficient menggabungkan dua aspek kualitas clustering yaitu kohesi (seberapa dekat objek dalam satu cluster) dan separasi (seberapa jauh antar cluster), menghasilkan nilai antara -1 hingga 1.

37.

WEKA (Waikato Environment for Knowledge Analysis) merupakan perangkat lunak yang digunakan dalam data mining karena menyediakan…

A. Lingkungan pemrograman tingkat rendah untuk pengembangan algoritma baru dari awal
B. Kumpulan algoritma machine learning dan data preprocessing dalam antarmuka yang terintegrasi
C. Sistem manajemen basis data relasional untuk penyimpanan data berukuran besar
D. Platform cloud computing khusus untuk analisis data real-time

Jawaban: B. Kumpulan algoritma machine learning dan data preprocessing dalam antarmuka yang terintegrasi.
WEKA adalah perangkat lunak open-source berbasis Java yang mengintegrasikan berbagai algoritma klasifikasi, clustering, regresi, dan preprocessing data dalam satu platform dengan antarmuka grafis yang mudah digunakan.

38.

Format file standar yang digunakan oleh WEKA untuk menyimpan dataset adalah…

A. XML (Extensible Markup Language)
B. JSON (JavaScript Object Notation)
C. ARFF (Attribute-Relation File Format)
D. CSV (Comma-Separated Values)

Jawaban: C. ARFF (Attribute-Relation File Format).
WEKA menggunakan format ARFF sebagai format file aslinya, yang mendeskripsikan daftar instance dengan atribut-atribut tertentu beserta deklarasi tipe data setiap atribut dalam header file.

39.

Pada antarmuka WEKA, panel Explorer digunakan untuk…

A. Memuat data, melakukan preprocessing, dan menjalankan algoritma secara interaktif
B. Menjalankan eksperimen otomatis dan membandingkan beberapa algoritma secara bersamaan
C. Membangun alur kerja data mining menggunakan antarmuka drag-and-drop visual
D. Mengelola koneksi ke basis data eksternal melalui driver JDBC

Jawaban: A. Memuat data, melakukan preprocessing, dan menjalankan algoritma secara interaktif.
Explorer adalah panel utama WEKA yang memungkinkan pengguna memuat dataset, mengeksplorasi atribut, melakukan preprocessing, serta menjalankan berbagai algoritma klasifikasi, clustering, dan asosiasi secara interaktif.

40.

Proses pengenalan data awal dalam WEKA yang menampilkan statistik deskriptif dan distribusi setiap atribut dataset dilakukan melalui tab…

A. Classify
B. Cluster
C. Associate
D. Preprocess

Jawaban: D. Preprocess.
Tab Preprocess dalam WEKA Explorer menampilkan ringkasan atribut dataset termasuk statistik deskriptif, histogram distribusi, dan nilai yang hilang, serta menyediakan berbagai filter untuk transformasi data.

41.

Pada WEKA, metode evaluasi model yang membagi dataset menjadi bagian pelatihan dan pengujian secara berulang untuk memperoleh estimasi kinerja yang lebih andal disebut…

A. Use training set
B. Supplied test set
C. Cross-validation
D. Percentage split

Jawaban: C. Cross-validation.
Cross-validation membagi dataset menjadi K bagian (fold), melatih model pada K-1 fold dan mengujinya pada 1 fold yang tersisa, dilakukan K kali sehingga seluruh data digunakan sebagai data uji, menghasilkan estimasi kinerja yang lebih stabil.

42.

Seorang analis menggunakan WEKA untuk memprediksi kategori pelanggan berdasarkan data historis. Tab yang harus digunakan analis tersebut adalah…

A. Tab Cluster karena tugas tersebut melibatkan pengelompokan data
B. Tab Classify karena memprediksi kategori merupakan tugas klasifikasi
C. Tab Associate karena tugas tersebut menggunakan aturan asosiasi
D. Tab Select Attributes karena perlu memilih fitur yang relevan terlebih dahulu

Jawaban: B. Tab Classify karena memprediksi kategori merupakan tugas klasifikasi.
Prediksi kategori (variabel diskrit) adalah tugas klasifikasi, sehingga tab Classify pada WEKA Explorer digunakan untuk memilih dan menjalankan algoritma klasifikasi seperti ID3, C4.5, atau Naive Bayes.

43.

Pada proses prediksi data menggunakan WEKA, output berupa pohon keputusan yang dihasilkan oleh algoritma J48 merupakan implementasi dari algoritma…

A. C4.5
B. ID3
C. CART
D. Random Forest

Jawaban: A. C4.5.
J48 dalam WEKA adalah implementasi open-source dari algoritma C4.5 (yang dikembangkan oleh Ross Quinlan), menggunakan Gain Ratio untuk pemilihan atribut dan mendukung pruning pohon keputusan.

44.

Dalam konteks data mining, overfitting terjadi ketika…

A. Model terlalu sederhana sehingga tidak mampu menangkap pola dalam data pelatihan
B. Data pelatihan memiliki terlalu banyak atribut yang tidak relevan
C. Model tidak dapat melakukan konvergensi selama proses pelatihan
D. Model terlalu menyesuaikan data pelatihan sehingga kinerja buruk pada data baru

Jawaban: D. Model terlalu menyesuaikan data pelatihan sehingga kinerja buruk pada data baru.
Overfitting adalah kondisi di mana model belajar noise dan detail spesifik data pelatihan secara berlebihan sehingga kehilangan kemampuan generalisasi dan menghasilkan kinerja buruk pada data uji yang belum pernah dilihat.

45.

Teknik pruning pada pohon keputusan digunakan untuk mengatasi masalah…

A. Underfitting yang menyebabkan pohon terlalu dangkal
B. Overfitting yang menyebabkan pohon terlalu kompleks
C. Missing values pada atribut data pelatihan
D. Ketidakseimbangan distribusi kelas dalam data

Jawaban: B. Overfitting yang menyebabkan pohon terlalu kompleks.
Pruning memangkas cabang-cabang pohon keputusan yang terlalu spesifik terhadap data pelatihan, mengurangi kompleksitas pohon dan meningkatkan kemampuan generalisasi pada data baru.

46.

Salah satu karakteristik data yang perlu diperhatikan sebelum menerapkan algoritma regresi linier adalah asumsi bahwa hubungan antara variabel independen dan dependen bersifat…

A. Eksponensial atau logaritmik
B. Siklikal dan periodik
C. Linier
D. Polinomial derajat tinggi

Jawaban: C. Linier.
Regresi linier mengasumsikan bahwa hubungan antara variabel independen dan dependen bersifat linier, artinya perubahan variabel independen berbanding lurus dengan perubahan variabel dependen.

47.

Dalam analisis asosiasi, nilai lift yang lebih besar dari 1 menunjukkan bahwa…

A. Kemunculan item A dan B bersamaan lebih tinggi dari yang diharapkan secara acak
B. Nilai confidence aturan A => B lebih rendah dari nilai support-nya
C. Itemset {A, B} tidak memenuhi ambang minimum support yang ditentukan
D. Kemunculan A justru mengurangi kemungkinan kemunculan B dalam transaksi yang sama

Jawaban: A. Kemunculan item A dan B bersamaan lebih tinggi dari yang diharapkan secara acak.
Lift mengukur derajat ketergantungan antara A dan B dibandingkan ekspektasi jika keduanya independen. Lift lebih dari 1 berarti asosiasi positif, yaitu A dan B cenderung muncul bersamaan lebih sering dari yang diharapkan secara kebetulan.

48.

Pada evaluasi kinerja algoritma clustering deskriptif, nilai Davies-Bouldin Index yang lebih kecil menunjukkan kualitas clustering yang…

A. Buruk karena cluster terlalu berdekatan satu sama lain
B. Sedang karena cluster memiliki ukuran yang tidak seragam
C. Buruk karena dispersi dalam cluster terlalu besar
D. Baik karena cluster kompak dan terpisah dengan jelas

Jawaban: D. Baik karena cluster kompak dan terpisah dengan jelas.
Davies-Bouldin Index mengukur rasio antara dispersi dalam cluster dan jarak antar cluster. Nilai yang lebih kecil menandakan cluster yang lebih kompak secara internal dan lebih terpisah dari cluster lain, menunjukkan kualitas clustering yang lebih baik.

49.

Jika seorang peneliti ingin menganalisis pola pembelian produk di supermarket untuk menemukan kombinasi produk yang sering dibeli bersamaan, teknik data mining yang paling tepat digunakan adalah…

A. Regresi linier berganda
B. Analisis asosiasi menggunakan algoritma Apriori atau FP-Growth
C. Klasifikasi menggunakan algoritma Naive Bayes
D. Clustering menggunakan algoritma K-Means

Jawaban: B. Analisis asosiasi menggunakan algoritma Apriori atau FP-Growth.
Analisis asosiasi atau market basket analysis dirancang khusus untuk menemukan pola ko-kemunculan item dalam transaksi, menghasilkan aturan seperti “jika beli A maka sering juga beli B” yang berguna untuk strategi penempatan produk.

50.

Seorang manajer bank ingin mengelompokkan nasabah berdasarkan pola perilaku transaksi tanpa menggunakan label kategori yang sudah ditentukan. Pendekatan data mining yang paling tepat adalah…

A. Klasifikasi menggunakan algoritma pohon keputusan
B. Regresi linier untuk memprediksi nilai saldo nasabah
C. Clustering menggunakan algoritma K-Means atau hierarchical clustering
D. Analisis asosiasi untuk menemukan aturan transaksi nasabah

Jawaban: C. Clustering menggunakan algoritma K-Means atau hierarchical clustering.
Clustering adalah teknik unsupervised learning yang mengelompokkan data berdasarkan kemiripan fitur tanpa memerlukan label yang telah ditentukan sebelumnya, sangat sesuai untuk segmentasi nasabah berdasarkan pola perilaku.

Berlatih mengerjakan Soal UO UT secara konsisten terbukti membantu mahasiswa beradaptasi dengan berbagai format ujian yang diterapkan Universitas Terbuka. Ada Ujian Tatap Muka (UTM) yang mengharuskan kamu hadir langsung di lokasi ujian, ada Ujian Online (UO).

Percayai perjalanan belajar yang sudah kamu tempuh selama ini. Setiap sesi mengerjakan Soal UAS UT, setiap halaman modul yang kamu baca, semuanya menumpuk menjadi kesiapan nyata. Tetap fokus, jaga konsistensi latihan, dan hadapi Soal UAS UT MSIM4403 Data Mining dengan kepala dingin dan pemahaman yang sudah kamu bangun sendiri.

Soal UAS UT MSIM4403 Data Mining dan Kunci Jawaban

Soal UT MSIM4403 Data Mining

Baca juga

Soal UAS UT BIOL4317 Evolusi dan Kunci Jawaban

Soal UAS UT STBI4102 Struktur dan Perkembangan Tumbuhan Beserta Kunci Jawaban

Soal UAS UT STMA4224 Panduan Praktikum Komputasi dan Pemrograman Beserta Kunci Jawaban

Soal UAS UT MATA4302 Pengantar Teori Grup dan Kunci Jawaban

Soalut.com

Soal UAS UT MSIM4403 Data Mining dan Kunci Jawaban

Soal UT MSIM4403 Data Mining

Baca juga

Soal UAS UT BIOL4317 Evolusi dan Kunci Jawaban

Soal UAS UT STBI4102 Struktur dan Perkembangan Tumbuhan Beserta Kunci Jawaban

Soal UAS UT STMA4224 Panduan Praktikum Komputasi dan Pemrograman Beserta Kunci Jawaban

Soal UAS UT MATA4302 Pengantar Teori Grup dan Kunci Jawaban

Soalut.com

🔥 Post Terbaru