Soal UAS UT STDA4204 Machine Learning dan Kunci Jawaban

Kamu sudah siapkan Python, install scikit-learn, tapi begitu buka Modul 4 malah bingung bedain K-Nearest Neighbors sama Naive Bayes. Atau Modul 7 soal tokenisasi dan stemming yang kelihatannya gampang, ternyata jebakan juga. Itu wajar. STDA4204 Machine Learning memang butuh lebih dari sekadar baca modul. Di soal UT Statistika kami selalu tekankan pentingnya latihan kasus nyata.

Modul 6 tentang metrik evaluasi sering jadi titik lemah. Begitu juga Modul 8 soal arsitektur jaringan saraf tiruan. Bukan karena rumusnya ribet. Tapi karena kamu harus paham kapan pakai accuracy, kapan pakai F1-score. Coba kerjakan dulu soal-soal yang mencampur evaluasi model dengan deep learning dasar.

Di halaman ini, soal-soalnya langsung menguji konsep spesifik dari Modul 4 sampai Modul 9. Setiap soal dilengkapi kunci jawaban dan pembahasan singkat. Jadi kamu bisa langsung tahu di mana letak salahnya. Butuh latihan lebih banyak? Cek contoh soal UAS UT untuk matkul lain yang serumpun.

Soal UT STDA4204 Machine Learning

Arthur Samuel mendefinisikan machine learning sebagai bidang studi yang memungkinkan komputer untuk…

A. meniru kecerdasan manusia secara penuh dalam menyelesaikan semua tugas
B. belajar dari data tanpa diprogram secara eksplisit
C. mengeksekusi instruksi yang telah ditentukan sebelumnya secara efisien
D. menggantikan pengambilan keputusan manusia di semua domain

Jawaban: B
Definisi klasik dari Arthur Samuel menekankan kemampuan belajar dari data, bukan pemrograman eksplisit maupun peniruan kecerdasan manusia secara penuh.

Seorang data scientist sedang mengembangkan model yang mempelajari hubungan antara luas tanah dan harga jual rumah menggunakan data historis berlabel. Model ini termasuk dalam kategori…

A. pembelajaran penguatan
B. pembelajaran tak terawasi
C. pembelajaran terawasi
D. pembelajaran semi-terawasi

Jawaban: C
Data berlabel dan upaya memetakan input ke output yang diketahui merupakan ciri khas pembelajaran terawasi, berbeda dengan tak terawasi yang bekerja tanpa label.

Model yang menemukan pengelompokan alami pelanggan berdasarkan pola pembelian tanpa informasi label sebelumnya menerapkan pendekatan…

A. klasifikasi terawasi
B. pembelajaran tak terawasi
C. regresi linear
D. pembelajaran penguatan

Jawaban: B
Menemukan struktur tersembunyi tanpa label merupakan esensi dari pembelajaran tak terawasi, seperti clustering pelanggan.

PT Nusantara Retail ingin membangun sistem yang secara otomatis mengkategorikan email masuk ke dalam folder 'Promosi', 'Penting', atau 'Spam'. Tugas machine learning yang tepat untuk kebutuhan ini adalah…

A. klastering
B. regresi
C. rekomendasi
D. klasifikasi

Jawaban: D
Memprediksi kategori diskrit dari suatu instance adalah tugas klasifikasi, bukan regresi yang menghasilkan nilai kontinu atau klastering tanpa label.

Sebuah startup fintech mengembangkan model untuk memperkirakan skor kredit nasabah dalam rentang 300–850 berdasarkan riwayat transaksi. Tugas ini paling tepat digolongkan sebagai…

A. regresi
B. klasifikasi
C. klastering
D. sistem rekomendasi

Jawaban: A
Memprediksi nilai kontinu seperti skor kredit merupakan tugas regresi, berbeda dengan klasifikasi yang menghasilkan kategori diskrit.

Aplikasi streaming video seperti Netflix menampilkan daftar tontonan yang dipersonalisasi untuk setiap pengguna. Teknologi machine learning yang mendasari fitur ini adalah…

A. klastering untuk mengelompokkan film berdasarkan genre
B. regresi untuk memprediksi rating film di masa depan
C. sistem rekomendasi berbasis preferensi pengguna
D. klasifikasi untuk menentukan apakah film termasuk populer

Jawaban: C
Memprediksi preferensi pengguna untuk menyarankan item adalah definisi dari sistem rekomendasi, pendekatan yang spesifik untuk personalisasi konten.

Seorang developer Python mengerjakan tiga proyek dengan dependensi yang saling bertentangan. Proyek A memerlukan Pandas versi 1.x, sedangkan Proyek B memerlukan Pandas versi 2.x. Praktik terbaik untuk mengelola situasi ini adalah…

A. menginstal kedua versi Pandas secara bersamaan di lingkungan global
B. menggunakan lingkungan virtual terpisah untuk setiap proyek
C. mengabaikan versioning dan menggunakan versi terbaru untuk semua proyek
D. memodifikasi kode Proyek A agar kompatibel dengan Pandas 2.x

Jawaban: B
Lingkungan virtual mengisolasi dependensi tiap proyek sehingga konflik versi pustaka dapat dihindari tanpa saling mengganggu.

Praktik pemberian label numerik unik pada setiap rilis perangkat lunak, seperti '2.4.1' untuk menandai perubahan mayor, minor, dan patch, disebut…

A. lingkungan virtual
B. manajemen paket
C. versioning
D. dependency isolation

Jawaban: C
Versioning adalah praktik penandaan versi untuk reproduksibilitas dan pelacakan kompatibilitas perangkat lunak antar rilis.

Alat yang berfungsi untuk menginstal, memperbarui, dan menghapus pustaka Python seperti NumPy atau Pandas melalui command line termasuk dalam kategori…

A. integrated development environment
B. manajemen paket
C. version control system
D. lingkungan virtual

Jawaban: B
Manajemen paket seperti pip menangani siklus hidup pustaka, sedangkan lingkungan virtual menangani isolasi dependensi proyek.

10.

Variabel bertipe tuple di Python memiliki karakteristik yang membedakannya dari list, yaitu…

A. elemennya dapat diubah setelah pembuatan
B. menyimpan koleksi elemen yang bersifat immutable
C. hanya dapat menyimpan elemen bertipe numerik
D. menggunakan pasangan kunci-nilai untuk akses elemen

Jawaban: B
Tuple bersifat immutable sehingga elemen tidak dapat diubah setelah dibuat, berbeda dengan list yang mutable.

11.

Struktur data Python yang paling sesuai untuk menyimpan data mahasiswa dengan akses cepat berdasarkan NIM sebagai kunci adalah…

A. list
B. tuple
C. set
D. dictionary

Jawaban: D
Dictionary menyimpan pasangan kunci-nilai yang memungkinkan akses cepat berdasarkan kunci unik seperti NIM.

12.

Seorang programmer menulis fungsi calculate_tax(income) yang menerima parameter dan mengembalikan nilai pajak. Fungsi ini kemudian dipanggil berulang kali untuk berbagai nilai income. Konsep Python yang memungkinkan penggunaan kembali kode tersebut secara efisien adalah…

A. struktur kontrol perulangan
B. fungsi dengan parameter
C. list comprehension
D. struktur kontrol percabangan

Jawaban: B
Fungsi memungkinkan blok kode digunakan kembali dengan parameter yang berbeda, menghindari duplikasi kode untuk tugas yang sama.

13.

Pustaka Python yang menyediakan struktur DataFrame dengan operasi manipulasi data tabular seperti filtering dan grouping adalah…

A. NumPy
B. Matplotlib
C. Pandas
D. Scikit-learn

Jawaban: C
Pandas dikembangkan oleh Wes McKinney dan menyediakan DataFrame sebagai struktur utama untuk manipulasi data tabular.

14.

Dalam pipeline analisis data, setelah data dibersihkan dan sebelum divisualisasikan, pustaka yang paling berperan dalam melakukan operasi numerik pada array multidimensi secara efisien adalah…

A. NumPy
B. Matplotlib
C. Scikit-learn
D. Seaborn

Jawaban: A
NumPy adalah pustaka fundamental untuk komputasi numerik dan operasi array multidimensi berkinerja tinggi di Python.

15.

Seorang analis ingin membuat scatter plot dari dua variabel dalam DataFrame Pandas untuk melihat pola hubungan antara pengeluaran iklan dan pendapatan. Pustaka yang paling tepat untuk menghasilkan visualisasi ini adalah…

A. NumPy
B. Scikit-learn
C. Matplotlib
D. Keras

Jawaban: C
Matplotlib, yang dikembangkan oleh John D. Hunter, adalah pustaka utama untuk visualisasi data statis di Python, termasuk scatter plot.

16.

Seorang praktisi data memiliki dataset dengan 200 fitur namun menduga hanya sebagian kecil yang benar-benar relevan untuk model prediksi. Proses memilih subset fitur yang paling informatif sebelum pelatihan model disebut…

A. ekstraksi fitur
B. data sampling
C. feature engineering
D. seleksi fitur

Jawaban: D
Seleksi fitur adalah proses memilih subset fitur yang paling relevan, berbeda dengan ekstraksi fitur yang mentransformasi data menjadi fitur baru.

17.

Ketika data mentah berupa teks ulasan produk harus diubah menjadi representasi numerik yang menangkap sentiment sebelum dimasukkan ke model, proses yang dilakukan adalah…

A. data sampling dengan stratified approach
B. seleksi fitur menggunakan chi-square test
C. ekstraksi fitur dari data teks
D. pembersihan data untuk menghapus duplikasi

Jawaban: C
Ekstraksi fitur mentransformasi data mentah (teks) menjadi representasi fitur yang siap digunakan model, sementara seleksi fitur memilih dari fitur yang sudah ada.

18.

PT Citra Analytics menerima dataset dari berbagai cabang dan menemukan bahwa kolom 'Jenis Kelamin' pada Cabang A menggunakan 'L/P', sementara Cabang B menggunakan 'Male/Female'. Sebelum integrasi, langkah untuk menyamakan representasi nilai dalam kolom tersebut adalah…

A. Koreksi Inkonsistensi
B. Ekstraksi Fitur
C. Data Sampling
D. Seleksi Fitur

Jawaban: A
Proses menstandarisasi format dan nilai data yang tidak seragam antar sumber merupakan bentuk koreksi inkonsistensi. Seleksi dan ekstraksi fitur berurusan dengan pemilihan serta transformasi fitur, bukan penyeragaman representasi kategori.

19.

Ani menemukan bahwa 40% baris pada kolom 'Pendapatan' bernilai NaN. Jika ia memutuskan untuk membuang semua baris tersebut, risiko utama yang dihadapi adalah…

A. Outlier yang tidak terdeteksi
B. Menurunnya akurasi karena standardisasi
C. Meningkatnya duplikasi data
D. Hilangnya informasi dari fitur lain yang valid

Jawaban: D
Menghapus baris yang mengandung missing value akan menghilangkan seluruh informasi pada baris tersebut, termasuk nilai valid di kolom lain. Ini berbeda dengan mengisi missing value yang mempertahankan data lain.

20.

Dalam inspeksi data penjualan, teridentifikasi satu transaksi bernilai Rp 2,5 miliar, sementara rata-rata transaksi adalah Rp 500 ribu dengan deviasi standar Rp 200 ribu. Transaksi tersebut paling tepat dikategorikan sebagai…

A. Missing value
B. Outlier
C. Duplikasi data
D. Inkonsistensi format

Jawaban: B
Nilai yang menyimpang secara signifikan dari distribusi normal data disebut outlier. Outlier berbeda dari missing value yang merupakan kekosongan data, atau duplikasi yang berarti pengulangan data identik.

21.

Sebuah database pelanggan hasil penggabungan dari sistem lama dan baru menghasilkan beberapa baris yang memiliki informasi identik pada seluruh kolom. Tindakan yang paling tepat untuk membersihkan data tersebut adalah…

A. Penanganan duplikasi
B. Deteksi outlier
C. Transformasi data
D. Encoding kategorikal

Jawaban: A
Baris identik yang muncul dari integrasi sistem adalah masalah duplikasi data. Penanganan duplikasi bertujuan mengidentifikasi dan menghapus baris yang sama persis.

22.

Seorang praktisi data ingin memetakan semua nilai fitur numerik ke dalam rentang [0, 1] agar tidak ada variabel yang mendominasi karena perbedaan skala. Teknik yang digunakan adalah…

A. Label encoding
B. Standardisasi
C. One-hot encoding
D. Normalisasi

Jawaban: D
Normalisasi mengubah skala data ke rentang tertentu seperti [0,1] dengan rumus Min-Max scaling. Standardisasi mengubah data agar memiliki mean 0 dan deviasi standar 1, sedangkan encoding untuk data kategorikal.

23.

Budi memiliki kolom 'Tingkat Pendidikan' dengan nilai unik: SD, SMP, SMA, S1, S2. Untuk model regresi linear, teknik encoding yang paling tepat tanpa menimbulkan asumsi ordinal yang salah adalah…

A. Normalisasi
B. Standardisasi
C. One-hot encoding
D. Label encoding

Jawaban: C
Label encoding akan memberikan urutan numerik (SD=1, SMP=2, …) yang menyiratkan adanya tingkatan ordinal. One-hot encoding menciptakan kolom biner untuk setiap kategori tanpa asumsi ordinal, cocok untuk data nominal.

24.

Setelah membuat fitur 'usia' dari 'tanggal_lahir' dan fitur 'lama_berlangganan' dari 'tanggal_registrasi', praktik yang dilakukan termasuk…

A. Seleksi fitur
B. Feature engineering
C. Ekstraksi fitur
D. Data sampling

Jawaban: B
Menciptakan fitur baru dari data mentah yang sudah ada merupakan feature engineering. Ekstraksi fitur mentransformasi data mentah menjadi fitur representatif, sedangkan feature engineering berfokus pada penciptaan fitur baru untuk meningkatkan performa model.

25.

PT Logistik Nusantara menggabungkan data pengiriman dari sistem ERP dengan data pelacakan dari sistem GPS menggunakan kolom 'ID_Pengiriman'. Operasi penggabungan kedua dataset berdasarkan kesamaan kunci ini disebut…

A. Penggabungan data
B. Konsolidasi data
C. Penanganan redundansi
D. Transformasi data

Jawaban: A
Menggabungkan dua dataset menggunakan operasi seperti join atau merge berdasarkan kunci bersama merupakan penggabungan data. Konsolidasi data lebih menekankan pada penyatuan data dari berbagai sumber ke satu struktur koheren.

26.

Setelah mengintegrasikan tiga database, ditemukan kolom 'Total' yang merupakan hasil penjumlahan dari dua kolom lain yang juga ada di dataset. Kolom 'Total' sebaiknya…

A. Disimpan karena merupakan agregasi yang berguna
B. Dijadikan kunci utama untuk identifikasi baris
C. Dinormalisasi ke rentang [0, 1]
D. Dihapus karena merupakan atribut turunan yang redundan

Jawaban: D
Atribut yang nilainya dapat diturunkan dari atribut lain merupakan redundansi dan sebaiknya dihapus untuk menghindari duplikasi informasi dan mengurangi dimensi data.

27.

Dalam konteks pemrosesan paralel, data dari tiga server regional disatukan ke dalam satu data warehouse terpusat setiap malam. Proses ini paling tepat digambarkan sebagai…

A. Penggabungan data berbasis join
B. Konsolidasi data
C. Koreksi inkonsistensi
D. Deteksi outlier

Jawaban: B
Konsolidasi data adalah proses menyatukan data dari berbagai sumber ke dalam satu struktur yang koheren. Penggabungan data lebih spesifik pada operasi join atau merge.

28.

Seorang praktisi melatih model pada data training hingga akurasi 98%, namun saat diuji pada data testing, akurasi turun menjadi 72%. Kemungkinan penyebab penurunan ini adalah…

A. Data training terlalu sedikit sehingga model underfit
B. Data validasi tercampur dengan data testing
C. Model overfit pada data training dan gagal menggeneralisasi
D. Learning rate terlalu kecil pada algoritma optimasi

Jawaban: C
Perbedaan besar antara performa training dan testing adalah indikator overfitting. Model terlalu kompleks dan menangkap noise pada data training sehingga gagal menggeneralisasi ke data baru. Ini adalah fungsi dari data validasi untuk mencegah overfitting.

29.

Siti membagi dataset menjadi 80% data training dan 20% data testing. Namun, ternyata seluruh instance kelas minoritas hanya muncul di data testing. Strategi pembagian yang seharusnya digunakan adalah…

A. Menggunakan stratified sampling
B. Menambah ukuran data testing menjadi 40%
C. Mengurangi data training menjadi 60%
D. Menggunakan data validasi tambahan

Jawaban: A
Stratified sampling mempertahankan proporsi kelas dalam setiap subset pembagian data. Ini berbeda dari holdout biasa yang dapat menghasilkan distribusi kelas tidak merata antar subset.

30.

Seorang data scientist tidak sengaja menghitung statistik rata-rata dari seluruh dataset (termasuk data testing) sebelum melakukan normalisasi pada data training. Peristiwa ini termasuk…

A. Data leakage
B. Underfitting
C. Overfitting
D. Stratified sampling

Jawaban: A
Menggunakan informasi dari data testing dalam proses pelatihan adalah data leakage, yang menyebabkan estimasi evaluasi menjadi terlalu optimis karena model telah terpapar informasi dari data testing secara tidak langsung.

31.

Sebuah model regresi linear sederhana memodelkan hubungan antara jam belajar (X) dan nilai ujian (Y) dengan persamaan Y = 45 + 7.5X. Arti dari koefisien 7.5 adalah…

A. Nilai ujian ketika jam belajar adalah nol
B. Proporsi varians nilai ujian yang dijelaskan oleh jam belajar
C. Koefisien determinasi dari model
D. Peningkatan rata-rata nilai ujian setiap penambahan satu jam belajar

Jawaban: D
Dalam regresi linear sederhana Y = a + bX, koefisien b menunjukkan perubahan rata-rata Y untuk setiap kenaikan satu unit X. Konstanta a adalah intercept, sedangkan koefisien determinasi adalah R-squared.

32.

Model regresi linear memiliki R-squared = 0,81. Interpretasi yang tepat adalah…

A. Korelasi antara X dan Y sebesar 0,81
B. 81% data masuk ke dalam data training
C. 81% variasi variabel dependen dijelaskan oleh variabel independen
D. Model memiliki akurasi 81%

Jawaban: C
Koefisien determinasi R-squared mengukur proporsi varians variabel dependen yang dapat dijelaskan oleh variabel independen dalam model. Nilai 0,81 berarti 81% variasi dapat dijelaskan oleh model.

33.

Seorang analis menerapkan metode kuadrat terkecil dan mendapatkan garis regresi yang meminimalkan jumlah kuadrat residual. Garis ini selalu melalui titik…

A. (0, 0) atau pusat koordinat
B. Titik dengan residual terbesar
C. Rata-rata X dan rata-rata Y
D. Titik data paling ekstrem

Jawaban: C
Garis regresi yang dihasilkan metode kuadrat terkecil selalu melewati titik (x̄, ȳ). Ini adalah sifat matematis dari solusi kuadrat terkecil yang meminimalkan jumlah kuadrat selisih antara nilai aktual dan prediksi.

34.

Pak Ahmad mencoba regresi polinomial derajat 15 pada data penjualan bulanan selama 12 bulan. Model menghasilkan R-squared training = 0,99 namun prediksi untuk bulan mendatang sangat tidak masuk akal. Masalah utama pada model ini adalah…

A. Learning rate terlalu besar
B. Terjadi overfitting karena derajat polinomial terlalu tinggi
C. Terjadi underfitting karena data terlalu sedikit
D. Data memiliki missing value yang tidak tertangani

Jawaban: B
Model polinomial derajat tinggi pada data yang sedikit akan menangkap noise dan menghasilkan kurva yang berosilasi keras antar titik data, menyebabkan overfitting. Model gagal menggeneralisasi meskipun performa training sangat tinggi.

35.

Seorang data scientist mencoba regresi polinomial derajat 2 dan derajat 10 pada dataset yang sama. Model derajat 10 menghasilkan R-squared training jauh lebih tinggi, namun saat diuji pada data baru performanya justru lebih buruk daripada model derajat 2. Fenomena yang terjadi pada model derajat 10 adalah…

A. Underfitting karena model terlalu sederhana
B. Overfitting karena model menangkap noise data
C. Data leakage karena informasi testing bocor ke training
D. Bias tinggi karena asumsi model tidak sesuai data

Jawaban: B
Regresi polinomial dengan derajat terlalu tinggi cenderung menangkap fluktuasi acak (noise) dalam data training, bukan pola sebenarnya. Akibatnya model gagal menggeneralisasi ke data baru — inilah esensi overfitting.

36.

PT Agrobisnis Sejahtera memodelkan hubungan antara dosis pupuk dan hasil panen. Scatter plot menunjukkan hubungan yang melengkung. Jika menggunakan regresi linear sederhana, model akan underfit; jika menggunakan regresi polinomial derajat 20, model akan overfit. Strategi yang paling tepat untuk memilih derajat polinomial optimal adalah…

A. Memilih derajat yang menghasilkan R-squared training tertinggi
B. Selalu menggunakan derajat 3 karena menghasilkan kurva paling halus
C. Menggunakan data validasi terpisah untuk membandingkan error berbagai derajat
D. Memilih derajat tertinggi sebelum model mulai menangkap noise

Jawaban: C
Data validasi yang tidak digunakan dalam pelatihan memberi estimasi objektif tentang kemampuan generalisasi model. Dengan membandingkan error validasi untuk berbagai derajat polinomial, praktisi dapat memilih derajat yang menyeimbangkan bias dan varians.

37.

Untuk mengklasifikasikan titik data baru, KNN menggunakan prinsip bahwa…

A. Titik data baru diklasifikasikan berdasarkan probabilitas posterior tertinggi
B. Mayoritas label dari k tetangga terdekat menentukan kelas titik baru
C. Titik data baru diproyeksikan ke centroid terdekat dari setiap kelas
D. Fungsi linear dipelajari untuk memisahkan titik data baru dari kelas lain

Jawaban: B
Prinsip dasar klasifikasi KNN adalah mencari k titik data terdekat dari instance baru, lalu mengambil suara mayoritas label dari tetangga-tetangga tersebut sebagai prediksi kelas.

38.

Sebuah platform e-commerce menggunakan KNN untuk memprediksi apakah seorang pengguna akan melakukan pembelian. Tim data science mencoba k=1, k=5, dan k=50. Model dengan k=1 menghasilkan keputusan yang sangat tidak stabil dan berubah drastis saat data training sedikit berubah. Masalah pada k=1 terutama disebabkan oleh…

A. Varians model yang terlalu tinggi
B. Bias model yang terlalu tinggi
C. Learning rate yang terlalu besar
D. Jumlah fitur yang terlalu sedikit

Jawaban: A
Nilai k yang sangat kecil membuat model sangat sensitif terhadap fluktuasi atau noise lokal dalam data training, sehingga varians menjadi tinggi. Setiap perubahan kecil pada data training dapat mengubah batas keputusan secara signifikan.

39.

Instansi pemerintah mengklasifikasikan kelayakan penerima bantuan sosial menggunakan KNN. Dataset memiliki dua fitur numerik: pendapatan bulanan (skala ribuan) dan jumlah tanggungan (skala satuan). Sebelum menghitung jarak Euclidean, langkah preprocessing yang krusial untuk mencegah dominasi fitur pendapatan adalah…

A. Encoding kategorikal pada kedua fitur
B. Transformasi polinomial untuk menangkap hubungan non-linear
C. Normalisasi atau standardisasi kedua fitur ke skala yang sebanding
D. Seleksi fitur untuk menghilangkan fitur yang tidak relevan

Jawaban: C
Jarak Euclidean sangat sensitif terhadap perbedaan skala antar fitur. Fitur dengan rentang nilai besar (pendapatan) akan mendominasi perhitungan jarak, sehingga fitur berskala kecil (jumlah tanggungan) menjadi tidak berpengaruh. Normalisasi atau standardisasi menyelaraskan skala agar setiap fitur berkontribusi setara.

40.

Teorema Bayes menghitung probabilitas posterior P(Y|X) dengan mengalikan probabilitas prior P(Y) dan likelihood P(X|Y), lalu membaginya dengan evidence P(X). Dalam konteks Naive Bayes, istilah 'evidence' P(X) berfungsi sebagai…

A. Parameter yang dioptimalkan selama pelatihan
B. Konstanta normalisasi yang membuat probabilitas posterior berjumlah 1
C. Probabilitas kelas target tanpa melihat fitur
D. Faktor koreksi untuk mengatasi asumsi independensi

Jawaban: B
Evidence P(X) merupakan konstanta normalisasi yang memastikan total probabilitas posterior seluruh kelas berjumlah 1. Dalam klasifikasi Naive Bayes, evidence sering diabaikan karena nilainya sama untuk semua kelas saat membandingkan probabilitas posterior.

41.

Sebuah sistem deteksi spam dilatih menggunakan Naive Bayes dengan asumsi independensi antar kata. Faktanya, kata 'diskon' dan 'gratis' sering muncul bersama dalam email spam. Meskipun asumsi ini dilanggar, Naive Bayes tetap memberikan akurasi yang baik. Penjelasan yang paling tepat untuk fenomena ini adalah…

A. Pelanggaran asumsi hanya mempengaruhi regresi, bukan klasifikasi
B. Kata yang sering muncul bersama akan dihapus dalam tahap preprocessing
C. Naive Bayes secara otomatis memperbaiki asumsi yang dilanggar melalui mekanisme feedback
D. Estimasi probabilitas posterior tetap mungkin benar meskipun estimasi probabilitas kelasnya bias

Jawaban: D
Meskipun estimasi P(X|Y) menjadi bias ketika asumsi independensi dilanggar, perbandingan P(Y=spam|X) terhadap P(Y=ham|X) seringkali tetap menghasilkan klasifikasi yang benar. Dengan kata lain, bias pada likelihood tidak selalu mengubah urutan relatif probabilitas posterior antar kelas.

42.

Data scientist memilih menggunakan Gaussian Naive Bayes untuk mengklasifikasikan spesies bunga berdasarkan fitur numerik seperti panjang kelopak dan lebar mahkota. Pilihan ini tepat karena Gaussian Naive Bayes…

A. Tidak memerlukan asumsi independensi antar fitur
B. Secara otomatis melakukan standardisasi pada fitur numerik
C. Menggunakan fungsi kernel untuk menangkap hubungan non-linear
D. Mengasumsikan setiap fitur kontinu berdistribusi normal pada setiap kelas

Jawaban: D
Gaussian Naive Bayes adalah varian yang cocok untuk fitur kontinu. Algoritma ini menghitung likelihood P(fitur|kelas) dengan mengasumsikan setiap fitur mengikuti distribusi Gaussian (normal), sehingga parameter yang diperlukan hanyalah mean dan standar deviasi per fitur per kelas.

43.

Setelah menerapkan algoritma K-Means pada dataset pelanggan, seorang analis menghitung inersia untuk k=2 hingga k=10. Grafik inersia menunjukkan penurunan tajam pada k=2 dan k=3, lalu melandai setelah k=4. Berdasarkan elbow method, jumlah klaster optimal yang disarankan adalah…

A. k = 10 karena memiliki inersia paling rendah
B. k = 2 karena penurunan inersia paling besar
C. k = 4 karena setelah itu penurunan inersia tidak signifikan
D. k = 5 karena merupakan titik tengah dari rentang yang diuji

Jawaban: C
Elbow method mencari titik di mana penurunan inersia mulai melandai — mirip siku pada grafik. Setelah k=4, penambahan klaster hanya memberikan pengurangan inersia yang tidak signifikan, sehingga k=4 merupakan titik keseimbangan antara kompleksitas model dan kualitas pengelompokan.

44.

PT Retail Nusantara menjalankan K-Means dua kali pada data pelanggan yang sama. Hasil klaster dari kedua eksekusi berbeda karena inisialisasi centroid yang acak. Solusi yang dapat meningkatkan konsistensi hasil tanpa mengubah algoritma secara fundamental adalah…

A. Menjalankan algoritma beberapa kali dengan inisialisasi berbeda dan memilih hasil dengan inersia terendah
B. Mengganti metrik jarak dari Euclidean ke Manhattan
C. Mengurangi jumlah klaster hingga hasil menjadi stabil
D. Mengganti K-Means dengan DBSCAN

Jawaban: A
K-Means sensitif terhadap inisialisasi centroid awal. Praktik standar untuk mengatasi ini adalah menjalankan algoritma beberapa kali (n_init) dengan seed berbeda, lalu memilih solusi yang menghasilkan inersia terendah — menunjukkan konvergensi ke minimum lokal yang lebih baik.

45.

Lembaga survei mengelompokkan responden menggunakan K-Means dan mendapatkan centroid klaster pertama pada koordinat (pendapatan=3,5jt, usia=28) setelah standardisasi. Interpretasi yang tepat dari centroid tersebut adalah…

A. Rata-rata aritmetik seluruh anggota klaster pada setiap fitur
B. Titik tengah geometris yang menjadi lokasi pusat administrasi klaster
C. Data point yang paling representatif dan harus menjadi anggota klaster tersebut
D. Batas keputusan yang memisahkan klaster pertama dari klaster lainnya

Jawaban: A
Centroid dalam K-Means dihitung sebagai rata-rata dari seluruh titik yang termasuk dalam klaster tersebut. Nilai centroid tidak harus merupakan titik data aktual; ia adalah pusat massa klaster yang digunakan pada iterasi berikutnya untuk menetapkan ulang keanggotaan titik.

46.

Seorang peneliti ingin mengelompokkan 50 spesies tanaman berdasarkan karakteristik morfologi. Ia memilih hierarchical clustering karena ingin melihat struktur pengelompokan pada berbagai tingkat resolusi sekaligus. Visualisasi yang paling tepat untuk menginterpretasikan hasil pengelompokan ini adalah…

A. Scatter plot dua dimensi dengan warna per klaster
B. Grafik elbow yang menampilkan inersia terhadap jumlah klaster
C. Dendrogram yang menunjukkan penggabungan klaster secara hierarkis
D. Confusion matrix yang membandingkan prediksi dengan label sebenarnya

Jawaban: C
Dendrogram adalah diagram pohon yang menampilkan seluruh proses penggabungan (atau pemisahan) klaster dalam hierarchical clustering. Sumbu vertikal menunjukkan jarak atau kemiripan saat klaster bergabung, memungkinkan peneliti memotong pohon pada level berbeda untuk memperoleh jumlah klaster yang diinginkan.

47.

Tim riset menggunakan agglomerative clustering dengan tiga metode linkage berbeda: single, complete, dan average. Metode single linkage menghasilkan klaster yang panjang dan merentang, sementara complete linkage menghasilkan klaster yang kompak dan bulat. Perbedaan ini disebabkan oleh…

A. Single linkage mengukur jarak antara titik terdekat, sedangkan complete linkage mengukur jarak antara titik terjauh antar klaster
B. Single linkage menggunakan jarak Euclidean, sedangkan complete linkage menggunakan Manhattan
C. Single linkage hanya berlaku untuk data berdimensi rendah
D. Complete linkage memerlukan lebih banyak iterasi sehingga hasilnya lebih akurat

Jawaban: A
Single linkage mendefinisikan jarak antar klaster sebagai jarak minimum antara sepasang titik dari dua klaster berbeda, sehingga cenderung membentuk klaster panjang (chaining effect). Complete linkage menggunakan jarak maksimum antar titik dari dua klaster, mendorong klaster yang lebih kompak dan bulat.

48.

Dalam divisive clustering, proses dimulai dengan satu klaster besar berisi seluruh data, lalu secara iteratif membagi klaster menjadi dua. Pendekatan ini berbeda dari agglomerative clustering yang…

A. Menggunakan centroid untuk merepresentasikan klaster
B. Menggabungkan dua klaster terkecil di setiap iterasi
C. Memerlukan parameter epsilon dan MinPts
D. Hanya dapat digunakan pada data numerik

Jawaban: B
Agglomerative clustering menganut pendekatan bottom-up: dimulai dengan setiap titik sebagai klaster sendiri, lalu secara iteratif menggabungkan dua klaster yang paling mirip. Ini adalah kebalikan dari divisive clustering yang top-down.

49.

DBSCAN mampu mendeteksi data outlier secara otomatis selama proses klastering. Data diklasifikasikan sebagai outlier apabila…

A. Data tidak memiliki cukup tetangga dalam radius epsilon untuk menjadi titik inti dan juga bukan tetangga dari titik inti
B. Jarak data ke centroid terdekat melebihi threshold tertentu
C. Data terletak di luar batas interkuartil pada ruang fitur
D. Nilai R-squared data tersebut lebih rendah dari rata-rata klaster

Jawaban: A
Dalam DBSCAN, titik yang bukan merupakan titik inti (tidak memiliki MinPts tetangga dalam radius epsilon) dan juga tidak berada dalam lingkungan epsilon dari titik inti manapun diklasifikasikan sebagai noise atau outlier. Titik-titik ini tidak dimasukkan ke klaster manapun.

50.

Badan Meteorologi mengelompokkan stasiun cuaca berdasarkan data historis suhu, kelembaban, dan curah hujan. Klaster yang terbentuk tidak berbentuk bola dan beberapa stasiun memiliki karakteristik yang sangat berbeda dari yang lain. Algoritma yang paling sesuai untuk kasus ini adalah…

A. K-Means karena bekerja baik pada data numerik berdimensi rendah
B. Agglomerative clustering dengan Ward linkage karena menghasilkan klaster kompak
C. Regresi polinomial karena dapat menangkap hubungan non-linear antar fitur
D. DBSCAN karena dapat menangani klaster dengan bentuk arbriter dan mendeteksi outlier

Jawaban: D
DBSCAN unggul dalam mendeteksi klaster dengan bentuk sembarang (tidak harus globular) dan secara otomatis mengidentifikasi titik yang tidak masuk ke klaster manapun sebagai outlier. Ini sangat cocok untuk data cuaca yang mungkin memiliki pola spasial tidak teratur dan stasiun dengan karakteristik ekstrem.

51.

Data engineer mengatur parameter DBSCAN dengan epsilon = 0,5 dan MinPts = 10. Setelah dijalankan, terlalu banyak titik yang diklasifikasikan sebagai noise dan hanya sedikit klaster kecil yang terbentuk. Untuk mengatasi masalah ini, modifikasi parameter yang paling masuk akal adalah…

A. Menurunkan nilai epsilon agar lingkungan lebih ketat
B. Menambah jumlah fitur dengan feature engineering
C. Mengganti metrik jarak dari Euclidean ke Manhattan
D. Meningkatkan nilai epsilon atau menurunkan MinPts

Jawaban: D
Terlalu banyak titik diklasifikasikan sebagai noise menandakan bahwa kriteria kepadatan terlalu ketat. Meningkatkan epsilon memperluas radius lingkungan sehingga lebih banyak titik saling terhubung; menurunkan MinPts memudahkan suatu titik menjadi titik inti. Kedua modifikasi ini cenderung menghasilkan klaster yang lebih besar dan mengurangi noise.

52.

PT Mega Digital membangun model klasifikasi dengan akurasi 96% pada data training, namun hanya 73% pada data testing. Data scientist menduga telah terjadi kebocoran informasi dari data testing ke proses pelatihan selama preprocessing. Istilah yang tepat untuk fenomena ini…

A. Overfitting
B. Data Leakage
C. Data Imbalance
D. Concept Drift

Jawaban: B
Data leakage terjadi ketika informasi dari data testing secara tidak sengaja masuk ke dalam proses pelatihan, menyebabkan evaluasi model menjadi terlalu optimis dan tidak mencerminkan performa sesungguhnya.

53.

Seorang peneliti membagi dataset citra medis menjadi 70% training dan 30% testing. Ia menemukan bahwa seluruh citra kategori 'ganas' hanya muncul di testing set. Strategi pembagian yang seharusnya diterapkan untuk mencegah masalah ini…

A. Stratified Sampling
B. Random Sampling
C. Systematic Sampling
D. Cluster Sampling

Jawaban: A
Stratified sampling mempertahankan proporsi setiap kelas dalam subset training dan testing, sehingga kelas minoritas seperti 'ganas' akan terwakili secara proporsional di kedua subset.

54.

Perbedaan mendasar antara holdout validation dan cross validation terletak pada…

A. Holdout memerlukan data testing terpisah, sedangkan cross validation tidak memerlukan data testing sama sekali
B. Holdout hanya untuk regresi, sedangkan cross validation hanya untuk klasifikasi
C. Holdout menggunakan satu kali pembagian tetap, sedangkan cross validation membagi dan menguji secara bergiliran pada beberapa subset
D. Holdout menghasilkan akurasi lebih tinggi, sedangkan cross validation menghasilkan bias lebih rendah

Jawaban: C
Holdout validation membagi data sekali menjadi training dan testing, sementara cross validation membagi data menjadi k subset dan secara bergantian menggunakan satu subset sebagai testing dan sisanya sebagai training, memberikan estimasi performa yang lebih stabil.

55.

Sebuah model deteksi penipuan kartu kredit berhasil mengidentifikasi 80 transaksi sebagai fraud, namun hanya 60 di antaranya yang benar-benar fraud. Sementara itu, total transaksi fraud sebenarnya adalah 100. Metrik evaluasi yang tepat untuk menilai berapa proporsi prediksi fraud yang benar-benar akurat…

A. Specificity
B. Recall
C. Akurasi
D. Presisi

Jawaban: D
Presisi mengukur proporsi true positive dari seluruh prediksi positif, yaitu 60/80 = 75%. Metrik ini tepat untuk menilai ketepatan model saat memprediksi kelas positif.

56.

Model klasifikasi berhasil mendeteksi 90 dari 120 kasus penyakit langka dalam dataset. Metrik yang mengukur kemampuan model menemukan seluruh kasus positif yang sebenarnya…

A. Presisi
B. Recall
C. F1-Score
D. Akurasi

Jawaban: B
Recall atau sensitivity mengukur proporsi true positive dari seluruh instance yang sebenarnya positif, yaitu 90/120. Metrik ini penting ketika fokus utama adalah menemukan sebanyak mungkin kasus positif tanpa terlewat.

57.

Dalam kasus dataset sangat tidak seimbang dengan 98% kelas mayoritas dan 2% kelas minoritas, metrik evaluasi yang paling tidak informatif untuk menilai performa model…

A. Akurasi
B. F1-Score
C. Presisi
D. Recall

Jawaban: A
Akurasi akan tetap tinggi meskipun model hanya memprediksi kelas mayoritas, sehingga tidak mencerminkan kemampuan model mendeteksi kelas minoritas. Pada dataset tidak seimbang, F1-score, presisi, dan recall lebih informatif.

58.

Tim data science menerapkan 5-fold cross validation dan memperoleh skor F1: 0.82, 0.85, 0.79, 0.88, dan 0.81. Standard error dari skor-skor ini memberikan informasi tentang…

A. Berapa besar bias model terhadap data training
B. Seberapa konsisten performa model antar fold yang berbeda
C. Apakah model mengalami underfitting atau overfitting
D. Seberapa akurat model dibandingkan model lainnya

Jawaban: B
Standard error dari skor cross validation mengukur variabilitas performa model antar fold, yang menunjukkan stabilitas estimasi. Semakin kecil standard error, semakin konsisten model di berbagai subset data.

59.

Budi menerapkan Leave-One-Out Cross Validation (LOOCV) pada dataset dengan 500 instance. Karakteristik utama dari pendekatan ini…

A. Data dibagi menjadi dua bagian sama besar, setengah untuk training dan setengah untuk testing
B. Jumlah fold sama dengan jumlah instance, setiap instance bergantian menjadi data testing tunggal
C. Satu instance dijadikan validasi, 499 instance lainnya dijadikan training secara permanen
D. Setiap fold berisi 50 instance yang dipilih secara acak tanpa pengulangan

Jawaban: B
Pada LOOCV, k sama dengan jumlah instance (N), sehingga terbentuk N fold. Setiap fold menggunakan satu instance sebagai testing dan N-1 instance sebagai training, dilakukan bergantian untuk seluruh instance.

60.

PT Fintech Indonesia menerapkan K-Fold cross validation dengan k=10. Setelah proses selesai, mereka memperoleh rata-rata akurasi 0,87. Angka ini merepresentasikan…

A. Estimasi performa model yang dihitung dari rata-rata skor pada 10 fold berbeda
B. Akurasi tertinggi yang dicapai model pada salah satu fold terbaik
C. Akurasi model pada seluruh dataset setelah dilatih ulang dengan parameter optimal
D. Selisih antara akurasi training tertinggi dan terendah selama proses validasi

Jawaban: A
K-Fold cross validation melatih dan menguji model sebanyak k kali pada subset berbeda, kemudian merata-ratakan skor evaluasi dari seluruh fold untuk memberikan estimasi performa yang lebih robust.

61.

Seorang praktisi mencari kombinasi hyperparameter optimal untuk model SVM. Ia mendefinisikan grid nilai C = {0.1, 1, 10, 100} dan gamma = {0.01, 0.1, 1}. Grid search akan mengevaluasi sebanyak…

A. 8 kombinasi
B. 7 kombinasi
C. 12 kombinasi
D. 16 kombinasi

Jawaban: C
Grid search mengevaluasi seluruh kombinasi dari parameter yang ditentukan. Dengan 4 nilai C dan 3 nilai gamma, total kombinasi adalah 4 × 3 = 12.

62.

Perbedaan utama antara grid search dan random search dalam hyperparameter tuning…

A. Grid search hanya untuk parameter kontinu, sedangkan random search hanya untuk parameter diskrit
B. Grid search lebih cepat karena hanya mencoba kombinasi terpilih, sedangkan random search mencoba semua kemungkinan
C. Grid search menggunakan algoritma genetika, sedangkan random search menggunakan brute force
D. Grid search mencoba semua kombinasi dalam grid, sedangkan random search mencoba kombinasi acak dalam rentang yang ditentukan

Jawaban: D
Grid search mengeksplorasi secara sistematis seluruh kombinasi hyperparameter yang telah ditentukan dalam grid, sementara random search mengambil sampel acak dari distribusi yang ditentukan, yang seringkali lebih efisien untuk ruang parameter besar.

63.

Startup AI sedang mengoptimalkan hyperparameter deep learning dengan ruang parameter yang sangat luas dan sumber daya komputasi terbatas. Mereka memilih metode yang membangun model probabilistik dari fungsi objektif untuk mengarahkan pencarian. Metode ini dikenal sebagai…

A. Manual Tuning
B. Grid Search
C. Random Search
D. Bayesian Optimization

Jawaban: D
Bayesian optimization membangun model probabilistik (surrogate model) dari fungsi objektif berdasarkan evaluasi sebelumnya, kemudian menggunakan acquisition function untuk memilih titik evaluasi berikutnya. Metode ini efisien untuk ruang parameter besar dengan evaluasi yang mahal.

64.

Model regresi linear sederhana menghasilkan Mean Squared Error (MSE) training yang sangat rendah namun koefisien determinasi R-squared pada data validasi mendekati nol. Kondisi ini mengindikasikan model mengalami…

A. Overfitting akibat varians tinggi
B. Data leakage pada training set
C. Underfitting akibat bias tinggi
D. Multikolinearitas antar fitur

Jawaban: C
Sebenarnya skenario ini menunjukkan overfitting karena varians tinggi: MSE training rendah tetapi performa validasi buruk. Overfitting terjadi ketika model terlalu sensitif terhadap fluktuasi data training dan gagal menggeneralisasi.

65.

Tim riset membandingkan dua model: Model X sederhana dengan bias tinggi dan varians rendah, Model Y kompleks dengan bias rendah dan varians tinggi. Berdasarkan bias-variance tradeoff, model yang diharapkan memberikan generalisasi lebih baik pada data baru yang berbeda dari data training…

A. Tidak dapat ditentukan tanpa melihat data
B. Model X karena lebih sederhana dan stabil
C. Model Y karena lebih fleksibel dan akurat
D. Keduanya sama baiknya tergantung hyperparameter

Jawaban: A
Generalisasi optimal bergantung pada keseimbangan bias-varians yang spesifik terhadap dataset dan kompleksitas masalah. Tanpa data konkret, tidak dapat dipastikan model mana yang lebih baik karena bisa jadi model sederhana underfit atau model kompleks overfit.

66.

Regular Expression digunakan dalam preprocessing teks untuk…

A. Membangun representasi vektor dari kata-kata dalam korpus
B. Menghitung frekuensi kemunculan setiap kata dalam dokumen
C. Menerjemahkan teks dari satu bahasa ke bahasa lain secara otomatis
D. Mencocokkan, mencari, dan memanipulasi pola string dalam teks

Jawaban: D
Regular expression menyediakan pola pencarian string yang fleksibel untuk melakukan operasi seperti pencarian, penggantian, validasi format, dan ekstraksi substring berdasarkan pola tertentu.

67.

Seorang analis ingin membersihkan data tweet dengan menghapus mention (@username), hashtag (#topik), dan URL (http://…) sekaligus dalam satu operasi. Pendekatan NLP yang paling efisien untuk tugas ini…

A. Stop words removal
B. Tokenisasi kata
C. Regular Expression
D. Stemming

Jawaban: C
Regular expression memungkinkan pendefinisian pola untuk berbagai format sekaligus dalam satu ekspresi, sangat efisien untuk membersihkan teks dari elemen-elemen seperti mention, hashtag, dan URL yang memiliki pola karakter spesifik.

68.

Seorang peneliti ingin mengekstrak seluruh alamat email dari korpus dokumen laporan tahunan yang memiliki format lokal seperti 'info@perusahaan.co.id' dan 'kontak@instansi.go.id'. Pendekatan paling tepat untuk menyaring pola teks tersebut dalam satu langkah adalah…

A. melakukan tokenisasi kata lalu memfilter token yang mengandung tanda '@'
B. menggunakan Regular Expression dengan pola pencocokan spesifik
C. menerapkan stop words removal untuk menghilangkan kata umum
D. menggunakan stemming untuk menormalkan domain email

Jawaban: B
Regular Expression unggul untuk mengekstrak pola teks terstruktur seperti alamat email karena kemampuan pencocokan pola spesifiknya, tidak bisa digantikan oleh tokenisasi atau stemming yang bertujuan berbeda.

69.

Saat memproses dokumen hukum berbahasa Indonesia yang panjang, seorang praktisi NLP perlu memecah teks menjadi unit-unit analisis berupa kalimat individual untuk dianalisis klausul per klausul. Proses ini dikenal sebagai…

A. tokenisasi kalimat
B. tokenisasi kata
C. tokenisasi karakter
D. tokenisasi subkata

Jawaban: A
Tokenisasi kalimat memecah dokumen menjadi unit kalimat, sedangkan tokenisasi kata menghasilkan unit kata dan tokenisasi karakter memecah hingga level karakter.

70.

Seorang pengembang chatbot menerima input pengguna berupa kalimat 'Saya ingin memesan tiket kereta api Jakarta-Surabaya untuk besok pagi'. Setelah tokenisasi kata, output yang dihasilkan adalah…

A. ['Saya ingin', 'memesan tiket', 'kereta api', 'Jakarta-Surabaya', 'untuk besok', 'pagi']
B. ['Saya ingin memesan', 'tiket kereta api', 'Jakarta-Surabaya', 'untuk besok pagi']
C. ['Saya', 'ingin', 'memesan', 'tiket', 'kereta', 'api', 'Jakarta', 'Surabaya', 'untuk', 'besok', 'pagi']
D. ['Saya', 'ingin', 'memesan', 'tiket', 'kereta', 'api', 'Jakarta-Surabaya', 'untuk', 'besok', 'pagi']

Jawaban: D
Tokenisasi kata standar memecah berdasarkan spasi dan tanda baca sebagai pemisah. 'Jakarta-Surabaya' tetap utuh karena tanda hubung bukan pemisah token default, dan 'kereta api' terpisah menjadi dua kata.

71.

Dalam pipeline NLP, hasil dari proses tokenisasi akan digunakan sebagai input langsung untuk tahap…

A. visualisasi frekuensi kata
B. evaluasi akurasi model
C. pengumpulan data mentah
D. stop words removal atau stemming

Jawaban: D
Token menghasilkan unit kata yang siap diproses lebih lanjut oleh tahapan seperti stop words removal, stemming, atau lemmatization sebelum dijadikan fitur numerik.

72.

Budi sedang mengembangkan sistem pencarian informasi untuk dokumen akademik. Ia menemukan bahwa kata 'mempelajari', 'pelajar', dan 'pembelajaran' diperlakukan sebagai token berbeda padahal berasal dari akar kata yang sama. Untuk menyatukan ketiganya sebagai representasi tunggal 'ajar', teknik yang paling tepat adalah…

A. tokenisasi kata
B. stop words removal
C. stemming
D. one-hot encoding

Jawaban: C
Stemming mereduksi kata ke bentuk dasarnya secara heuristik dengan memotong imbuhan, sehingga 'mempelajari', 'pelajar', dan 'pembelajaran' dipetakan ke stem yang sama.

73.

Perbedaan fundamental antara stemming dan lemmatization terletak pada…

A. stemming bekerja dengan aturan pemotongan mekanis, lemmatization mempertimbangkan konteks dan kategori kata
B. stemming memerlukan pengetahuan part of speech, lemmatization tidak
C. stemming selalu menghasilkan kata yang valid dalam kamus, lemmatization tidak
D. stemming hanya untuk bahasa Inggris, lemmatization untuk semua bahasa

Jawaban: A
Stemming bersifat heuristik tanpa memperhatikan konteks atau peran gramatikal kata, sedangkan lemmatization menganalisis morfologi dan part of speech untuk menghasilkan lemma yang valid.

74.

Porter Stemmer yang diterapkan pada kata 'happily' dan 'happiness' akan menghasilkan stem yang sama, namun untuk kata 'better' dan 'good', Porter Stemmer gagal mengenali keduanya sebagai leksem yang sama. Keterbatasan ini terjadi karena…

A. Porter Stemmer hanya bekerja pada kata benda
B. Porter Stemmer hanya menghapus akhiran dan tidak memahami hubungan semantik antar kata berbeda
C. Porter Stemmer memerlukan kamus bahasa Inggris yang lengkap
D. Porter Stemmer tidak dapat memproses kata sifat

Jawaban: B
Algoritma Porter berbasis aturan pemotongan sufiks sehingga tidak bisa menangkap relasi leksikal seperti 'better' dan 'good' yang memerlukan pemahaman semantik, berbeda dengan lemmatization.

75.

PT Media Digital menerapkan filter stop words pada sistem analisis sentimen untuk ulasan produk. Setelah filtering, kata-kata seperti 'dan', 'yang', 'di' dihapus dari dokumen. Tindakan ini dilakukan karena stop words…

A. selalu mengandung sentimen negatif yang dapat membiaskan model
B. merupakan kata serapan dari bahasa asing
C. memiliki frekuensi tinggi namun minim kontribusi terhadap makna sentimen
D. hanya muncul pada dokumen spam

Jawaban: C
Stop words adalah kata umum berfrekuensi tinggi yang tidak membawa informasi signifikan untuk tugas analisis seperti klasifikasi sentimen, sehingga dihapus untuk mengurangi dimensi dan noise.

76.

Seorang peneliti sedang menganalisis kontrak legal berbahasa Indonesia. Ia ragu untuk menghapus semua kata dari daftar stop words generik karena kata 'tidak' dan 'bukan' ternyata krusial untuk membedakan klausul larangan dan kewajiban. Strategi yang paling bijaksana adalah…

A. menghapus semua stop words tanpa pengecualian
B. menggunakan daftar stop words khusus domain hukum yang mempertahankan kata negasi
C. menghapus hanya kata hubung dan membiarkan semua kata lainnya
D. tidak melakukan stop words removal sama sekali

Jawaban: B
Daftar stop words generik bisa disesuaikan untuk domain spesifik. Kata negasi seperti 'tidak' dan 'bukan' penting dalam analisis teks hukum sehingga harus dipertahankan melalui daftar stop words yang dikurasi khusus.

77.

Seorang analis data teks menemukan bahwa setelah stop words removal, ukuran matriks fitur berkurang drastis namun akurasi model klasifikasi justru meningkat. Penjelasan yang paling logis untuk fenomena ini adalah…

A. stop words removal menambahkan fitur baru yang lebih informatif
B. model menjadi lebih kompleks karena fitur yang tersisa lebih berbobot
C. penghapusan kata frekuensi tinggi yang tidak relevan mengurangi noise dan dimensi yang tidak perlu
D. stop words removal secara otomatis melakukan normalisasi teks

Jawaban: C
Stop words yang tidak mengandung nilai informatif dapat bertindak sebagai noise dalam model. Menghilangkannya mereduksi dimensi dan membantu model fokus pada kata-kata yang benar-benar membedakan kelas.

78.

Seorang praktisi NLP merepresentasikan tiga dokumen sebagai vektor dengan menghitung frekuensi kemunculan setiap kata unik di seluruh korpus. Representasi ini mengabaikan urutan kata sepenuhnya. Pendekatan ini dikenal sebagai…

A. TF-IDF
B. Bag of Words
C. Word Embedding
D. One-hot Encoding

Jawaban: B
Bag of Words merepresentasikan teks berdasarkan frekuensi kata tanpa mempertimbangkan urutan, berbeda dari TF-IDF yang menambahkan pembobotan inverse dokumen dan Word Embedding yang menghasilkan vektor dense semantik.

79.

Dalam korpus berisi dokumen tentang 'machine learning' dan 'deep learning', kata 'learning' muncul di hampir semua dokumen. Menggunakan Bag of Words murni, kata 'learning' akan memiliki bobot tinggi dan mendominasi. Untuk mengurangi dominasi kata yang terlalu umum ini, teknik yang paling tepat adalah…

A. mengganti Bag of Words dengan One-hot Encoding
B. menambah jumlah dokumen dalam korpus
C. menghapus kata 'learning' secara manual
D. menerapkan pembobotan TF-IDF

Jawaban: D
TF-IDF memberikan bobot rendah pada kata yang muncul di banyak dokumen melalui komponen Inverse Document Frequency (IDF), sehingga kata umum seperti 'learning' tidak mendominasi representasi.

80.

Seorang peneliti ingin membandingkan kemiripan semantik antara kata 'raja' dan 'ratu'. Ia menggunakan representasi vektor dense yang sudah dilatih pada korpus besar. Dalam ruang vektor ini, operasi aritmetika 'raja' – 'pria' + 'wanita' menghasilkan vektor yang sangat dekat dengan 'ratu'. Representasi yang memungkinkan operasi semantik semacam ini adalah…

A. Word Embedding
B. TF-IDF
C. One-hot Encoding
D. Bag of Words

Jawaban: A
Word Embedding seperti Word2Vec atau GloVe menghasilkan vektor dense yang menangkap relasi semantik dan memungkinkan operasi analogi, sesuatu yang tidak bisa dilakukan oleh representasi sparse seperti Bag of Words atau TF-IDF.

81.

Perbedaan mendasar antara deep learning dan machine learning tradisional dalam hal representasi fitur adalah…

A. deep learning mempelajari hierarki fitur secara otomatis dari data mentah, sementara machine learning tradisional sering memerlukan rekayasa fitur manual
B. deep learning menggunakan lebih sedikit data dibandingkan machine learning tradisional
C. machine learning tradisional selalu menggunakan jaringan saraf, deep learning tidak
D. deep learning hanya dapat memproses data tabular, machine learning tradisional lebih fleksibel

Jawaban: A
Ciri khas deep learning adalah kemampuannya mempelajari representasi fitur bertingkat secara otomatis (feature hierarchy), mengurangi ketergantungan pada rekayasa fitur manual yang lazim di machine learning tradisional.

82.

PT VisionAI mempertimbangkan antara menggunakan model machine learning klasik (Random Forest) dan deep learning (CNN) untuk klasifikasi citra. Dataset mereka hanya berisi 5.000 gambar dengan 10 kelas. Berdasarkan karakteristik kebutuhan data, keputusan yang paling tepat adalah…

A. menggunakan deep learning karena selalu memberikan akurasi lebih tinggi
B. menggabungkan keduanya karena tidak ada perbedaan signifikan
C. menggunakan deep learning dengan augmentasi data agresif
D. menggunakan machine learning klasik karena deep learning memerlukan volume data besar untuk performa optimal pada data mentah

Jawaban: D
Deep learning umumnya membutuhkan data dalam jumlah besar untuk mempelajari hierarki fitur secara efektif. Dengan dataset kecil, model machine learning klasik dengan rekayasa fitur yang tepat sering kali lebih sesuai.

83.

Dalam pipeline deep learning untuk klasifikasi gambar, lapisan pertama jaringan secara otomatis mempelajari detektor tepi, lapisan berikutnya mempelajari bentuk seperti sudut dan kurva, lalu lapisan lebih dalam mempelajari bagian objek seperti mata atau roda. Proses pembelajaran bertingkat ini disebut…

A. gradient descent
B. hyperparameter tuning
C. feature hierarchy
D. data augmentation

Jawaban: C
Feature hierarchy adalah konsep inti deep learning di mana setiap lapisan mempelajari representasi dengan tingkat abstraksi yang meningkat, dari fitur sederhana (tepi) hingga kompleks (bagian objek), tanpa rekayasa manual.

84.

Dalam arsitektur feedforward network, informasi mengalir dari input layer menuju output layer tanpa adanya siklus. Jika seorang praktisi menambahkan koneksi dari neuron di hidden layer kedua kembali ke hidden layer pertama, arsitektur yang dihasilkan bukan lagi feedforward murni melainkan…

A. Recurrent network
B. Convolutional network
C. Radial basis function network
D. Modular network

Jawaban: A
Adanya koneksi balik (feedback loop) dari lapisan yang lebih dalam ke lapisan sebelumnya mengubah arsitektur menjadi recurrent network, karena informasi tidak lagi mengalir searah secara ketat.

85.

Fungsi aktivasi pada neuron berperan mengenalkan non-linearitas agar jaringan mampu mempelajari pola kompleks. Manakah di antara fungsi berikut yang memiliki karakteristik output selalu positif dan turunannya sederhana yaitu f'(x) = f(x)(1 − f(x))…

A. ReLU
B. Sigmoid
C. Tanh
D. Softmax

Jawaban: B
Sigmoid menghasilkan output antara 0 dan 1 (selalu positif) serta memiliki turunan f'(x) = f(x)(1 − f(x)). ReLU tidak memenuhi sifat turunan tersebut; Tanh outputnya bisa negatif; Softmax menghasilkan distribusi probabilitas untuk multi-kelas.

86.

PT Visi Cerdas Indonesia merancang jaringan saraf untuk klasifikasi gambar. Mereka menggunakan neuron yang menerima input x1, x2, x3 dengan bobot masing-masing w1, w2, w3 dan bias b. Output neuron sebelum fungsi aktivasi dihitung sebagai…

A. w1 × w2 × w3 × (x1 + x2 + x3) + b
B. (w1 + w2 + w3) × (x1 + x2 + x3) + b
C. w1·x1 + w2·x2 + w3·x3 + b
D. max(w1·x1, w2·x2, w3·x3) + b

Jawaban: C
Neuron melakukan kombinasi linear dari input dan bobot: menjumlahkan hasil kali setiap input dengan bobotnya, lalu menambahkan bias. Inilah operasi dasar sebelum fungsi aktivasi diterapkan.

87.

Algoritma backpropagation mengandalkan aturan rantai untuk menghitung gradien fungsi kerugian terhadap setiap bobot di jaringan. Gradien ini kemudian dimanfaatkan untuk…

A. Menentukan jumlah neuron optimal pada hidden layer
B. Menghitung akurasi model pada data testing
C. Menginisialisasi seluruh bobot dengan nilai yang sama
D. Memperbarui bobot ke arah yang mengurangi nilai fungsi kerugian

Jawaban: D
Gradien hasil backpropagation menunjukkan arah dan besar perubahan bobot yang diperlukan untuk meminimalkan fungsi kerugian. Informasi ini digunakan oleh algoritma optimasi seperti gradient descent untuk memperbarui bobot.

88.

Budi melatih jaringan saraf dan mengamati bahwa dengan learning rate 0,001 proses konvergensi sangat lambat, sedangkan dengan learning rate 0,5 fungsi kerugian berosilasi liar dan tidak kunjung turun. Perilaku pada learning rate 0,5 disebabkan oleh…

A. Jaringan mengalami overfitting pada data training
B. Ukuran langkah pembaruan bobot terlalu besar sehingga melompati titik minimum
C. Fungsi aktivasi yang dipilih tidak sesuai untuk learning rate tinggi
D. Jumlah epoch yang digunakan terlalu sedikit

Jawaban: B
Learning rate yang terlalu besar menyebabkan langkah pembaruan bobot melampaui titik minimum, sehingga fungsi kerugian berosilasi bolak-balik tanpa konvergen. Ini bukan masalah overfitting, fungsi aktivasi, atau jumlah epoch.

89.

Dalam konteks optimasi jaringan saraf, stochastic gradient descent (SGD) berbeda dari batch gradient descent karena SGD…

A. Menggunakan seluruh dataset untuk menghitung gradien pada setiap iterasi
B. Memperbarui bobot menggunakan gradien yang dihitung dari satu atau beberapa sampel saja per iterasi
C. Mengabaikan information dari gradien dan memperbarui bobot secara acak
D. Hanya dapat digunakan pada jaringan dengan satu hidden layer

Jawaban: B
SGD memperkirakan gradien dari subset kecil data (mini-batch) atau satu sampel, sehingga pembaruan bobot terjadi lebih sering dan noisy dibandingkan batch gradient descent yang menghitung gradien dari seluruh dataset.

90.

Siti sedang melatih model deep learning dan mengamati grafik loss pada data validasi. Setelah epoch ke-25, validation loss mulai meningkat sementara training loss terus menurun. Strategi yang paling tepat untuk mencegah penurunan generalisasi lebih lanjut adalah…

A. Menghentikan pelatihan pada epoch ke-25 menggunakan early stopping
B. Menambah jumlah hidden layer agar model lebih ekspresif
C. Meningkatkan learning rate agar konvergensi lebih cepat
D. Mengganti fungsi kerugian dengan yang lebih kompleks

Jawaban: A
Ketika validation loss mulai naik sementara training loss masih turun, model mulai overfitting. Early stopping menghentikan pelatihan tepat sebelum generalisasi memburuk, menjaga performa optimal pada data baru.

91.

Mean Squared Error (MSE) dan Cross-Entropy merupakan dua fungsi kerugian yang umum digunakan. Cross-Entropy lebih tepat dipilih dibandingkan MSE ketika…

A. Target yang diprediksi adalah nilai kontinu seperti harga rumah
B. Model digunakan untuk regresi linear sederhana
C. Tugas yang diselesaikan adalah klasifikasi multi-kelas dengan output probabilitas
D. Dataset memiliki jumlah fitur yang sangat besar

Jawaban: C
Cross-Entropy dirancang untuk mengukur perbedaan antara distribusi probabilitas prediksi dan distribusi sebenarnya, sehingga cocok untuk klasifikasi. MSE lebih sesuai untuk regresi dengan target kontinu.

92.

Framework TensorFlow merepresentasikan komputasi sebagai graf di mana node adalah operasi dan edge adalah tensor yang mengalir. Pendekatan ini memungkinkan…

A. Model hanya dapat berjalan pada CPU dan tidak mendukung GPU
B. Jaringan saraf hanya bisa memiliki maksimal tiga hidden layer
C. Pengguna harus menulis semua operasi matematika secara manual tanpa abstraksi
D. Optimasi komputasi terdistribusi dan paralelisasi di berbagai perangkat keras

Jawaban: D
Representasi graf komputasi memungkinkan TensorFlow menganalisis dependensi, mendistribusikan komputasi ke CPU/GPU/TPU, dan melakukan paralelisasi secara efisien. Inilah salah satu keunggulan arsitektural TensorFlow.

93.

PT Riset Kecerdasan Digital memilih PyTorch dibandingkan Keras untuk proyek penelitian mereka yang memerlukan modifikasi arsitektur jaringan secara dinamis selama pelatihan. Pertimbangan utama di balik pilihan ini adalah…

A. PyTorch menggunakan graf komputasi dinamis yang memungkinkan perubahan arsitektur saat runtime
B. Keras tidak mendukung GPU sehingga terlalu lambat untuk riset
C. PyTorch memiliki sintaks yang identik dengan TensorFlow sehingga mudah bermigrasi
D. Keras hanya dapat digunakan untuk computer vision, bukan NLP

Jawaban: A
PyTorch mengadopsi pendekatan define-by-run dengan graf komputasi dinamis, memungkinkan modifikasi arsitektur secara fleksibel selama eksekusi. Ini sangat menguntungkan dalam riset yang sering memerlukan eksperimentasi arsitektur.

94.

Dalam Reinforcement Learning, Markov Decision Process (MDP) menyediakan kerangka matematis formal yang terdiri dari…

A. Fungsi keanggotaan, basis aturan fuzzy, dan defuzzifier
B. Aturan produksi, memori kerja, dan inference engine
C. State, aksi, probabilitas transisi, dan fungsi imbalan
D. Populasi, fungsi fitness, crossover, dan mutasi

Jawaban: C
MDP didefinisikan oleh tuple (S, A, P, R, γ) yaitu ruang state, ruang aksi, probabilitas transisi, fungsi imbalan, dan faktor diskon. Elemen-elemen ini memformalkan lingkungan tempat agen beroperasi.

95.

Agen RL menerima sinyal skalar +10 setelah mencapai tujuan dan -1 pada setiap langkah lainnya. Perbedaan mendasar antara sinyal imbalan ini dengan fungsi nilai terletak pada…

A. Imbalan bersifat segera dari aksi tunggal, sedangkan nilai adalah ekspektasi imbalan kumulatif jangka panjang dari suatu state
B. Imbalan selalu bernilai negatif, sedangkan nilai selalu bernilai positif
C. Imbalan hanya digunakan dalam Q-Learning, sedangkan nilai hanya digunakan dalam Policy Gradient
D. Imbalan dihitung oleh agen, sedangkan nilai ditentukan oleh lingkungan

Jawaban: A
Imbalan (reward) adalah umpan balik langsung dari lingkungan untuk satu langkah. Nilai (value) memperkirakan total imbalan terdiskon yang dapat diperoleh agen dari state tertentu di masa depan, bersifat jangka panjang.

96.

Perusahaan robotika mengembangkan lengan robot yang belajar mengambil objek melalui trial-and-error. Tim menggunakan algoritma yang mempelajari kebijakan secara langsung dengan mengoptimalkan gradien dari ekspektasi imbalan terhadap parameter kebijakan. Algoritma ini tergolong…

A. Q-Learning
B. SARSA
C. Deep Q-Network
D. Policy Gradient

Jawaban: D
Policy Gradient mengoptimalkan kebijakan secara langsung melalui gradien ascending terhadap ekspektasi imbalan, tanpa mempelajari fungsi nilai aksi terlebih dahulu. Q-Learning, SARSA, dan DQN termasuk value-based methods yang mempelajari fungsi nilai terlebih dahulu.

97.

Seorang peneliti RL menerapkan algoritma yang mempelajari fungsi nilai aksi optimal Q*(s,a) sambil mengikuti kebijakan eksplorasi epsilon-greedy, namun pembaruan nilai Q menggunakan aksi optimal (greedy) pada state berikutnya, bukan aksi yang benar-benar diambil. Algoritma ini disebut…

A. SARSA
B. Q-Learning
C. Actor-Critic
D. Monte Carlo

Jawaban: B
Q-Learning bersifat off-policy karena menggunakan aksi optimal max Q(s',a') dalam pembaruannya, terlepas dari aksi aktual yang diambil oleh kebijakan eksplorasi. SARSA bersifat on-policy karena menggunakan aksi yang benar-benar diambil.

98.

DeepMind melatih agen untuk bermain game Atari langsung dari pixel layar menggunakan Deep Q-Network. Pendekatan ini menggabungkan Q-Learning dengan jaringan saraf dalam untuk mengatasi masalah utama yaitu…

A. Keterbatasan Q-Learning yang hanya bekerja pada state diskrit biner
B. Ketidakmampuan Q-Learning menangani imbalan negatif
C. Kebutuhan akan model lingkungan yang akurat sebelum pelatihan
D. State space yang terlalu besar untuk direpresentasikan dalam tabel Q konvensional

Jawaban: D
Pada game Atari, state space berupa pixel layar sangat besar dan kontinu sehingga tidak mungkin disimpan dalam tabel Q. DQN menggunakan jaringan saraf sebagai function approximator untuk menggeneralisasi nilai Q ke state yang belum pernah dilihat.

99.

Platform streaming 'NusantaraFlix' ingin meningkatkan retensi pengguna dengan merekomendasikan konten yang tidak hanya sesuai preferensi saat ini, tetapi juga mempertimbangkan urutan tontonan pengguna sepanjang sesi. Pendekatan RL cocok untuk tugas ini karena…

A. RL merekomendasikan item dengan menghitung rata-rata rating semua pengguna
B. RL hanya memerlukan data statis tanpa memperbarui model secara berkala
C. RL memodelkan rekomendasi sebagai sequential decision making yang memaksimalkan kepuasan jangka panjang
D. RL mengabaikan urutan interaksi dan hanya fokus pada item terpopuler

Jawaban: C
RL memandang rekomendasi sebagai proses sekuensial: setiap rekomendasi adalah aksi yang mempengaruhi state pengguna dan imbalan di masa depan. Ini memungkinkan sistem mengoptimalkan pengalaman jangka panjang, bukan sekadar klik instan.

100.

Seorang insinyur machine learning sedang membangun sistem yang secara otomatis mengekstrak informasi kunci dari ribuan faktur digital yang memiliki format bervariasi. Sistem ini harus mampu memproses gambar faktur, mendeteksi area teks, mengenali karakter, dan akhirnya mengubahnya menjadi data terstruktur seperti JSON. Jika ia menggunakan pendekatan modular dengan komponen machine learning yang berbeda untuk setiap tahap, urutan pipeline yang paling tepat adalah…

A. Object Detection untuk area teks -> OCR -> Named Entity Recognition
B. OCR -> Object Detection untuk area teks -> Named Entity Recognition
C. Named Entity Recognition -> Object Detection untuk area teks -> OCR
D. Object Detection untuk area teks -> Named Entity Recognition -> OCR

Jawaban: A
Pendekatan modular untuk mengekstrak informasi dari dokumen gambar memerlukan urutan yang logis dan fungsional. Pertama, object detection digunakan untuk melokalisasi blok teks dalam gambar, karena teks harus ditemukan sebelum dapat dibaca. Selanjutnya, komponen Optical Character Recognition (OCR) memproses area yang terdeteksi untuk mengonversi gambar karakter menjadi teks mentah. Akhirnya, Named Entity Recognition (NER) memproses teks hasil OCR untuk mengekstrak entitas spesifik seperti nama perusahaan, tanggal faktur, total pembayaran, dan mengubahnya menjadi format terstruktur. Urutan ini mencerminkan alur logis dari data mentah ke informasi terstruktur.

Banyak yang ngerasa linear regression udah oke. Sampai ketemu polinomial di data yang sama. Langsung bingung milih derajat. Belum lagi KNN. Simpel sih. Tapi normalisasi datanya sering kelewat. Modul 4 ini emang jebakan. Nilai bagus di supervised learning tapi logika fiturnya masih acak.

UAS STDA4204 Machine Learning biasanya campur UTM dan UO. Soal preprocessing data sering muncul. Evaluasi model juga. Cross validation kadang bentuknya UO yang minta analisis. Kalau mau latihan beda ritme, cek bank soal Kimia Dasar 1 dulu. Siapa tahu cocok buat selingan.

Soal UAS UT STDA4204 Machine Learning dan Kunci Jawaban

Soal UT STDA4204 Machine Learning

Baca juga

Soal UAS UT MKWN4103 Pendidikan Agama Kristen dan Kunci Jawaban

Soal UAS UT MKWN4104 Pendidikan Agama Buddha dan Kunci Jawaban

Soal UAS UT MKWN4105 Pendidikan Agama Hindu dan Kunci Jawaban

Soal UAS UT MKWN4107 Pendidikan Agama Khonghucu dan Kunci Jawaban

Soalut.com

Soal UAS UT STDA4204 Machine Learning dan Kunci Jawaban

Soal UT STDA4204 Machine Learning

Baca juga

Soal UAS UT MKWN4103 Pendidikan Agama Kristen dan Kunci Jawaban

Soal UAS UT MKWN4104 Pendidikan Agama Buddha dan Kunci Jawaban

Soal UAS UT MKWN4105 Pendidikan Agama Hindu dan Kunci Jawaban

Soal UAS UT MKWN4107 Pendidikan Agama Khonghucu dan Kunci Jawaban

Soalut.com

🔥 Post Terbaru