Kamu sudah siapkan Python, install scikit-learn, tapi begitu buka Modul 4 malah bingung bedain K-Nearest Neighbors sama Naive Bayes. Atau Modul 7 soal tokenisasi dan stemming yang kelihatannya gampang, ternyata jebakan juga. Itu wajar. STDA4204 Machine Learning memang butuh lebih dari sekadar baca modul. Di soal UT Statistika kami selalu tekankan pentingnya latihan kasus nyata.
Modul 6 tentang metrik evaluasi sering jadi titik lemah. Begitu juga Modul 8 soal arsitektur jaringan saraf tiruan. Bukan karena rumusnya ribet. Tapi karena kamu harus paham kapan pakai accuracy, kapan pakai F1-score. Coba kerjakan dulu soal-soal yang mencampur evaluasi model dengan deep learning dasar.
Di halaman ini, soal-soalnya langsung menguji konsep spesifik dari Modul 4 sampai Modul 9. Setiap soal dilengkapi kunci jawaban dan pembahasan singkat. Jadi kamu bisa langsung tahu di mana letak salahnya. Butuh latihan lebih banyak? Cek contoh soal UAS UT untuk matkul lain yang serumpun.
Soal UT STDA4204 Machine Learning
Arthur Samuel mendefinisikan machine learning sebagai bidang studi yang memungkinkan komputer untuk…
Definisi klasik dari Arthur Samuel menekankan kemampuan belajar dari data, bukan pemrograman eksplisit maupun peniruan kecerdasan manusia secara penuh.
Seorang data scientist sedang mengembangkan model yang mempelajari hubungan antara luas tanah dan harga jual rumah menggunakan data historis berlabel. Model ini termasuk dalam kategori…
Data berlabel dan upaya memetakan input ke output yang diketahui merupakan ciri khas pembelajaran terawasi, berbeda dengan tak terawasi yang bekerja tanpa label.
Model yang menemukan pengelompokan alami pelanggan berdasarkan pola pembelian tanpa informasi label sebelumnya menerapkan pendekatan…
Menemukan struktur tersembunyi tanpa label merupakan esensi dari pembelajaran tak terawasi, seperti clustering pelanggan.
PT Nusantara Retail ingin membangun sistem yang secara otomatis mengkategorikan email masuk ke dalam folder 'Promosi', 'Penting', atau 'Spam'. Tugas machine learning yang tepat untuk kebutuhan ini adalah…
Memprediksi kategori diskrit dari suatu instance adalah tugas klasifikasi, bukan regresi yang menghasilkan nilai kontinu atau klastering tanpa label.
Sebuah startup fintech mengembangkan model untuk memperkirakan skor kredit nasabah dalam rentang 300–850 berdasarkan riwayat transaksi. Tugas ini paling tepat digolongkan sebagai…
Memprediksi nilai kontinu seperti skor kredit merupakan tugas regresi, berbeda dengan klasifikasi yang menghasilkan kategori diskrit.
Aplikasi streaming video seperti Netflix menampilkan daftar tontonan yang dipersonalisasi untuk setiap pengguna. Teknologi machine learning yang mendasari fitur ini adalah…
Memprediksi preferensi pengguna untuk menyarankan item adalah definisi dari sistem rekomendasi, pendekatan yang spesifik untuk personalisasi konten.
Seorang developer Python mengerjakan tiga proyek dengan dependensi yang saling bertentangan. Proyek A memerlukan Pandas versi 1.x, sedangkan Proyek B memerlukan Pandas versi 2.x. Praktik terbaik untuk mengelola situasi ini adalah…
Lingkungan virtual mengisolasi dependensi tiap proyek sehingga konflik versi pustaka dapat dihindari tanpa saling mengganggu.
Praktik pemberian label numerik unik pada setiap rilis perangkat lunak, seperti '2.4.1' untuk menandai perubahan mayor, minor, dan patch, disebut…
Versioning adalah praktik penandaan versi untuk reproduksibilitas dan pelacakan kompatibilitas perangkat lunak antar rilis.
Alat yang berfungsi untuk menginstal, memperbarui, dan menghapus pustaka Python seperti NumPy atau Pandas melalui command line termasuk dalam kategori…
Manajemen paket seperti pip menangani siklus hidup pustaka, sedangkan lingkungan virtual menangani isolasi dependensi proyek.
Variabel bertipe tuple di Python memiliki karakteristik yang membedakannya dari list, yaitu…
Tuple bersifat immutable sehingga elemen tidak dapat diubah setelah dibuat, berbeda dengan list yang mutable.
Struktur data Python yang paling sesuai untuk menyimpan data mahasiswa dengan akses cepat berdasarkan NIM sebagai kunci adalah…
Dictionary menyimpan pasangan kunci-nilai yang memungkinkan akses cepat berdasarkan kunci unik seperti NIM.
Seorang programmer menulis fungsi calculate_tax(income) yang menerima parameter dan mengembalikan nilai pajak. Fungsi ini kemudian dipanggil berulang kali untuk berbagai nilai income. Konsep Python yang memungkinkan penggunaan kembali kode tersebut secara efisien adalah…
Fungsi memungkinkan blok kode digunakan kembali dengan parameter yang berbeda, menghindari duplikasi kode untuk tugas yang sama.
Pustaka Python yang menyediakan struktur DataFrame dengan operasi manipulasi data tabular seperti filtering dan grouping adalah…
Pandas dikembangkan oleh Wes McKinney dan menyediakan DataFrame sebagai struktur utama untuk manipulasi data tabular.
Dalam pipeline analisis data, setelah data dibersihkan dan sebelum divisualisasikan, pustaka yang paling berperan dalam melakukan operasi numerik pada array multidimensi secara efisien adalah…
NumPy adalah pustaka fundamental untuk komputasi numerik dan operasi array multidimensi berkinerja tinggi di Python.
Seorang analis ingin membuat scatter plot dari dua variabel dalam DataFrame Pandas untuk melihat pola hubungan antara pengeluaran iklan dan pendapatan. Pustaka yang paling tepat untuk menghasilkan visualisasi ini adalah…
Matplotlib, yang dikembangkan oleh John D. Hunter, adalah pustaka utama untuk visualisasi data statis di Python, termasuk scatter plot.
Seorang praktisi data memiliki dataset dengan 200 fitur namun menduga hanya sebagian kecil yang benar-benar relevan untuk model prediksi. Proses memilih subset fitur yang paling informatif sebelum pelatihan model disebut…
Seleksi fitur adalah proses memilih subset fitur yang paling relevan, berbeda dengan ekstraksi fitur yang mentransformasi data menjadi fitur baru.
Ketika data mentah berupa teks ulasan produk harus diubah menjadi representasi numerik yang menangkap sentiment sebelum dimasukkan ke model, proses yang dilakukan adalah…
Ekstraksi fitur mentransformasi data mentah (teks) menjadi representasi fitur yang siap digunakan model, sementara seleksi fitur memilih dari fitur yang sudah ada.
PT Citra Analytics menerima dataset dari berbagai cabang dan menemukan bahwa kolom 'Jenis Kelamin' pada Cabang A menggunakan 'L/P', sementara Cabang B menggunakan 'Male/Female'. Sebelum integrasi, langkah untuk menyamakan representasi nilai dalam kolom tersebut adalah…
Proses menstandarisasi format dan nilai data yang tidak seragam antar sumber merupakan bentuk koreksi inkonsistensi. Seleksi dan ekstraksi fitur berurusan dengan pemilihan serta transformasi fitur, bukan penyeragaman representasi kategori.
Ani menemukan bahwa 40% baris pada kolom 'Pendapatan' bernilai NaN. Jika ia memutuskan untuk membuang semua baris tersebut, risiko utama yang dihadapi adalah…
Menghapus baris yang mengandung missing value akan menghilangkan seluruh informasi pada baris tersebut, termasuk nilai valid di kolom lain. Ini berbeda dengan mengisi missing value yang mempertahankan data lain.
Dalam inspeksi data penjualan, teridentifikasi satu transaksi bernilai Rp 2,5 miliar, sementara rata-rata transaksi adalah Rp 500 ribu dengan deviasi standar Rp 200 ribu. Transaksi tersebut paling tepat dikategorikan sebagai…
Nilai yang menyimpang secara signifikan dari distribusi normal data disebut outlier. Outlier berbeda dari missing value yang merupakan kekosongan data, atau duplikasi yang berarti pengulangan data identik.
Sebuah database pelanggan hasil penggabungan dari sistem lama dan baru menghasilkan beberapa baris yang memiliki informasi identik pada seluruh kolom. Tindakan yang paling tepat untuk membersihkan data tersebut adalah…
Baris identik yang muncul dari integrasi sistem adalah masalah duplikasi data. Penanganan duplikasi bertujuan mengidentifikasi dan menghapus baris yang sama persis.
Seorang praktisi data ingin memetakan semua nilai fitur numerik ke dalam rentang [0, 1] agar tidak ada variabel yang mendominasi karena perbedaan skala. Teknik yang digunakan adalah…
Normalisasi mengubah skala data ke rentang tertentu seperti [0,1] dengan rumus Min-Max scaling. Standardisasi mengubah data agar memiliki mean 0 dan deviasi standar 1, sedangkan encoding untuk data kategorikal.
Budi memiliki kolom 'Tingkat Pendidikan' dengan nilai unik: SD, SMP, SMA, S1, S2. Untuk model regresi linear, teknik encoding yang paling tepat tanpa menimbulkan asumsi ordinal yang salah adalah…
Label encoding akan memberikan urutan numerik (SD=1, SMP=2, …) yang menyiratkan adanya tingkatan ordinal. One-hot encoding menciptakan kolom biner untuk setiap kategori tanpa asumsi ordinal, cocok untuk data nominal.
Setelah membuat fitur 'usia' dari 'tanggal_lahir' dan fitur 'lama_berlangganan' dari 'tanggal_registrasi', praktik yang dilakukan termasuk…
Menciptakan fitur baru dari data mentah yang sudah ada merupakan feature engineering. Ekstraksi fitur mentransformasi data mentah menjadi fitur representatif, sedangkan feature engineering berfokus pada penciptaan fitur baru untuk meningkatkan performa model.
PT Logistik Nusantara menggabungkan data pengiriman dari sistem ERP dengan data pelacakan dari sistem GPS menggunakan kolom 'ID_Pengiriman'. Operasi penggabungan kedua dataset berdasarkan kesamaan kunci ini disebut…
Menggabungkan dua dataset menggunakan operasi seperti join atau merge berdasarkan kunci bersama merupakan penggabungan data. Konsolidasi data lebih menekankan pada penyatuan data dari berbagai sumber ke satu struktur koheren.
Setelah mengintegrasikan tiga database, ditemukan kolom 'Total' yang merupakan hasil penjumlahan dari dua kolom lain yang juga ada di dataset. Kolom 'Total' sebaiknya…
Atribut yang nilainya dapat diturunkan dari atribut lain merupakan redundansi dan sebaiknya dihapus untuk menghindari duplikasi informasi dan mengurangi dimensi data.
Dalam konteks pemrosesan paralel, data dari tiga server regional disatukan ke dalam satu data warehouse terpusat setiap malam. Proses ini paling tepat digambarkan sebagai…
Konsolidasi data adalah proses menyatukan data dari berbagai sumber ke dalam satu struktur yang koheren. Penggabungan data lebih spesifik pada operasi join atau merge.
Seorang praktisi melatih model pada data training hingga akurasi 98%, namun saat diuji pada data testing, akurasi turun menjadi 72%. Kemungkinan penyebab penurunan ini adalah…
Perbedaan besar antara performa training dan testing adalah indikator overfitting. Model terlalu kompleks dan menangkap noise pada data training sehingga gagal menggeneralisasi ke data baru. Ini adalah fungsi dari data validasi untuk mencegah overfitting.
Siti membagi dataset menjadi 80% data training dan 20% data testing. Namun, ternyata seluruh instance kelas minoritas hanya muncul di data testing. Strategi pembagian yang seharusnya digunakan adalah…
Stratified sampling mempertahankan proporsi kelas dalam setiap subset pembagian data. Ini berbeda dari holdout biasa yang dapat menghasilkan distribusi kelas tidak merata antar subset.
Seorang data scientist tidak sengaja menghitung statistik rata-rata dari seluruh dataset (termasuk data testing) sebelum melakukan normalisasi pada data training. Peristiwa ini termasuk…
Menggunakan informasi dari data testing dalam proses pelatihan adalah data leakage, yang menyebabkan estimasi evaluasi menjadi terlalu optimis karena model telah terpapar informasi dari data testing secara tidak langsung.
Sebuah model regresi linear sederhana memodelkan hubungan antara jam belajar (X) dan nilai ujian (Y) dengan persamaan Y = 45 + 7.5X. Arti dari koefisien 7.5 adalah…
Dalam regresi linear sederhana Y = a + bX, koefisien b menunjukkan perubahan rata-rata Y untuk setiap kenaikan satu unit X. Konstanta a adalah intercept, sedangkan koefisien determinasi adalah R-squared.
Model regresi linear memiliki R-squared = 0,81. Interpretasi yang tepat adalah…
Koefisien determinasi R-squared mengukur proporsi varians variabel dependen yang dapat dijelaskan oleh variabel independen dalam model. Nilai 0,81 berarti 81% variasi dapat dijelaskan oleh model.
Seorang analis menerapkan metode kuadrat terkecil dan mendapatkan garis regresi yang meminimalkan jumlah kuadrat residual. Garis ini selalu melalui titik…
Garis regresi yang dihasilkan metode kuadrat terkecil selalu melewati titik (x̄, ȳ). Ini adalah sifat matematis dari solusi kuadrat terkecil yang meminimalkan jumlah kuadrat selisih antara nilai aktual dan prediksi.
Pak Ahmad mencoba regresi polinomial derajat 15 pada data penjualan bulanan selama 12 bulan. Model menghasilkan R-squared training = 0,99 namun prediksi untuk bulan mendatang sangat tidak masuk akal. Masalah utama pada model ini adalah…
Model polinomial derajat tinggi pada data yang sedikit akan menangkap noise dan menghasilkan kurva yang berosilasi keras antar titik data, menyebabkan overfitting. Model gagal menggeneralisasi meskipun performa training sangat tinggi.
Seorang data scientist mencoba regresi polinomial derajat 2 dan derajat 10 pada dataset yang sama. Model derajat 10 menghasilkan R-squared training jauh lebih tinggi, namun saat diuji pada data baru performanya justru lebih buruk daripada model derajat 2. Fenomena yang terjadi pada model derajat 10 adalah…
Regresi polinomial dengan derajat terlalu tinggi cenderung menangkap fluktuasi acak (noise) dalam data training, bukan pola sebenarnya. Akibatnya model gagal menggeneralisasi ke data baru — inilah esensi overfitting.
PT Agrobisnis Sejahtera memodelkan hubungan antara dosis pupuk dan hasil panen. Scatter plot menunjukkan hubungan yang melengkung. Jika menggunakan regresi linear sederhana, model akan underfit; jika menggunakan regresi polinomial derajat 20, model akan overfit. Strategi yang paling tepat untuk memilih derajat polinomial optimal adalah…
Data validasi yang tidak digunakan dalam pelatihan memberi estimasi objektif tentang kemampuan generalisasi model. Dengan membandingkan error validasi untuk berbagai derajat polinomial, praktisi dapat memilih derajat yang menyeimbangkan bias dan varians.
Untuk mengklasifikasikan titik data baru, KNN menggunakan prinsip bahwa…
Prinsip dasar klasifikasi KNN adalah mencari k titik data terdekat dari instance baru, lalu mengambil suara mayoritas label dari tetangga-tetangga tersebut sebagai prediksi kelas.
Sebuah platform e-commerce menggunakan KNN untuk memprediksi apakah seorang pengguna akan melakukan pembelian. Tim data science mencoba k=1, k=5, dan k=50. Model dengan k=1 menghasilkan keputusan yang sangat tidak stabil dan berubah drastis saat data training sedikit berubah. Masalah pada k=1 terutama disebabkan oleh…
Nilai k yang sangat kecil membuat model sangat sensitif terhadap fluktuasi atau noise lokal dalam data training, sehingga varians menjadi tinggi. Setiap perubahan kecil pada data training dapat mengubah batas keputusan secara signifikan.
Instansi pemerintah mengklasifikasikan kelayakan penerima bantuan sosial menggunakan KNN. Dataset memiliki dua fitur numerik: pendapatan bulanan (skala ribuan) dan jumlah tanggungan (skala satuan). Sebelum menghitung jarak Euclidean, langkah preprocessing yang krusial untuk mencegah dominasi fitur pendapatan adalah…
Jarak Euclidean sangat sensitif terhadap perbedaan skala antar fitur. Fitur dengan rentang nilai besar (pendapatan) akan mendominasi perhitungan jarak, sehingga fitur berskala kecil (jumlah tanggungan) menjadi tidak berpengaruh. Normalisasi atau standardisasi menyelaraskan skala agar setiap fitur berkontribusi setara.
Teorema Bayes menghitung probabilitas posterior P(Y|X) dengan mengalikan probabilitas prior P(Y) dan likelihood P(X|Y), lalu membaginya dengan evidence P(X). Dalam konteks Naive Bayes, istilah 'evidence' P(X) berfungsi sebagai…
Evidence P(X) merupakan konstanta normalisasi yang memastikan total probabilitas posterior seluruh kelas berjumlah 1. Dalam klasifikasi Naive Bayes, evidence sering diabaikan karena nilainya sama untuk semua kelas saat membandingkan probabilitas posterior.
Sebuah sistem deteksi spam dilatih menggunakan Naive Bayes dengan asumsi independensi antar kata. Faktanya, kata 'diskon' dan 'gratis' sering muncul bersama dalam email spam. Meskipun asumsi ini dilanggar, Naive Bayes tetap memberikan akurasi yang baik. Penjelasan yang paling tepat untuk fenomena ini adalah…
Meskipun estimasi P(X|Y) menjadi bias ketika asumsi independensi dilanggar, perbandingan P(Y=spam|X) terhadap P(Y=ham|X) seringkali tetap menghasilkan klasifikasi yang benar. Dengan kata lain, bias pada likelihood tidak selalu mengubah urutan relatif probabilitas posterior antar kelas.
Data scientist memilih menggunakan Gaussian Naive Bayes untuk mengklasifikasikan spesies bunga berdasarkan fitur numerik seperti panjang kelopak dan lebar mahkota. Pilihan ini tepat karena Gaussian Naive Bayes…
Gaussian Naive Bayes adalah varian yang cocok untuk fitur kontinu. Algoritma ini menghitung likelihood P(fitur|kelas) dengan mengasumsikan setiap fitur mengikuti distribusi Gaussian (normal), sehingga parameter yang diperlukan hanyalah mean dan standar deviasi per fitur per kelas.
Setelah menerapkan algoritma K-Means pada dataset pelanggan, seorang analis menghitung inersia untuk k=2 hingga k=10. Grafik inersia menunjukkan penurunan tajam pada k=2 dan k=3, lalu melandai setelah k=4. Berdasarkan elbow method, jumlah klaster optimal yang disarankan adalah…
Elbow method mencari titik di mana penurunan inersia mulai melandai — mirip siku pada grafik. Setelah k=4, penambahan klaster hanya memberikan pengurangan inersia yang tidak signifikan, sehingga k=4 merupakan titik keseimbangan antara kompleksitas model dan kualitas pengelompokan.
PT Retail Nusantara menjalankan K-Means dua kali pada data pelanggan yang sama. Hasil klaster dari kedua eksekusi berbeda karena inisialisasi centroid yang acak. Solusi yang dapat meningkatkan konsistensi hasil tanpa mengubah algoritma secara fundamental adalah…
K-Means sensitif terhadap inisialisasi centroid awal. Praktik standar untuk mengatasi ini adalah menjalankan algoritma beberapa kali (n_init) dengan seed berbeda, lalu memilih solusi yang menghasilkan inersia terendah — menunjukkan konvergensi ke minimum lokal yang lebih baik.
Lembaga survei mengelompokkan responden menggunakan K-Means dan mendapatkan centroid klaster pertama pada koordinat (pendapatan=3,5jt, usia=28) setelah standardisasi. Interpretasi yang tepat dari centroid tersebut adalah…
Centroid dalam K-Means dihitung sebagai rata-rata dari seluruh titik yang termasuk dalam klaster tersebut. Nilai centroid tidak harus merupakan titik data aktual; ia adalah pusat massa klaster yang digunakan pada iterasi berikutnya untuk menetapkan ulang keanggotaan titik.
Seorang peneliti ingin mengelompokkan 50 spesies tanaman berdasarkan karakteristik morfologi. Ia memilih hierarchical clustering karena ingin melihat struktur pengelompokan pada berbagai tingkat resolusi sekaligus. Visualisasi yang paling tepat untuk menginterpretasikan hasil pengelompokan ini adalah…
Dendrogram adalah diagram pohon yang menampilkan seluruh proses penggabungan (atau pemisahan) klaster dalam hierarchical clustering. Sumbu vertikal menunjukkan jarak atau kemiripan saat klaster bergabung, memungkinkan peneliti memotong pohon pada level berbeda untuk memperoleh jumlah klaster yang diinginkan.
Tim riset menggunakan agglomerative clustering dengan tiga metode linkage berbeda: single, complete, dan average. Metode single linkage menghasilkan klaster yang panjang dan merentang, sementara complete linkage menghasilkan klaster yang kompak dan bulat. Perbedaan ini disebabkan oleh…
Single linkage mendefinisikan jarak antar klaster sebagai jarak minimum antara sepasang titik dari dua klaster berbeda, sehingga cenderung membentuk klaster panjang (chaining effect). Complete linkage menggunakan jarak maksimum antar titik dari dua klaster, mendorong klaster yang lebih kompak dan bulat.
Dalam divisive clustering, proses dimulai dengan satu klaster besar berisi seluruh data, lalu secara iteratif membagi klaster menjadi dua. Pendekatan ini berbeda dari agglomerative clustering yang…
Agglomerative clustering menganut pendekatan bottom-up: dimulai dengan setiap titik sebagai klaster sendiri, lalu secara iteratif menggabungkan dua klaster yang paling mirip. Ini adalah kebalikan dari divisive clustering yang top-down.
DBSCAN mampu mendeteksi data outlier secara otomatis selama proses klastering. Data diklasifikasikan sebagai outlier apabila…
Dalam DBSCAN, titik yang bukan merupakan titik inti (tidak memiliki MinPts tetangga dalam radius epsilon) dan juga tidak berada dalam lingkungan epsilon dari titik inti manapun diklasifikasikan sebagai noise atau outlier. Titik-titik ini tidak dimasukkan ke klaster manapun.
Badan Meteorologi mengelompokkan stasiun cuaca berdasarkan data historis suhu, kelembaban, dan curah hujan. Klaster yang terbentuk tidak berbentuk bola dan beberapa stasiun memiliki karakteristik yang sangat berbeda dari yang lain. Algoritma yang paling sesuai untuk kasus ini adalah…
DBSCAN unggul dalam mendeteksi klaster dengan bentuk sembarang (tidak harus globular) dan secara otomatis mengidentifikasi titik yang tidak masuk ke klaster manapun sebagai outlier. Ini sangat cocok untuk data cuaca yang mungkin memiliki pola spasial tidak teratur dan stasiun dengan karakteristik ekstrem.
Data engineer mengatur parameter DBSCAN dengan epsilon = 0,5 dan MinPts = 10. Setelah dijalankan, terlalu banyak titik yang diklasifikasikan sebagai noise dan hanya sedikit klaster kecil yang terbentuk. Untuk mengatasi masalah ini, modifikasi parameter yang paling masuk akal adalah…
Terlalu banyak titik diklasifikasikan sebagai noise menandakan bahwa kriteria kepadatan terlalu ketat. Meningkatkan epsilon memperluas radius lingkungan sehingga lebih banyak titik saling terhubung; menurunkan MinPts memudahkan suatu titik menjadi titik inti. Kedua modifikasi ini cenderung menghasilkan klaster yang lebih besar dan mengurangi noise.
PT Mega Digital membangun model klasifikasi dengan akurasi 96% pada data training, namun hanya 73% pada data testing. Data scientist menduga telah terjadi kebocoran informasi dari data testing ke proses pelatihan selama preprocessing. Istilah yang tepat untuk fenomena ini…
Data leakage terjadi ketika informasi dari data testing secara tidak sengaja masuk ke dalam proses pelatihan, menyebabkan evaluasi model menjadi terlalu optimis dan tidak mencerminkan performa sesungguhnya.
Seorang peneliti membagi dataset citra medis menjadi 70% training dan 30% testing. Ia menemukan bahwa seluruh citra kategori 'ganas' hanya muncul di testing set. Strategi pembagian yang seharusnya diterapkan untuk mencegah masalah ini…
Stratified sampling mempertahankan proporsi setiap kelas dalam subset training dan testing, sehingga kelas minoritas seperti 'ganas' akan terwakili secara proporsional di kedua subset.
Perbedaan mendasar antara holdout validation dan cross validation terletak pada…
Holdout validation membagi data sekali menjadi training dan testing, sementara cross validation membagi data menjadi k subset dan secara bergantian menggunakan satu subset sebagai testing dan sisanya sebagai training, memberikan estimasi performa yang lebih stabil.
Sebuah model deteksi penipuan kartu kredit berhasil mengidentifikasi 80 transaksi sebagai fraud, namun hanya 60 di antaranya yang benar-benar fraud. Sementara itu, total transaksi fraud sebenarnya adalah 100. Metrik evaluasi yang tepat untuk menilai berapa proporsi prediksi fraud yang benar-benar akurat…
Presisi mengukur proporsi true positive dari seluruh prediksi positif, yaitu 60/80 = 75%. Metrik ini tepat untuk menilai ketepatan model saat memprediksi kelas positif.
Model klasifikasi berhasil mendeteksi 90 dari 120 kasus penyakit langka dalam dataset. Metrik yang mengukur kemampuan model menemukan seluruh kasus positif yang sebenarnya…
Recall atau sensitivity mengukur proporsi true positive dari seluruh instance yang sebenarnya positif, yaitu 90/120. Metrik ini penting ketika fokus utama adalah menemukan sebanyak mungkin kasus positif tanpa terlewat.
Dalam kasus dataset sangat tidak seimbang dengan 98% kelas mayoritas dan 2% kelas minoritas, metrik evaluasi yang paling tidak informatif untuk menilai performa model…
Akurasi akan tetap tinggi meskipun model hanya memprediksi kelas mayoritas, sehingga tidak mencerminkan kemampuan model mendeteksi kelas minoritas. Pada dataset tidak seimbang, F1-score, presisi, dan recall lebih informatif.
Tim data science menerapkan 5-fold cross validation dan memperoleh skor F1: 0.82, 0.85, 0.79, 0.88, dan 0.81. Standard error dari skor-skor ini memberikan informasi tentang…
Standard error dari skor cross validation mengukur variabilitas performa model antar fold, yang menunjukkan stabilitas estimasi. Semakin kecil standard error, semakin konsisten model di berbagai subset data.
Budi menerapkan Leave-One-Out Cross Validation (LOOCV) pada dataset dengan 500 instance. Karakteristik utama dari pendekatan ini…
Pada LOOCV, k sama dengan jumlah instance (N), sehingga terbentuk N fold. Setiap fold menggunakan satu instance sebagai testing dan N-1 instance sebagai training, dilakukan bergantian untuk seluruh instance.
PT Fintech Indonesia menerapkan K-Fold cross validation dengan k=10. Setelah proses selesai, mereka memperoleh rata-rata akurasi 0,87. Angka ini merepresentasikan…
K-Fold cross validation melatih dan menguji model sebanyak k kali pada subset berbeda, kemudian merata-ratakan skor evaluasi dari seluruh fold untuk memberikan estimasi performa yang lebih robust.
Seorang praktisi mencari kombinasi hyperparameter optimal untuk model SVM. Ia mendefinisikan grid nilai C = {0.1, 1, 10, 100} dan gamma = {0.01, 0.1, 1}. Grid search akan mengevaluasi sebanyak…
Grid search mengevaluasi seluruh kombinasi dari parameter yang ditentukan. Dengan 4 nilai C dan 3 nilai gamma, total kombinasi adalah 4 × 3 = 12.
Perbedaan utama antara grid search dan random search dalam hyperparameter tuning…
Grid search mengeksplorasi secara sistematis seluruh kombinasi hyperparameter yang telah ditentukan dalam grid, sementara random search mengambil sampel acak dari distribusi yang ditentukan, yang seringkali lebih efisien untuk ruang parameter besar.
Startup AI sedang mengoptimalkan hyperparameter deep learning dengan ruang parameter yang sangat luas dan sumber daya komputasi terbatas. Mereka memilih metode yang membangun model probabilistik dari fungsi objektif untuk mengarahkan pencarian. Metode ini dikenal sebagai…
Bayesian optimization membangun model probabilistik (surrogate model) dari fungsi objektif berdasarkan evaluasi sebelumnya, kemudian menggunakan acquisition function untuk memilih titik evaluasi berikutnya. Metode ini efisien untuk ruang parameter besar dengan evaluasi yang mahal.
Model regresi linear sederhana menghasilkan Mean Squared Error (MSE) training yang sangat rendah namun koefisien determinasi R-squared pada data validasi mendekati nol. Kondisi ini mengindikasikan model mengalami…
Sebenarnya skenario ini menunjukkan overfitting karena varians tinggi: MSE training rendah tetapi performa validasi buruk. Overfitting terjadi ketika model terlalu sensitif terhadap fluktuasi data training dan gagal menggeneralisasi.
Tim riset membandingkan dua model: Model X sederhana dengan bias tinggi dan varians rendah, Model Y kompleks dengan bias rendah dan varians tinggi. Berdasarkan bias-variance tradeoff, model yang diharapkan memberikan generalisasi lebih baik pada data baru yang berbeda dari data training…
Generalisasi optimal bergantung pada keseimbangan bias-varians yang spesifik terhadap dataset dan kompleksitas masalah. Tanpa data konkret, tidak dapat dipastikan model mana yang lebih baik karena bisa jadi model sederhana underfit atau model kompleks overfit.
Regular Expression digunakan dalam preprocessing teks untuk…
Regular expression menyediakan pola pencarian string yang fleksibel untuk melakukan operasi seperti pencarian, penggantian, validasi format, dan ekstraksi substring berdasarkan pola tertentu.
Seorang analis ingin membersihkan data tweet dengan menghapus mention (@username), hashtag (#topik), dan URL (http://…) sekaligus dalam satu operasi. Pendekatan NLP yang paling efisien untuk tugas ini…
Regular expression memungkinkan pendefinisian pola untuk berbagai format sekaligus dalam satu ekspresi, sangat efisien untuk membersihkan teks dari elemen-elemen seperti mention, hashtag, dan URL yang memiliki pola karakter spesifik.
Seorang peneliti ingin mengekstrak seluruh alamat email dari korpus dokumen laporan tahunan yang memiliki format lokal seperti 'info@perusahaan.co.id' dan 'kontak@instansi.go.id'. Pendekatan paling tepat untuk menyaring pola teks tersebut dalam satu langkah adalah…
Regular Expression unggul untuk mengekstrak pola teks terstruktur seperti alamat email karena kemampuan pencocokan pola spesifiknya, tidak bisa digantikan oleh tokenisasi atau stemming yang bertujuan berbeda.
Saat memproses dokumen hukum berbahasa Indonesia yang panjang, seorang praktisi NLP perlu memecah teks menjadi unit-unit analisis berupa kalimat individual untuk dianalisis klausul per klausul. Proses ini dikenal sebagai…
Tokenisasi kalimat memecah dokumen menjadi unit kalimat, sedangkan tokenisasi kata menghasilkan unit kata dan tokenisasi karakter memecah hingga level karakter.
Seorang pengembang chatbot menerima input pengguna berupa kalimat 'Saya ingin memesan tiket kereta api Jakarta-Surabaya untuk besok pagi'. Setelah tokenisasi kata, output yang dihasilkan adalah…
Tokenisasi kata standar memecah berdasarkan spasi dan tanda baca sebagai pemisah. 'Jakarta-Surabaya' tetap utuh karena tanda hubung bukan pemisah token default, dan 'kereta api' terpisah menjadi dua kata.
Dalam pipeline NLP, hasil dari proses tokenisasi akan digunakan sebagai input langsung untuk tahap…
Token menghasilkan unit kata yang siap diproses lebih lanjut oleh tahapan seperti stop words removal, stemming, atau lemmatization sebelum dijadikan fitur numerik.
Budi sedang mengembangkan sistem pencarian informasi untuk dokumen akademik. Ia menemukan bahwa kata 'mempelajari', 'pelajar', dan 'pembelajaran' diperlakukan sebagai token berbeda padahal berasal dari akar kata yang sama. Untuk menyatukan ketiganya sebagai representasi tunggal 'ajar', teknik yang paling tepat adalah…
Stemming mereduksi kata ke bentuk dasarnya secara heuristik dengan memotong imbuhan, sehingga 'mempelajari', 'pelajar', dan 'pembelajaran' dipetakan ke stem yang sama.
Perbedaan fundamental antara stemming dan lemmatization terletak pada…
Stemming bersifat heuristik tanpa memperhatikan konteks atau peran gramatikal kata, sedangkan lemmatization menganalisis morfologi dan part of speech untuk menghasilkan lemma yang valid.
Porter Stemmer yang diterapkan pada kata 'happily' dan 'happiness' akan menghasilkan stem yang sama, namun untuk kata 'better' dan 'good', Porter Stemmer gagal mengenali keduanya sebagai leksem yang sama. Keterbatasan ini terjadi karena…
Algoritma Porter berbasis aturan pemotongan sufiks sehingga tidak bisa menangkap relasi leksikal seperti 'better' dan 'good' yang memerlukan pemahaman semantik, berbeda dengan lemmatization.
PT Media Digital menerapkan filter stop words pada sistem analisis sentimen untuk ulasan produk. Setelah filtering, kata-kata seperti 'dan', 'yang', 'di' dihapus dari dokumen. Tindakan ini dilakukan karena stop words…
Stop words adalah kata umum berfrekuensi tinggi yang tidak membawa informasi signifikan untuk tugas analisis seperti klasifikasi sentimen, sehingga dihapus untuk mengurangi dimensi dan noise.
Seorang peneliti sedang menganalisis kontrak legal berbahasa Indonesia. Ia ragu untuk menghapus semua kata dari daftar stop words generik karena kata 'tidak' dan 'bukan' ternyata krusial untuk membedakan klausul larangan dan kewajiban. Strategi yang paling bijaksana adalah…
Daftar stop words generik bisa disesuaikan untuk domain spesifik. Kata negasi seperti 'tidak' dan 'bukan' penting dalam analisis teks hukum sehingga harus dipertahankan melalui daftar stop words yang dikurasi khusus.
Seorang analis data teks menemukan bahwa setelah stop words removal, ukuran matriks fitur berkurang drastis namun akurasi model klasifikasi justru meningkat. Penjelasan yang paling logis untuk fenomena ini adalah…
Stop words yang tidak mengandung nilai informatif dapat bertindak sebagai noise dalam model. Menghilangkannya mereduksi dimensi dan membantu model fokus pada kata-kata yang benar-benar membedakan kelas.
Seorang praktisi NLP merepresentasikan tiga dokumen sebagai vektor dengan menghitung frekuensi kemunculan setiap kata unik di seluruh korpus. Representasi ini mengabaikan urutan kata sepenuhnya. Pendekatan ini dikenal sebagai…
Bag of Words merepresentasikan teks berdasarkan frekuensi kata tanpa mempertimbangkan urutan, berbeda dari TF-IDF yang menambahkan pembobotan inverse dokumen dan Word Embedding yang menghasilkan vektor dense semantik.
Dalam korpus berisi dokumen tentang 'machine learning' dan 'deep learning', kata 'learning' muncul di hampir semua dokumen. Menggunakan Bag of Words murni, kata 'learning' akan memiliki bobot tinggi dan mendominasi. Untuk mengurangi dominasi kata yang terlalu umum ini, teknik yang paling tepat adalah…
TF-IDF memberikan bobot rendah pada kata yang muncul di banyak dokumen melalui komponen Inverse Document Frequency (IDF), sehingga kata umum seperti 'learning' tidak mendominasi representasi.
Seorang peneliti ingin membandingkan kemiripan semantik antara kata 'raja' dan 'ratu'. Ia menggunakan representasi vektor dense yang sudah dilatih pada korpus besar. Dalam ruang vektor ini, operasi aritmetika 'raja' – 'pria' + 'wanita' menghasilkan vektor yang sangat dekat dengan 'ratu'. Representasi yang memungkinkan operasi semantik semacam ini adalah…
Word Embedding seperti Word2Vec atau GloVe menghasilkan vektor dense yang menangkap relasi semantik dan memungkinkan operasi analogi, sesuatu yang tidak bisa dilakukan oleh representasi sparse seperti Bag of Words atau TF-IDF.
Perbedaan mendasar antara deep learning dan machine learning tradisional dalam hal representasi fitur adalah…
Ciri khas deep learning adalah kemampuannya mempelajari representasi fitur bertingkat secara otomatis (feature hierarchy), mengurangi ketergantungan pada rekayasa fitur manual yang lazim di machine learning tradisional.
PT VisionAI mempertimbangkan antara menggunakan model machine learning klasik (Random Forest) dan deep learning (CNN) untuk klasifikasi citra. Dataset mereka hanya berisi 5.000 gambar dengan 10 kelas. Berdasarkan karakteristik kebutuhan data, keputusan yang paling tepat adalah…
Deep learning umumnya membutuhkan data dalam jumlah besar untuk mempelajari hierarki fitur secara efektif. Dengan dataset kecil, model machine learning klasik dengan rekayasa fitur yang tepat sering kali lebih sesuai.
Dalam pipeline deep learning untuk klasifikasi gambar, lapisan pertama jaringan secara otomatis mempelajari detektor tepi, lapisan berikutnya mempelajari bentuk seperti sudut dan kurva, lalu lapisan lebih dalam mempelajari bagian objek seperti mata atau roda. Proses pembelajaran bertingkat ini disebut…
Feature hierarchy adalah konsep inti deep learning di mana setiap lapisan mempelajari representasi dengan tingkat abstraksi yang meningkat, dari fitur sederhana (tepi) hingga kompleks (bagian objek), tanpa rekayasa manual.
Dalam arsitektur feedforward network, informasi mengalir dari input layer menuju output layer tanpa adanya siklus. Jika seorang praktisi menambahkan koneksi dari neuron di hidden layer kedua kembali ke hidden layer pertama, arsitektur yang dihasilkan bukan lagi feedforward murni melainkan…
Adanya koneksi balik (feedback loop) dari lapisan yang lebih dalam ke lapisan sebelumnya mengubah arsitektur menjadi recurrent network, karena informasi tidak lagi mengalir searah secara ketat.
Fungsi aktivasi pada neuron berperan mengenalkan non-linearitas agar jaringan mampu mempelajari pola kompleks. Manakah di antara fungsi berikut yang memiliki karakteristik output selalu positif dan turunannya sederhana yaitu f'(x) = f(x)(1 − f(x))…
Sigmoid menghasilkan output antara 0 dan 1 (selalu positif) serta memiliki turunan f'(x) = f(x)(1 − f(x)). ReLU tidak memenuhi sifat turunan tersebut; Tanh outputnya bisa negatif; Softmax menghasilkan distribusi probabilitas untuk multi-kelas.
PT Visi Cerdas Indonesia merancang jaringan saraf untuk klasifikasi gambar. Mereka menggunakan neuron yang menerima input x1, x2, x3 dengan bobot masing-masing w1, w2, w3 dan bias b. Output neuron sebelum fungsi aktivasi dihitung sebagai…
Neuron melakukan kombinasi linear dari input dan bobot: menjumlahkan hasil kali setiap input dengan bobotnya, lalu menambahkan bias. Inilah operasi dasar sebelum fungsi aktivasi diterapkan.
Algoritma backpropagation mengandalkan aturan rantai untuk menghitung gradien fungsi kerugian terhadap setiap bobot di jaringan. Gradien ini kemudian dimanfaatkan untuk…
Gradien hasil backpropagation menunjukkan arah dan besar perubahan bobot yang diperlukan untuk meminimalkan fungsi kerugian. Informasi ini digunakan oleh algoritma optimasi seperti gradient descent untuk memperbarui bobot.
Budi melatih jaringan saraf dan mengamati bahwa dengan learning rate 0,001 proses konvergensi sangat lambat, sedangkan dengan learning rate 0,5 fungsi kerugian berosilasi liar dan tidak kunjung turun. Perilaku pada learning rate 0,5 disebabkan oleh…
Learning rate yang terlalu besar menyebabkan langkah pembaruan bobot melampaui titik minimum, sehingga fungsi kerugian berosilasi bolak-balik tanpa konvergen. Ini bukan masalah overfitting, fungsi aktivasi, atau jumlah epoch.
Dalam konteks optimasi jaringan saraf, stochastic gradient descent (SGD) berbeda dari batch gradient descent karena SGD…
SGD memperkirakan gradien dari subset kecil data (mini-batch) atau satu sampel, sehingga pembaruan bobot terjadi lebih sering dan noisy dibandingkan batch gradient descent yang menghitung gradien dari seluruh dataset.
Siti sedang melatih model deep learning dan mengamati grafik loss pada data validasi. Setelah epoch ke-25, validation loss mulai meningkat sementara training loss terus menurun. Strategi yang paling tepat untuk mencegah penurunan generalisasi lebih lanjut adalah…
Ketika validation loss mulai naik sementara training loss masih turun, model mulai overfitting. Early stopping menghentikan pelatihan tepat sebelum generalisasi memburuk, menjaga performa optimal pada data baru.
Mean Squared Error (MSE) dan Cross-Entropy merupakan dua fungsi kerugian yang umum digunakan. Cross-Entropy lebih tepat dipilih dibandingkan MSE ketika…
Cross-Entropy dirancang untuk mengukur perbedaan antara distribusi probabilitas prediksi dan distribusi sebenarnya, sehingga cocok untuk klasifikasi. MSE lebih sesuai untuk regresi dengan target kontinu.
Framework TensorFlow merepresentasikan komputasi sebagai graf di mana node adalah operasi dan edge adalah tensor yang mengalir. Pendekatan ini memungkinkan…
Representasi graf komputasi memungkinkan TensorFlow menganalisis dependensi, mendistribusikan komputasi ke CPU/GPU/TPU, dan melakukan paralelisasi secara efisien. Inilah salah satu keunggulan arsitektural TensorFlow.
PT Riset Kecerdasan Digital memilih PyTorch dibandingkan Keras untuk proyek penelitian mereka yang memerlukan modifikasi arsitektur jaringan secara dinamis selama pelatihan. Pertimbangan utama di balik pilihan ini adalah…
PyTorch mengadopsi pendekatan define-by-run dengan graf komputasi dinamis, memungkinkan modifikasi arsitektur secara fleksibel selama eksekusi. Ini sangat menguntungkan dalam riset yang sering memerlukan eksperimentasi arsitektur.
Dalam Reinforcement Learning, Markov Decision Process (MDP) menyediakan kerangka matematis formal yang terdiri dari…
MDP didefinisikan oleh tuple (S, A, P, R, γ) yaitu ruang state, ruang aksi, probabilitas transisi, fungsi imbalan, dan faktor diskon. Elemen-elemen ini memformalkan lingkungan tempat agen beroperasi.
Agen RL menerima sinyal skalar +10 setelah mencapai tujuan dan -1 pada setiap langkah lainnya. Perbedaan mendasar antara sinyal imbalan ini dengan fungsi nilai terletak pada…
Imbalan (reward) adalah umpan balik langsung dari lingkungan untuk satu langkah. Nilai (value) memperkirakan total imbalan terdiskon yang dapat diperoleh agen dari state tertentu di masa depan, bersifat jangka panjang.
Perusahaan robotika mengembangkan lengan robot yang belajar mengambil objek melalui trial-and-error. Tim menggunakan algoritma yang mempelajari kebijakan secara langsung dengan mengoptimalkan gradien dari ekspektasi imbalan terhadap parameter kebijakan. Algoritma ini tergolong…
Policy Gradient mengoptimalkan kebijakan secara langsung melalui gradien ascending terhadap ekspektasi imbalan, tanpa mempelajari fungsi nilai aksi terlebih dahulu. Q-Learning, SARSA, dan DQN termasuk value-based methods yang mempelajari fungsi nilai terlebih dahulu.
Seorang peneliti RL menerapkan algoritma yang mempelajari fungsi nilai aksi optimal Q*(s,a) sambil mengikuti kebijakan eksplorasi epsilon-greedy, namun pembaruan nilai Q menggunakan aksi optimal (greedy) pada state berikutnya, bukan aksi yang benar-benar diambil. Algoritma ini disebut…
Q-Learning bersifat off-policy karena menggunakan aksi optimal max Q(s',a') dalam pembaruannya, terlepas dari aksi aktual yang diambil oleh kebijakan eksplorasi. SARSA bersifat on-policy karena menggunakan aksi yang benar-benar diambil.
DeepMind melatih agen untuk bermain game Atari langsung dari pixel layar menggunakan Deep Q-Network. Pendekatan ini menggabungkan Q-Learning dengan jaringan saraf dalam untuk mengatasi masalah utama yaitu…
Pada game Atari, state space berupa pixel layar sangat besar dan kontinu sehingga tidak mungkin disimpan dalam tabel Q. DQN menggunakan jaringan saraf sebagai function approximator untuk menggeneralisasi nilai Q ke state yang belum pernah dilihat.
Platform streaming 'NusantaraFlix' ingin meningkatkan retensi pengguna dengan merekomendasikan konten yang tidak hanya sesuai preferensi saat ini, tetapi juga mempertimbangkan urutan tontonan pengguna sepanjang sesi. Pendekatan RL cocok untuk tugas ini karena…
RL memandang rekomendasi sebagai proses sekuensial: setiap rekomendasi adalah aksi yang mempengaruhi state pengguna dan imbalan di masa depan. Ini memungkinkan sistem mengoptimalkan pengalaman jangka panjang, bukan sekadar klik instan.
Seorang insinyur machine learning sedang membangun sistem yang secara otomatis mengekstrak informasi kunci dari ribuan faktur digital yang memiliki format bervariasi. Sistem ini harus mampu memproses gambar faktur, mendeteksi area teks, mengenali karakter, dan akhirnya mengubahnya menjadi data terstruktur seperti JSON. Jika ia menggunakan pendekatan modular dengan komponen machine learning yang berbeda untuk setiap tahap, urutan pipeline yang paling tepat adalah…
Pendekatan modular untuk mengekstrak informasi dari dokumen gambar memerlukan urutan yang logis dan fungsional. Pertama, object detection digunakan untuk melokalisasi blok teks dalam gambar, karena teks harus ditemukan sebelum dapat dibaca. Selanjutnya, komponen Optical Character Recognition (OCR) memproses area yang terdeteksi untuk mengonversi gambar karakter menjadi teks mentah. Akhirnya, Named Entity Recognition (NER) memproses teks hasil OCR untuk mengekstrak entitas spesifik seperti nama perusahaan, tanggal faktur, total pembayaran, dan mengubahnya menjadi format terstruktur. Urutan ini mencerminkan alur logis dari data mentah ke informasi terstruktur.
Banyak yang ngerasa linear regression udah oke. Sampai ketemu polinomial di data yang sama. Langsung bingung milih derajat. Belum lagi KNN. Simpel sih. Tapi normalisasi datanya sering kelewat. Modul 4 ini emang jebakan. Nilai bagus di supervised learning tapi logika fiturnya masih acak.
UAS STDA4204 Machine Learning biasanya campur UTM dan UO. Soal preprocessing data sering muncul. Evaluasi model juga. Cross validation kadang bentuknya UO yang minta analisis. Kalau mau latihan beda ritme, cek bank soal Kimia Dasar 1 dulu. Siapa tahu cocok buat selingan.





