Baru belajar backpropagation, langsung disuruh turunin gradien manual. Modul 2 KB 1 memang terasa berat kalau baru pertama ketemu. Konsep loss function dan learning rate di STDA4404 Deep Learning bisa bikin kamu bolak-balik catatan. Saya dulu sempat stuck juga di situ. Coba intip prediksi soal UAS Sains Data untuk lihat pola soalnya.
Modul 3 soal CNN dan Modul 7 tentang Graph Neural Network sama menantangnya. Operasi konvolusi di CNN itu core-nya computer vision. Sementara message passing di GNN bikin paham cara data grafik diproses. Dua topik ini bertolak belakang tapi sering muncul. Jangan cuma baca teori. Kerjakan variasi soal dari kumpulan soal UAS UT buat ngetes pemahaman kamu.
Di halaman ini, soal-soal UAS sudah kami pecah per modul. Tiap soal ada kunci jawaban dan pembahasannya. Kamu bisa langsung tahu letak salahmu. Tidak perlu nebak-nebak lagi.
Soal UT STDA4404 Deep Learning
Sebuah perusahaan rintisan teknologi mengembangkan sistem yang dapat mengenali wajah dan memutuskan akses masuk gedung tanpa aturan yang diprogram secara eksplisit, melainkan belajar dari ribuan contoh foto…
Machine Learning adalah subset AI yang memungkinkan sistem belajar dari data tanpa diprogram secara eksplisit, tepat menggambarkan sistem yang belajar dari contoh foto.
Dalam hierarki kecerdasan buatan, deep learning memiliki karakteristik utama yang membedakannya dari machine learning konvensional, yaitu…
Deep learning menggunakan neural network dengan banyak lapisan untuk mempelajari representasi data secara hierarkis, dari fitur sederhana hingga kompleks.
Andi diminta membangun model yang memperkirakan harga rumah berdasarkan luas, lokasi, dan jumlah kamar. Data historis tersedia dalam jumlah sedang. Andi memilih neural network dua lapisan dan berhasil. Pilihan Andi paling tepat dikategorikan sebagai…
Dengan hanya dua lapisan, model ini tergolong shallow neural network yang masuk kategori machine learning konvensional, bukan deep learning yang memerlukan banyak lapisan.
Seorang peneliti menyatakan bahwa perkembangan deep learning saat ini sangat didorong oleh ketersediaan big data. Pernyataan yang paling tepat menjelaskan hubungan ini adalah…
Deep learning memiliki jutaan parameter yang memerlukan data besar agar dapat menggeneralisasi dengan baik; tanpa big data, model dalam cenderung overfitting.
Sistem diagnosa medis berbasis deep learning mampu mendeteksi kanker kulit dari foto dengan akurasi setara dokter spesialis. Aplikasi ini menggambarkan peran deep learning di bidang…
Deteksi kanker kulit dari citra medis merupakan contoh aplikasi deep learning dalam bidang kesehatan, khususnya diagnostik berbantuan AI.
Dalam perceptron, bobot dan bias memiliki peran krusial. Manakah pernyataan yang paling tepat tentang fungsi bias dalam neuron buatan…
Bias memungkinkan pergeseran ambang aktivasi; tanpa bias, neuron hanya dapat aktif jika kombinasi linear input melebihi nol, sehingga mengurangi fleksibilitas.
Seorang engineer melatih neural network dan mengamati bahwa konvergensi terjadi sangat cepat. Ia menggunakan fungsi aktivasi yang outputnya linear untuk input positif dan nol untuk input negatif. Fungsi aktivasi yang dimaksud adalah…
ReLU menghasilkan output nol untuk input negatif dan identitas linear untuk input positif, yang mempercepat konvergensi karena mengurangi vanishing gradient pada daerah positif.
Dibandingkan dengan fungsi aktivasi sigmoid, ReLU lebih disukai pada hidden layer jaringan dalam karena…
Sigmoid menjenuh pada nilai besar atau kecil sehingga gradien mendekati nol; ReLU bersifat linear pada daerah positif sehingga gradien tetap mengalir.
Ketika menghitung forward propagation pada neural network tiga lapisan, matriks bobot W^[2] menghubungkan…
Notasi W^[l] merepresentasikan bobot yang menghubungkan lapisan l-1 ke lapisan l. W^[2] menghubungkan lapisan tersembunyi pertama ke lapisan tersembunyi kedua.
Neuron buatan dalam deep learning terinspirasi dari neuron biologis, tetapi memiliki perbedaan mendasar. Perbedaan yang paling tepat adalah…
Neuron buatan menyederhanakan proses biologis: output berupa hasil fungsi aktivasi matematis, sedangkan neuron biologis menembakkan spike ketika potensial membran melampaui ambang.
Seorang mahasiswa ingin membangun model deep learning dengan cepat menggunakan API high-level yang modular. Ia perlu framework yang memungkinkan eksperimen cepat tanpa mengelola graph komputasi secara manual. Framework yang paling tepat adalah…
Keras adalah API high-level yang berjalan di atas TensorFlow, dirancang untuk membangun dan melatih model deep learning secara cepat dan modular dengan kode minimal.
Fitur dynamic computational graph menjadi keunggulan utama salah satu framework deep learning. Fitur ini memungkinkan perubahan graph saat runtime. Framework dengan karakteristik tersebut adalah…
PyTorch menggunakan dynamic computational graph yang dibangun saat runtime, memberikan fleksibilitas tinggi untuk debugging dan eksperimen, berbeda dengan static graph pada TensorFlow 1.x.
Peneliti deep learning sering memilih TensorFlow ketika deployment ke production environment menjadi prioritas, sementara PyTorch lebih populer untuk riset. Alasan utama preferensi ini adalah…
TensorFlow memiliki alat production-ready seperti TF Serving dan TF Lite, sementara PyTorch awalnya lebih fokus pada fleksibilitas riset meskipun kini juga berkembang ke arah deployment.
Lingkungan pengembangan berbasis cloud yang menyediakan GPU gratis dan terintegrasi dengan Google Drive untuk eksperimen deep learning adalah…
Google Colab adalah platform cloud yang menyediakan akses gratis ke GPU dan terintegrasi dengan Google Drive, memudahkan eksperimen deep learning tanpa investasi perangkat keras.
Data scientist di PT Maju Jaya memilih TensorFlow untuk proyek deployment model klasifikasi gambar ke aplikasi mobile. Pertimbangan paling tepat untuk pilihan ini adalah…
TensorFlow Lite memungkinkan konversi model deep learning ke format yang dioptimalkan untuk inferensi pada perangkat mobile dan embedded, menjadi alasan kuat memilih TensorFlow.
Dalam pelatihan neural network, fungsi loss berperan sebagai…
Fungsi loss mengukur error antara prediksi dan target; gradien dari fungsi loss terhadap parameter dihitung melalui backpropagation untuk memandu pembaruan bobot.
Ibu Siti melatih model pada dataset berukuran 2 juta sampel. Ia mengamati bahwa menggunakan satu sampel per pembaruan memberikan osilasi loss yang tinggi, sedangkan seluruh dataset terlalu lambat per epoch. Ia memilih mini-batch berukuran 64. Strategi ini dikenal sebagai…
Mini-batch SGD menggunakan sebagian kecil data untuk setiap pembaruan parameter, mengkompromikan kecepatan komputasi batch GD dan kestabilan SGD dengan satu sampel.
Perusahaan e-commerce melatih model neural network untuk memprediksi apakah pelanggan akan membeli produk tertentu. Mereka menggunakan fungsi loss yang mengukur selisih antara probabilitas prediksi dan label biner aktual. Fungsi loss yang paling tepat untuk kasus ini adalah…
Binary cross-entropy dirancang khusus untuk tugas klasifikasi biner dengan mengukur divergensi antara distribusi prediksi dan distribusi target bernilai 0 atau 1.
Budi mengimplementasikan backpropagation pada neural network tiga lapisan. Ia mengamati bahwa gradien terhadap bobot di lapisan pertama dihitung menggunakan aturan rantai yang melibatkan turunan fungsi aktivasi lapisan kedua dan ketiga. Proses ini menggambarkan bahwa backpropagation pada dasarnya…
Backpropagation bekerja mundur dari lapisan output ke input, mengaplikasikan aturan rantai untuk menghitung kontribusi setiap parameter terhadap error total.
Pada dataset berisi 500 ribu sampel, seorang praktisi membandingkan dua strategi: (1) menghitung gradien menggunakan seluruh dataset sebelum setiap pembaruan bobot, dan (2) menghitung gradien menggunakan satu sampel acak per pembaruan. Kelemahan utama strategi pertama dibandingkan strategi kedua adalah…
Batch gradient descent menggunakan seluruh dataset untuk satu kali pembaruan, sehingga setiap epoch sangat lambat pada dataset besar meskipun arah gradien lebih stabil.
Peneliti melatih neural network pada dataset dengan banyak local minima dangkal. Ia menambahkan teknik yang mempercepat konvergensi dengan mengakumulasi komponen eksponensial dari gradien sebelumnya, sehingga pembaruan parameter saat ini dipengaruhi oleh arah gradien historis. Teknik yang digunakan adalah…
Momentum mempertahankan vektor kecepatan yang mengakumulasi gradien masa lalu, membantu mempercepat optimasi pada arah yang konsisten dan meredam osilasi.
Sebuah tim menggunakan optimizer yang menghitung rata-rata bergerak eksponensial dari gradien dan kuadrat gradien, kemudian menggunakan kedua estimasi tersebut untuk menyesuaikan learning rate secara adaptif per parameter. Optimizer yang dimaksud adalah…
Adam menggabungkan konsep momentum (rata-rata bergerak gradien) dan RMSProp (rata-rata bergerak kuadrat gradien) sehingga menghasilkan learning rate adaptif yang efisien untuk setiap parameter.
Ibu Dewi mengamati bahwa loss modelnya berhenti menurun setelah 30 epoch. Ia kemudian menerapkan strategi mengurangi learning rate sebesar 50% setiap 10 epoch berikutnya. Strategi ini bertujuan untuk…
Penjadwalan learning rate membantu model melakukan penurunan gradien yang lebih presisi saat sudah mendekati titik optimum, sehingga dapat mencapai solusi yang lebih baik.
Ketika melatih model klasifikasi gambar, seorang engineer melihat bahwa training accuracy mencapai 99% sementara validation accuracy hanya 82%. Ia memutuskan menambahkan penalti berupa kuadrat bobot pada fungsi loss. Teknik yang diterapkan adalah…
Regularisasi L2 menambahkan suku penalti proporsional terhadap kuadrat bobot ke fungsi loss, mendorong bobot bernilai kecil untuk mencegah model terlalu kompleks dan overfitting.
Berbeda dengan L1 regularization yang dapat menghasilkan sparse weight, L2 regularization cenderung menghasilkan bobot yang…
L2 regularization menghukum kuadrat bobot sehingga mendorong bobot mendekati nol tanpa membuatnya tepat nol, berbeda dari L1 yang dapat menghasilkan sparsitas.
PT Visi Nusantara mengembangkan model deep learning dengan arsitektur 20 lapisan. Engineer mengamati bahwa neuron-neuron di lapisan tertentu menjadi sangat bergantung pada neuron lain, sehingga fitur yang dipelajari tidak independen. Teknik regularisasi yang paling tepat untuk mengatasi masalah ini adalah…
Dropout secara acak menonaktifkan neuron selama pelatihan, memaksa setiap neuron belajar fitur yang berguna secara independen tanpa terlalu bergantung pada kehadiran neuron spesifik lain.
Seorang mahasiswa melatih model neural network dan memantau validation loss. Ia menghentikan pelatihan tepat saat validation loss mulai meningkat secara konsisten meskipun training loss terus menurun. Teknik yang ia terapkan berguna untuk…
Early stopping menghentikan pelatihan sebelum model mulai overfitting, yaitu saat performa pada data validasi memburuk sementara training loss terus membaik.
Untuk memproses gambar 32×32 piksel pada CNN, Siti menggunakan filter berukuran 5×5 yang digeser dengan stride 1 tanpa padding. Operasi matematika yang terjadi di setiap posisi filter disebut…
Operasi konvolusi menggeser filter pada input dan menghitung dot product antara nilai filter dan patch lokal input untuk menghasilkan peta fitur.
Pada arsitektur CNN, setelah melewati lapisan konvolusi pertama, gambar 28×28 menghasilkan 6 feature map berukuran 24×24. Feature map ini merepresentasikan…
Setiap feature map adalah hasil deteksi satu jenis fitur tertentu (misal tepi horizontal) pada berbagai lokasi spasial, dengan nilai aktivasi menunjukkan seberapa kuat fitur tersebut hadir.
Setelah lapisan konvolusi, praktisi menambahkan operasi downsampling yang memilih nilai terbesar dalam window 2×2 dan mengurangi dimensi spasial menjadi setengahnya. Operasi ini bertujuan untuk…
Max pooling mereduksi ukuran spasial dengan mempertahankan fitur paling dominan, membuat representasi lebih ringkas dan memberikan toleransi terhadap pergeseran posisi objek.
Wahyu membandingkan max pooling dan average pooling pada CNN untuk tugas klasifikasi tekstur halus. Ia membutuhkan operasi pooling yang mempertahankan informasi latar belakang secara lebih merata. Operasi yang lebih tepat untuk kasus ini adalah…
Average pooling menghitung rata-rata semua nilai dalam window, sehingga informasi latar yang lebih halus dan menyebar tetap dipertahankan, cocok untuk tekstur.
Tim riset menghadapi masalah degradasi performa saat menambah lapisan CNN dari 30 menjadi 80 lapisan, di mana training error justru meningkat. Untuk mengatasi ini, mereka menggunakan arsitektur dengan koneksi yang memungkinkan sinyal langsung melompati satu atau beberapa lapisan. Arsitektur yang dimaksud adalah…
ResNet memperkenalkan residual connection yang memungkinkan gradient dan sinyal mengalir langsung melalui identity mapping, mengatasi masalah degradasi pada jaringan sangat dalam.
PT Citra Nusa memiliki dataset hanya 2.000 gambar untuk tugas klasifikasi 50 kategori. Mereka memutuskan menggunakan model ResNet-50 yang telah dilatih pada ImageNet, lalu hanya melatih ulang fully connected layer terakhir pada dataset mereka. Pendekatan ini disebut…
Feature extraction dalam transfer learning memanfaatkan representasi yang sudah dipelajari model pretrained sebagai feature extractor tetap, kemudian hanya melatih classifier baru sesuai dataset target.
Setelah menggunakan feature extraction dari model pretrained, tim mengamati bahwa akurasi masih dapat ditingkatkan. Mereka memutuskan untuk melatih ulang tidak hanya classifier tetapi juga beberapa lapisan konvolusi terakhir dengan learning rate sangat kecil. Proses ini dikenal sebagai…
Fine-tuning membuka kembali pelatihan pada lapisan tertentu dari model pretrained dengan learning rate kecil, sehingga representasi fitur dapat disesuaikan secara lebih spesifik terhadap dataset target.
PT Andromeda memiliki 150 ribu gambar produk yang perlu diklasifikasi ke dalam 30 kategori, tetapi hanya memiliki dua GPU konsumen untuk pelatihan. Tim memutuskan menggunakan arsitektur yang sudah terbukti pada ImageNet tanpa melatih dari nol. Strategi ini paling tepat disebut…
Menggunakan model yang sudah dilatih pada dataset besar sebagai titik awal untuk tugas baru dengan data terbatas merupakan definisi transfer learning.
Setelah menerapkan transfer learning, engineer di PT Andromeda mengamati bahwa akurasi pada data edge case masih rendah. Ia memutuskan melatih ulang seluruh lapisan konvolusi terakhir bersama classifier dengan learning rate 1e-5, sementara lapisan awal dibiarkan beku. Proses ini dikenal sebagai…
Melatih ulang sebagian atau seluruh lapisan model pretrained pada dataset target untuk menyesuaikan representasi fitur dengan tugas spesifik disebut fine-tuning.
Sebuah startup mengembangkan aplikasi yang menerima unggahan foto makanan dan langsung memberikan label seperti 'gado-gado', 'rendang', atau 'soto' beserta estimasi kalori. Tugas utama yang dilakukan sistem ini pada tahap pertama adalah…
Menetapkan label kelas tunggal pada gambar masukan berdasarkan fitur visual yang diekstraksi merupakan definisi klasifikasi gambar.
Tim drone pertanian menggunakan model CNN untuk memproses video lahan sawah secara real-time. Model harus mendeteksi keberadaan dan posisi tepat hama wereng dalam setiap frame dengan kecepatan 30 fps. Algoritma yang membagi frame menjadi grid dan memprediksi bounding box dalam satu forward pass paling cocok untuk kebutuhan ini…
YOLO membagi gambar menjadi grid dan langsung memprediksi bounding box serta probabilitas kelas dalam satu forward pass, sehingga cocok untuk deteksi objek real-time.
Klinik radiologi menggunakan model deep learning untuk mengidentifikasi area tumor pada hasil CT scan pasien. Model harus memberikan label 'tumor' atau 'non-tumor' pada setiap piksel gambar agar dokter mengetahui batas tumor secara presisi. Tugas yang dilakukan model ini adalah…
Segmentasi semantik menetapkan label kelas pada setiap piksel gambar untuk memahami batas objek secara presisi pada level piksel.
Meskipun sama-sama tugas computer vision, klasifikasi gambar dan deteksi objek memiliki perbedaan mendasar. Deteksi objek menghasilkan output yang tidak dimiliki oleh klasifikasi gambar murni, yaitu…
Deteksi objek menghasilkan bounding box yang menunjukkan lokasi spasial objek, sementara klasifikasi gambar hanya menghasilkan label kelas tanpa informasi lokasi.
Data time series harga saham harian memiliki karakteristik bahwa harga hari ini berkorelasi dengan harga beberapa hari sebelumnya. Arsitektur neural network yang secara inheren mempertahankan hidden state dari langkah waktu sebelumnya untuk menangkap ketergantungan temporal ini adalah…
RNN memiliki koneksi umpan balik yang mempertahankan hidden state, sehingga secara inheren cocok untuk memproses data dengan ketergantungan temporal.
Budi melatih RNN pada data teks sepanjang 150 token. Selama pelatihan, ia mengamati bahwa model gagal menangkap hubungan antara kata di awal kalimat dan prediksi di akhir. Fenomena ini terjadi karena gradien menjadi sangat kecil saat dipropagasi mundur melalui banyak langkah waktu. Masalah ini dikenal sebagai…
Vanishing gradient problem terjadi ketika gradien menjadi sangat kecil saat dipropagasi balik melalui banyak langkah waktu, sehingga menghambat pembelajaran ketergantungan jangka panjang pada RNN.
Dalam memahami suatu kalimat, informasi dari kata sebelum dan sesudah sama-sama penting. Namun RNN standar hanya memproses sekuens dari satu arah. Untuk menangkap konteks dua arah, pendekatan yang membentangkan RNN menjadi jaringan feedforward sepanjang langkah waktu dan memungkinkan propagasi balik disebut…
Unrolling waktu adalah representasi RNN sebagai jaringan feedforward yang dibentang sepanjang langkah waktu untuk memungkinkan propagasi balik melalui waktu selama pelatihan.
Arsitektur RNN dan CNN memiliki perbedaan fundamental dalam memproses data. Manakah pernyataan yang paling tepat membedakan keduanya…
Perbedaan mendasar terletak pada mekanisme pemrosesan: RNN menggunakan koneksi umpan balik dan hidden state untuk data sekuensial, sedangkan CNN menggunakan filter konvolusi untuk data spasial.
PT Prediksi Cuaca melatih model untuk memprediksi suhu 7 hari ke depan berdasarkan data suhu 30 hari terakhir. Tim menginginkan model yang dapat menangkap ketergantungan jangka panjang tanpa menderita vanishing gradient. Model yang paling tepat untuk kebutuhan ini adalah…
LSTM menggunakan mekanisme gerbang untuk mengontrol aliran informasi sehingga dapat menangkap ketergantungan jangka panjang tanpa vanishing gradient, cocok untuk prediksi time series dengan horizon jauh.
GRU menyederhanakan arsitektur LSTM dengan menggabungkan forget gate dan input gate menjadi satu gerbang. Gerbang hasil penggabungan ini disebut…
GRU menggabungkan forget gate dan input gate dari LSTM menjadi update gate, sehingga lebih efisien secara komputasi dengan tetap mempertahankan kemampuan menangkap ketergantungan jangka panjang.
Seorang engineer membandingkan LSTM dan GRU untuk tugas klasifikasi teks dengan dataset besar. Ia mengamati bahwa GRU mencapai performa hampir setara LSTM tetapi dengan waktu pelatihan 20% lebih cepat. Alasan utama efisiensi ini adalah…
GRU memiliki lebih sedikit parameter dibandingkan LSTM karena menggabungkan forget dan input gate menjadi update gate, sehingga lebih efisien secara komputasi.
Analis sentimen di platform e-commerce ingin model yang memahami konteks kata dari dua arah — sebelum dan sesudah — untuk setiap token dalam ulasan produk. Konfigurasi yang tepat adalah menggunakan…
Bidirectional RNN memproses data sekuensial dari dua arah untuk menangkap konteks masa lalu dan masa depan pada setiap langkah waktu.
Tim riset bahasa membangun sistem yang menerima kalimat bahasa Indonesia dan menghasilkan kalimat bahasa Inggris sebagai output. Arsitektur yang memetakan satu urutan input ke urutan output dengan panjang berbeda melalui encoder dan decoder disebut…
Sequence-to-sequence model menggunakan arsitektur encoder-decoder untuk memetakan satu urutan input ke urutan output dengan panjang yang dapat berbeda, umum digunakan dalam terjemahan mesin.
Klasifikasi teks dan sequence-to-sequence model sama-sama menggunakan arsitektur sekuensial, tetapi memiliki perbedaan utama. Perbedaan yang paling tepat adalah…
Klasifikasi teks menghasilkan satu label untuk seluruh input, sedangkan sequence-to-sequence menghasilkan urutan output yang panjangnya dapat berbeda dari input, seperti pada terjemahan.
PT Sentra Analitika menggunakan model deep learning untuk memprediksi skor kepuasan pelanggan berdasarkan ulasan teks. Mereka ingin model yang tidak hanya mengklasifikasikan sentimen, tetapi juga menghasilkan ringkasan poin keluhan utama dalam bentuk teks berbeda. Arsitektur yang paling sesuai untuk menghasilkan keluaran teks dari masukan teks dengan panjang berbeda adalah…
Sequence-to-sequence model memetakan satu urutan input ke urutan output dengan panjang yang bisa berbeda, seperti pada kasus peringkasan atau terjemahan.
Dalam mesin penerjemah, saat menghasilkan kata kelima dalam kalimat target, model perlu memberikan perhatian lebih pada kata kedua dan ketiga dalam kalimat sumber karena keduanya membawa informasi subjek dan predikat utama. Mekanisme yang memungkinkan model memberikan bobot berbeda pada setiap elemen input saat menghasilkan setiap elemen output adalah…
Attention mechanism memberi bobot berbeda pada setiap elemen input sesuai relevansinya terhadap elemen output yang sedang dihasilkan, sehingga model dapat fokus pada bagian input yang paling informatif.
Sebuah tim NLP mengimplementasikan mekanisme yang menghitung representasi kata 'bank' dalam kalimat 'Saya menabung di bank' dengan memperhatikan semua kata lain dalam kalimat yang sama, termasuk 'menabung' dan 'Saya'. Mekanisme yang digunakan adalah…
Self-attention menghitung representasi setiap elemen dalam sekuens dengan memperhatikan semua elemen lain dalam sekuens yang sama, menangkap hubungan internal antar token.
Untuk menangkap berbagai jenis hubungan kontekstual seperti hubungan sintaksis, semantik, dan koreferensi secara simultan dalam satu lapisan, arsitektur Transformer menerapkan beberapa operasi attention yang berjalan paralel. Komponen yang dimaksud adalah…
Multi-head attention menjalankan beberapa operasi self-attention secara paralel dengan parameter berbeda, memungkinkan model menangkap berbagai jenis hubungan kontekstual secara bersamaan.
Dalam mekanisme self-attention, matriks perhatian dihitung menggunakan query, key, dan value yang semuanya berasal dari input yang sama. Berbeda dengan itu, cross-attention menggunakan query dari satu sekuens dan key-value dari sekuens lain. Perbedaan utama ini menjadikan self-attention paling tepat untuk…
Self-attention menggunakan query, key, dan value dari sekuens yang sama, sehingga secara fundamental cocok untuk menangkap hubungan internal antar token dalam satu rangkaian.
Arsitektur Transformer tidak menggunakan rekurensi atau konvolusi dalam pemrosesan utamanya. Konsekuensi dari ketiadaan struktur sekuensial inheren ini adalah Transformer membutuhkan positional encoding. Fungsi paling mendasar dari positional encoding adalah…
Karena Transformer tidak memiliki struktur sekuensial inheren seperti RNN, positional encoding menyisipkan informasi posisi setiap token agar model dapat membedakan urutan elemen dalam sekuens.
PT Nusa Bahasa mengembangkan sistem terjemahan mesin real-time. Tim memilih Transformer dibandingkan LSTM karena kemampuannya memproses seluruh sekuens secara paralel. Keuntungan utama arsitektur Transformer dibandingkan LSTM dalam konteks ini adalah…
Transformer menggunakan self-attention yang memungkinkan setiap token berinteraksi langsung dengan semua token lain tanpa propagasi gradien melalui langkah waktu, mengatasi vanishing gradient dan memungkinkan paralelisasi penuh.
Sebelum masuk ke lapisan self-attention, setiap token input diproyeksikan menjadi representasi vektor melalui word embedding. Namun Transformer juga menambahkan komponen lain pada embedding ini untuk memberikan informasi urutan. Komponen tersebut adalah…
Positional encoding ditambahkan ke word embedding untuk memberikan informasi posisi setiap token, karena Transformer tidak memiliki struktur sekuensial inheren yang dapat menangkap urutan.
Setelah setiap sublayer dalam Transformer (self-attention dan feed-forward), terdapat teknik normalisasi yang menormalkan input di setiap lapisan berdasarkan statistik fitur, bukan berdasarkan batch. Teknik ini adalah…
Layer normalization menghitung statistik normalisasi berdasarkan dimensi fitur untuk setiap sampel secara independen, berbeda dengan batch normalization yang menggunakan statistik batch, sehingga lebih cocok untuk model sekuensial dengan panjang batch bervariasi.
Google mengembangkan model bahasa yang dilatih dengan masked language modeling, di mana sebagian token dalam input disembunyikan dan model harus memprediksinya berdasarkan konteks dua arah. Model pretrained yang dimaksud adalah…
BERT dilatih dengan masked language modeling yang memungkinkan model memanfaatkan konteks dari kedua arah secara simultan, berbeda dengan GPT yang bersifat autoregresif dan searah.
Tim riset di PT Bahasa Nusa akan membangun model untuk klasifikasi sentimen ulasan produk berbahasa Indonesia dengan dataset hanya 5.000 contoh berlabel. Mereka menggunakan BERT multilingual yang sudah dilatih pada korpus besar dan hanya melatih ulang lapisan task-specific pada dataset sentimen. Proses ini disebut…
Fine-tuning BERT adalah proses menyesuaikan model BERT pretrained pada tugas spesifik dengan menambahkan lapisan task-specific dan melatih ulang pada dataset downstream, memanfaatkan pengetahuan linguistik yang sudah diperoleh selama pretraining.
ChatGPT dan model generatif sejenis menghasilkan teks kata demi kata secara sekuensial, di mana setiap token baru diprediksi berdasarkan token-token sebelumnya. Arsitektur yang mendasari model generatif ini adalah Transformer decoder yang dilatih secara…
GPT menggunakan arsitektur Transformer decoder yang dilatih secara autoregresif, memprediksi token berikutnya berdasarkan token-token sebelumnya, sehingga cocok untuk tugas generasi teks.
Model BERT dan GPT memiliki arah konteks yang berbeda dalam memahami teks. Perbedaan mendasar ini memengaruhi kesesuaian keduanya untuk tugas tertentu. Manakah pernyataan yang paling tepat mengenai perbedaan ini…
BERT memanfaatkan konteks dua arah melalui masked language modeling, sementara GPT bersifat autoregresif dan hanya memproses teks searah dari kiri ke kanan, memprediksi token berikutnya.
Sebuah sistem keamanan dilatih dengan autoencoder untuk merekonstruksi transaksi normal. Saat inferensi, transaksi penipuan yang sangat berbeda dari pola normal menghasilkan reconstruction error tinggi. Aplikasi ini memanfaatkan autoencoder untuk tugas…
Autoencoder yang dilatih hanya pada data normal akan menghasilkan reconstruction error rendah untuk data normal dan error tinggi untuk data anomali, sehingga efektif untuk deteksi anomali.
Ketika melatih Variational Autoencoder (VAE), komponen stokastik pada node sampling di ruang laten menghalangi aliran gradien selama backpropagation. Teknik yang memisahkan komponen stokastik dari parameter deterministik agar gradien tetap dapat mengalir adalah…
Reparameterization trick memindahkan komponen stokastik sampling ke variabel noise terpisah sehingga gradien dapat mengalir melalui parameter deterministik (mean dan variansi) selama pelatihan VAE.
Autoencoder standar dan Variational Autoencoder (VAE) belajar merepresentasikan data dalam ruang laten, tetapi dengan pendekatan berbeda. Perbedaan utama VAE dibandingkan autoencoder standar adalah…
VAE mempelajari parameter distribusi probabilistik (mean dan variansi) pada ruang laten, memungkinkan sampling dan generasi data baru, sedangkan autoencoder standar hanya memetakan input ke satu titik tetap di ruang laten.
PT Kreatif Visual ingin menghasilkan wajah sintetis yang variatif dan realistis untuk aplikasi game. Tim memilih VAE karena kemampuannya menghasilkan sampel baru melalui sampling dari distribusi laten. Proses sampling dalam VAE dimungkinkan oleh…
VAE menggunakan regularisasi KL divergence untuk membentuk ruang laten yang kontinu dan terstruktur, sehingga setiap titik yang disampling dari distribusi laten dapat di-decode menjadi sampel yang valid dan variatif.
Dalam pelatihan GAN, generator dan discriminator terlibat dalam permainan minimax dua pemain. Discriminator bertugas untuk…
Discriminator adalah klasifikator biner yang bertujuan membedakan sampel asli dari sampel palsu buatan generator secara akurat.
Tim riset PT Visual Nusa melatih GAN untuk menghasilkan gambar wajah. Setelah 500 epoch, mereka mengamati bahwa generator hanya menghasilkan tiga variasi wajah saja meskipun input noise berbeda-beda. Fenomena kegagalan pelatihan GAN ini disebut…
Mode collapse terjadi ketika generator menghasilkan variasi output yang sangat terbatas dan gagal menangkap seluruh keragaman distribusi data asli.
Dalam arsitektur DCGAN, beberapa modifikasi dilakukan pada GAN standar untuk menstabilkan pelatihan. Salah satu modifikasi kunci pada generator DCGAN adalah…
DCGAN menggunakan transposed convolution dengan stride untuk upsampling secara learned, menggantikan pooling yang bersifat fixed.
PT Animasi Kreatif menghadapi ketidakstabilan saat melatih GAN: loss generator dan discriminator berfluktuasi liar, dan gambar yang dihasilkan kadang realistis kadang tidak. Masalah ini paling tepat diatasi dengan…
Gradient penalty (WGAN-GP) dan spectral normalization adalah teknik yang dirancang untuk menstabilkan pelatihan GAN dengan mengontrol Lipschitz constraint discriminator.
Startup Kreativa menggunakan GAN untuk menambah variasi dataset gambar produk yang hanya berjumlah 500 sampel. Dengan menghasilkan sampel sintetis yang realistis, akurasi model klasifikasi pada data uji meningkat signifikan. Pendekatan ini merupakan contoh…
Menggunakan model generatif untuk memperbesar dataset pelatihan dengan sampel sintetis baru termasuk dalam data augmentation berbasis generatif.
Diffusion model menghasilkan gambar melalui proses yang berbeda dengan GAN. Berbeda dengan GAN yang langsung menghasilkan gambar dari noise, diffusion model…
Diffusion model bekerja dengan mempelajari denoising bertahap—membalikkan proses difusi yang menambahkan noise pada data secara bertahap.
Konten deepfake yang dihasilkan AI, seperti video wajah seseorang ditumpangkan pada tubuh orang lain, menimbulkan masalah etika serius. Akar permasalahan etika ini paling mendasar terletak pada…
Masalah etika utama deepfake bersumber dari realisme konten sintetis yang dapat menipu persepsi manusia dan berpotensi disalahgunakan untuk disinformasi.
Model generatif dapat menghasilkan gambar resolusi tinggi yang tidak dapat dibedakan dari foto asli. Berdasarkan pemahaman tentang generative deep learning, model ini pada dasarnya mempelajari…
Model generatif mempelajari distribusi probabilitas data latih, memungkinkannya menghasilkan sampel baru yang mengikuti pola distribusi tersebut.
PT Data Sejahtera memiliki data tabular pelanggan dengan 25 fitur, termasuk variabel kategorikal 'kota' dengan 500 nilai unik. Tim menggunakan embedding untuk merepresentasikan variabel 'kota' dalam neural network. Keunggulan utama embedding dibandingkan one-hot encoding untuk kasus ini adalah…
Embedding memetakan kategori ke vektor dense berdimensi rendah yang dipelajari selama pelatihan, menangkap hubungan semantik dan menghindari kutukan dimensi dari one-hot encoding.
Pada kompetisi data tabular, peserta sering mengamati bahwa XGBoost mengungguli neural network fully connected pada dataset dengan fitur numerik dan kategorikal terstruktur. Alasan utama fenomena ini adalah…
Model berbasis pohon unggul pada data tabular karena kemampuannya menangani fitur campuran, invarian terhadap skala, dan secara natural memodelkan interaksi non-linier.
Ibu Ratna membangun model klasifikasi pada dataset tabular 10 ribu sampel dengan 80 fitur numerik dan 10 fitur kategorikal. Ia menggunakan arsitektur fully connected network. Untuk memproses fitur kategorikal sebelum masuk ke dense layer, pendekatan yang tepat adalah…
Embedding layer memproses fitur kategorikal menjadi representasi dense yang dipelajari, kemudian digabungkan dengan fitur numerik sebelum masuk lapisan fully connected.
Seorang data scientist menyatakan bahwa deep learning pada data tabular sering kalah bersaing dengan gradient boosting. Namun deep learning dapat unggul ketika…
Deep learning unggul pada data dengan struktur kompleks dan dimensi tinggi di mana representasi hierarkis yang dipelajari dapat menangkap pola yang sulit dimodelkan pohon keputusan.
Perusahaan media sosial menggunakan Graph Convolutional Network (GCN) untuk mempelajari representasi pengguna berdasarkan jaringan pertemanan. Dalam satu lapisan GCN, representasi seorang pengguna diperbarui dengan…
GCN memperbarui representasi node dengan menggabungkan fitur node itu sendiri dan fitur node tetangga melalui operasi agregasi berbobot pada graf.
Tim bioinformatika memodelkan interaksi protein menggunakan Graph Neural Network. Mereka memilih GraphSAGE dibandingkan GCN karena graf protein mereka sangat besar dan padat. Keunggulan utama GraphSAGE dalam skenario ini adalah…
GraphSAGE menggunakan sampling tetangga untuk menghasilkan minibatch yang efisien, memungkinkan pelatihan pada graf besar tanpa memproses seluruh adjacency matrix.
Dalam kerangka message passing yang mendasari banyak GNN, setiap node melakukan dua langkah utama di setiap lapisan. Dua langkah tersebut adalah…
Message passing terdiri dari langkah message (menerima informasi dari tetangga) dan update (memperbarui representasi node dengan agregasi informasi tersebut).
CNN memproses data pada grid terstruktur seperti piksel gambar, sedangkan GNN memproses data pada graf dengan struktur tidak teratur. Perbedaan fundamental ini menyebabkan GNN menggunakan…
Tidak seperti grid terstruktur pada CNN, graf tidak memiliki struktur tetap sehingga GNN menggunakan agregasi dari tetangga yang berbeda-beda untuk setiap node.
Dalam proyek sistem rekomendasi film, tim menggunakan dataset yang berisi poster film dan sinopsis teks. Mereka ingin model memahami hubungan semantik antara konten visual poster dan deskripsi teks dalam ruang representasi bersama, sehingga model dapat merekomendasikan film berdasarkan kemiripan multimodal. Arsitektur yang paling sesuai untuk mempelajari ruang embedding bersama antara gambar dan teks adalah…
CLIP dirancang khusus untuk menghubungkan gambar dan teks dalam ruang embedding bersama melalui contrastive learning, sehingga representasi gambar dan teks yang semantik mirip akan berdekatan dalam ruang tersebut.
Startup Edutech membangun asisten pembelajaran yang dapat menjawab pertanyaan siswa tentang diagram dan teks dalam buku pelajaran. Model perlu memahami hubungan antara gambar diagram dan pertanyaan teks untuk menghasilkan jawaban akurat. Teknik mengintegrasikan representasi dari encoder gambar dan encoder teks untuk tugas ini disebut…
Fusi data teks dan gambar adalah teknik menggabungkan representasi dari encoder teks dan encoder gambar untuk melakukan tugas yang membutuhkan pemahaman kedua modalitas, seperti visual question answering pada kasus ini.
Tim riset membandingkan pendekatan unimodal dan multimodal untuk tugas klasifikasi sentimen. Model unimodal hanya menggunakan teks ulasan, sedangkan model multimodal menambahkan gambar produk. Manakah yang paling tepat menjadi keunggulan pendekatan multimodal dalam konteks ini…
Pendekatan multimodal mengintegrasikan informasi dari berbagai sumber; dalam kasus ini, gambar dapat memberikan informasi komplementer (misalnya kondisi produk) yang tidak tersampaikan dalam teks ulasan.
Dalam mendesain model multimodal untuk asisten medis yang memproses gambar X-ray dan laporan teks dokter, tim mempertimbangkan dua strategi fusi: early fusion yang menggabungkan fitur mentah sebelum pemrosesan dalam, dan late fusion yang menggabungkan representasi tingkat tinggi setelah pemrosesan terpisah. Perbedaan utama antara kedua strategi ini terletak pada…
Early fusion menggabungkan data mentah atau fitur awal sebelum diproses oleh model, sedangkan late fusion memproses tiap modalitas secara terpisah lalu menggabungkan representasi tingkat tinggi atau keputusan akhir dari masing-masing encoder.
PT Mobil Cerdas mengembangkan sistem deteksi objek untuk kendaraan otonom. Model deep learning mereka berukuran 250 MB dengan presisi floating-point 32-bit, namun inferensi pada perangkat edge hanya mencapai 8 fps, di bawah kebutuhan minimal 30 fps. Teknik kompresi yang mengurangi presisi numerik bobot ke representasi lebih rendah tanpa mengubah arsitektur model adalah…
Quantization mengurangi presisi numerik bobot (misalnya dari float32 ke int8) untuk mempercepat inferensi dan mengurangi ukuran model, cocok untuk deployment pada perangkat dengan sumber daya terbatas.
Sebuah tim mengembangkan model di PyTorch tetapi klien membutuhkan model dalam format yang dapat dijalankan di TensorFlow Lite untuk perangkat Android. Format standar terbuka yang memungkinkan konversi model antar framework deep learning adalah…
ONNX (Open Neural Network Exchange) adalah format standar terbuka yang dirancang untuk interoperabilitas antar framework deep learning, memungkinkan model dikonversi dan dideploy di berbagai platform.
Perusahaan logistik mengembangkan model prediksi waktu pengiriman berbasis deep learning. Setelah deployment melalui REST API, tim perlu memantau apakah akurasi model menurun seiring waktu karena perubahan pola data. Praktik yang paling tepat untuk menjaga kualitas model di lingkungan produksi adalah…
Model di lingkungan produksi dapat mengalami degradasi performa akibat data drift; pemantauan berkelanjutan memungkinkan deteksi dini dan pelatihan ulang untuk mempertahankan akurasi.
PT Fintech Sejahtera mengembangkan model klasifikasi risiko kredit yang perlu melayani 1000 permintaan inferensi per detik dengan latensi di bawah 50 ms. Tim memutuskan menggunakan TensorFlow Lite dengan quantization int8 dibandingkan model PyTorch full precision. Kompromi utama dari pendekatan ini adalah…
Quantization mengorbankan presisi numerik bobot untuk mendapatkan inferensi lebih cepat dan model lebih kecil; pada banyak kasus penurunan akurasi minimal, namun tetap merupakan trade-off yang harus dievaluasi.
Bank Nusantara mengimplementasikan model deep learning untuk penilaian kelayakan kredit. Setelah beberapa bulan, tim audit menemukan bahwa model secara sistematis memberikan skor lebih rendah kepada pemohon dari daerah tertentu meskipun profil finansial mereka setara dengan daerah lain. Masalah etika AI yang paling tepat menggambarkan situasi ini adalah…
Bias terjadi ketika model menghasilkan perlakuan tidak adil terhadap kelompok tertentu berdasarkan atribut sensitif seperti asal daerah, meskipun variabel finansial setara; ini merupakan isu fairness yang krusial dalam AI.
Rumah sakit di beberapa kota berencana mengembangkan model diagnosa berbasis deep learning menggunakan data medis pasien dari masing-masing rumah sakit. Mereka khawatir tentang regulasi privasi yang melarang pengumpulan data pasien ke server pusat. Paradigma pelatihan yang memungkinkan setiap rumah sakit melatih model secara lokal dan hanya berbagi pembaruan model teragregasi adalah…
Federated learning melatih model secara terdistribusi di perangkat atau server lokal masing-masing, dan hanya pembaruan model (bukan data mentah) yang dikirim ke server pusat untuk agregasi, menjaga privasi data.
Tim produk ingin memahami mengapa model deep learning mereka memprediksi pelanggan tertentu akan churn. Mereka membutuhkan metode yang dapat menjelaskan kontribusi setiap fitur input terhadap keputusan model. Seperangkat metode dan teknik untuk membuat keputusan model dapat dipahami manusia disebut…
Explainable AI (XAI) mencakup berbagai metode seperti SHAP dan LIME yang bertujuan menginterpretasikan dan menjelaskan keputusan model machine learning agar dapat dipahami manusia.
Platform media sosial menggunakan model deep learning untuk menyaring konten. Tim etika mengamati bahwa model lebih sering salah mengklasifikasi konten dalam bahasa daerah sebagai konten negatif dibandingkan konten dalam bahasa Indonesia baku. Setelah diselidiki, data pelatihan didominasi oleh konten bahasa Indonesia baku. Prinsip keadilan dalam AI yang dilanggar berkaitan dengan…
Fairness dalam AI menuntut model tidak mendiskriminasi kelompok tertentu; ketimpangan representasi data pelatihan dapat menyebabkan model bias terhadap kelompok underrepresented seperti penutur bahasa daerah.
Perusahaan teknologi besar baru-baru ini merilis model berskala sangat besar yang dilatih pada data teks dan gambar dalam jumlah masif menggunakan self-supervision. Model ini dapat diadaptasi ke berbagai tugas seperti penerjemahan, penjawaban pertanyaan, dan pembuatan gambar hanya dengan sedikit fine-tuning. Model semacam ini dalam tren riset deep learning disebut…
Foundation model adalah model berskala besar yang dilatih pada data luas dengan self-supervision dan dapat diadaptasi ke berbagai tugas hilir tanpa pelatihan ulang penuh, menjadi paradigma dominan dalam riset AI terkini.
Tim riset memiliki dataset 1 juta gambar tanpa label dan ingin melatih model untuk mempelajari representasi visual yang bermakna tanpa anotasi manual. Paradigma pelatihan yang memanfaatkan struktur internal data itu sendiri untuk menghasilkan sinyal pengawasan disebut…
Self-supervised learning menciptakan sinyal pengawasan dari struktur data itu sendiri (misalnya memprediksi bagian tersembunyi dari input) sehingga tidak memerlukan label manual, sangat berguna untuk memanfaatkan data tidak berlabel dalam jumlah besar.
Startup AI ingin menemukan arsitektur neural network optimal untuk tugas klasifikasi gambar pada perangkat mobile dengan batasan latensi dan ukuran model yang ketat. Mereka tidak ingin mendesain arsitektur secara manual. Teknik otomatisasi yang menggunakan algoritma optimasi untuk mencari arsitektur terbaik dalam ruang pencarian yang telah ditentukan adalah…
Neural Architecture Search (NAS) mengotomatiskan proses pencarian arsitektur neural network optimal dengan mengeksplorasi ruang arsitektur menggunakan algoritma seperti reinforcement learning atau evolutionary search.
Peneliti di universitas membandingkan dua paradigma pelatihan untuk tugas klasifikasi gambar medis dengan dataset berlabel sangat terbatas. Paradigma pertama menggunakan label manual yang tersedia, sedangkan paradigma kedua memanfaatkan pretext task seperti memprediksi rotasi gambar untuk belajar representasi sebelum fine-tuning dengan label. Paradigma kedua termasuk dalam kategori…
Self-supervised learning menggunakan pretext task (seperti memprediksi rotasi) yang sinyal pengawasannya berasal dari data itu sendiri, memungkinkan pembelajaran representasi tanpa label manual sebelum fine-tuning pada tugas utama dengan sedikit label.
Seorang insinyur ingin menerapkan teknik kompresi model untuk mengurangi latensi pada perangkat edge tanpa mengubah arsitektur model secara signifikan…
Kuantisasi pasca-pelatihan adalah teknik kompresi model yang mengurangi presisi numerik bobot (misalnya dari float32 ke int8) tanpa memerlukan perubahan arsitektur atau pelatihan ulang yang signifikan. Teknik ini sangat sesuai untuk deployment di perangkat edge karena secara langsung mengurangi ukuran model dan mempercepat inferensi. Distilasi pengetahuan memerlukan pelatihan model siswa yang lebih kecil, pruning terstruktur mengubah arsitektur dengan menghilangkan neuron/filter, dan konversi ONNX adalah langkah persiapan deployment, bukan teknik kompresi itu sendiri.
Banyak yang lancar di bagian CNN, tapi keteteran begitu masuk Attention Mechanism. Modul 5 itu jebakan. Konsep self-attention dan multi-head memang abstrak. Jangan cuma hafal arsitektur Transformer. Pahami kenapa positional encoding itu wajib.
Kalau UO minta modifikasi arsitektur, itu bukan hafalan. STDA4404 Deep Learning sering mencampur UTM yang teknis dengan UO yang konseptual. Regularisasi dan optimizer nyaris selalu muncul. Kalau udah pede, coba juga latihan soal Sistem Pendukung Keputusan yang nalarnya mirip. Terus asah intuisi, bukan cuma recall.





