Lo baca Modul 1 tentang etika data, terus lompat ke Modul 5 soal overfitting, rasanya kayak nyebrang dua dunia yang nggak nyambung. STDA4302 Platform Sains Data dan Kecerdasan Artifisial memang padat begitu. Modul 3 soal manajemen data juga butuh logika query yang rapi. Seringnya, kita cuma butuh latihan yang tepat sasaran.
Modul 6 tentang deep learning dan Modul 9 soal MLOps paling kerap bikin kening berkerut. Bukan cuma karena rumus. Tapi ngerti cara nge-deploy model pakai Docker itu perlu bayangan teknis yang matang. bank soal UT Sains Data di sini kami rancang buat bantu kamu latihan fokus ke titik rawan itu. Langsung aja kerjakan.
Halaman ini sediakan kumpulan latihan UAS lengkap dengan kunci jawaban dan pembahasan. Ada soal dari Modul 4 tentang Python sampai Modul 7 soal NLP. Jadi, kalau nemu jawaban yang ngganjal, kamu bisa langsung cek alasannya. Butuh latihan matkul lain? Bisa intip Soal UAS UT untuk lihat lebih banyak pilihan.
Soal UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial
Saat sebuah konsultan data diminta membantu PT Maju Jaya memahami penyebab penurunan penjualan selama tiga kuartal terakhir, tahap apa dalam siklus hidup proyek sains data yang pertama kali harus dijalankan…
Siklus hidup proyek sains data dimulai dengan merumuskan masalah dan tujuan. Sebelum mengumpulkan data atau membangun model, tim harus memahami secara jelas apa yang ingin dipecahkan.
Seorang profesional bertugas membangun pipeline data agar data mentah dari berbagai sumber siap digunakan untuk analisis dan pemodelan. Peran yang paling tepat menggambarkan tanggung jawab ini adalah…
Data Engineer bertanggung jawab membangun dan memelihara pipeline serta infrastruktur data agar data siap digunakan oleh Data Scientist dan Data Analyst.
Pernyataan yang paling tepat membedakan analisis deskriptif dan analisis prediktif dalam konteks sains data adalah…
Analisis deskriptif fokus pada pemaparan kejadian masa lalu melalui ringkasan statistik dan visualisasi, sementara analisis prediktif menggunakan data historis untuk meramalkan kejadian mendatang.
Sains data dikategorikan sebagai bidang interdisipliner karena…
Sains data bersifat interdisipliner karena menyatukan kompetensi statistik, pemrograman komputer, dan pemahaman domain spesifik untuk menghasilkan wawasan yang bermakna dari data.
Sebuah aplikasi asisten virtual seperti Siri atau Google Assistant menerima perintah suara dan merespons dengan tindakan spesifik dalam domain terbatas. Aplikasi semacam ini paling tepat dikategorikan sebagai…
Asisten virtual termasuk Narrow AI karena hanya unggul pada tugas tertentu yang telah diprogram. General AI dan Super AI masih bersifat teoretis dan belum terwujud.
Hubungan hierarkis yang benar antara Kecerdasan Artifisial, Machine Learning, dan Deep Learning adalah…
Hubungan yang benar: AI adalah bidang terluas, Machine Learning adalah cabang di dalam AI, dan Deep Learning adalah subbidang dari Machine Learning yang menggunakan jaringan saraf berlapis banyak.
Perbedaan mendasar antara Machine Learning tradisional dan Deep Learning terletak pada…
Keunggulan Deep Learning adalah kemampuannya mempelajari representasi fitur secara hierarkis dari data mentah tanpa rekayasa fitur manual yang umum diperlukan pada machine learning tradisional.
Ketika sebuah sistem AI dilatih untuk memprediksi risiko kredit dan ternyata memberikan penolakan lebih tinggi pada kelompok demografis tertentu, permasalahan etika yang paling relevan adalah…
Ketika model secara sistematis merugikan kelompok tertentu, itu menunjukkan bias algoritma — kesalahan sistematis yang menghasilkan ketidakadilan, seringkali karena bias dalam data latih.
Perbedaan konseptual antara privasi data dan keamanan data dalam konteks tata kelola data adalah…
Privasi data berfokus pada hak individu menentukan bagaimana data pribadi dikumpulkan dan digunakan, sementara keamanan data adalah tindakan teknis dan prosedural untuk melindungi data dari ancaman.
Sebuah perusahaan teknologi menerapkan kerangka kerja yang mencakup kebijakan klasifikasi data, standar kualitas data, dan prosedur akses data di seluruh organisasi. Kerangka kerja ini paling tepat disebut sebagai…
Tata kelola data adalah kerangka kebijakan, prosedur, dan standar yang diterapkan organisasi untuk mengelola aset data secara menyeluruh, mencakup kualitas, keamanan, dan kepatuhan.
Dalam proyek analisis sentimen media sosial, tim menemukan bahwa model secara konsisten mengklasifikasikan ulasan yang mengandung dialek daerah sebagai negatif. Situasi ini paling tepat menggambarkan…
Ketika data latih tidak merepresentasikan keragaman bahasa dan dialek secara proporsional, model dapat mengembangkan bias sistematis terhadap kelompok tertentu, menghasilkan prediksi yang tidak adil.
Sebuah institusi riset membutuhkan sumber daya komputasi yang dapat disesuaikan secara dinamis sesuai beban kerja penelitian tanpa harus berinvestasi pada infrastruktur fisik. Pendekatan yang paling sesuai adalah…
Cloud computing menyediakan elastisitas sumber daya sesuai permintaan dengan model bayar sesuai pemakaian, sehingga institusi tidak perlu mengeluarkan biaya awal besar untuk infrastruktur fisik.
Perbedaan utama antara virtualisasi tradisional dan kontainerisasi dalam konteks deployment aplikasi data adalah…
Kontainer berbagi kernel OS host sehingga overhead lebih kecil dan startup lebih cepat. Virtualisasi menjalankan OS tamu lengkap di atas hypervisor, membuatnya lebih berat namun dengan isolasi lebih penuh.
Seorang peneliti deep learning mengeluhkan bahwa pelatihan model pada CPU memakan waktu berhari-hari. Teknologi yang paling tepat diadopsi untuk mempercepat proses pelatihan model dengan arsitektur neural network besar adalah…
GPU memiliki ribuan inti yang dapat melakukan operasi matriks secara paralel, sangat cocok untuk mempercepat pelatihan deep learning yang didominasi komputasi matriks dan operasi floating-point.
Tim IT sebuah perusahaan rintisan memutuskan untuk menjalankan beban kerja analisis data pada infrastruktur milik sendiri di kantor karena regulasi melarang data pelanggan disimpan di server pihak ketiga. Pendekatan ini disebut…
On-premise berarti seluruh infrastruktur komputasi dimiliki, dioperasikan, dan dikelola sendiri di lokasi fisik organisasi, memberikan kontrol penuh atas data dan keamanan.
Layanan cloud yang menyediakan akses langsung ke sistem operasi, penyimpanan, dan konfigurasi jaringan tanpa harus mengelola perangkat keras fisik termasuk dalam kategori…
IaaS memberikan sumber daya komputasi tervirtualisasi melalui internet, pengguna mengelola OS dan aplikasi tanpa mengelola perangkat keras fisik. EC2 dari AWS adalah contoh IaaS.
Perbedaan utama antara Data Lake dan Data Warehouse dalam arsitektur data modern adalah…
Data Lake adalah repositori data mentah dalam format asli tanpa pemrosesan awal, sementara Data Warehouse menyimpan data yang telah dibersihkan, ditransformasi, dan dioptimalkan untuk analisis bisnis.
Sebuah perusahaan startup memilih Google Cloud sebagai platform cloud-nya dan ingin memanfaatkan layanan analisis data besar yang terintegrasi penuh dengan kemampuan AI tanpa harus mengelola infrastruktur sendiri. Layanan pada Google Cloud yang paling sesuai untuk kebutuhan ini adalah…
BigQuery adalah layanan data warehouse serverless Google Cloud yang terintegrasi dengan kemampuan AI/ML bawaan, cocok untuk analisis data besar tanpa pengelolaan infrastruktur.
Ketika sebuah organisasi menggunakan layanan cloud untuk menjalankan aplikasi analisis data, mereka bertanggung jawab atas keamanan data dan konfigurasi akses pengguna, sementara penyedia cloud bertanggung jawab atas keamanan fisik pusat data. Model tanggung jawab bersama ini paling tepat dijelaskan oleh perbedaan antara…
Model shared responsibility membedakan security of the cloud (tanggung jawab penyedia atas infrastruktur fisik) dan security in the cloud (tanggung jawab pengguna atas data, akses, dan konfigurasi).
Tim data sebuah perusahaan ritel membandingkan AWS, Google Cloud, dan Azure untuk membangun platform machine learning. Mereka memprioritaskan layanan yang memiliki integrasi paling erat dengan ekosistem Microsoft karena perusahaan sudah menggunakan Office 365 dan Dynamics. Platform cloud yang paling tepat dipilih adalah…
Microsoft Azure dirancang dengan integrasi mendalam ke ekosistem Microsoft seperti Office 365, Dynamics, dan Active Directory, menjadikannya pilihan alami bagi organisasi berbasis Microsoft.
Seorang arsitek data merancang sistem yang menggabungkan penyimpanan data mentah dalam format asli dengan kemampuan query analitis layaknya gudang data, tanpa harus memindahkan data antar sistem. Arsitektur yang memenuhi kebutuhan ini adalah…
Data Lakehouse menggabungkan fleksibilitas penyimpanan data mentah ala Data Lake dengan kemampuan transaksi dan query analitis seperti Data Warehouse dalam satu platform terpadu.
Dalam arsitektur data modern, sebuah organisasi membutuhkan pemrosesan data yang menggabungkan jalur batch untuk analisis historis dan jalur real-time untuk dashboard operasional. Arsitektur yang secara spesifik dirancang untuk menangani kedua kebutuhan ini dengan lapisan serving terpisah adalah…
Arsitektur Lambda memiliki tiga lapisan: batch layer untuk pemrosesan historis, speed layer untuk real-time, dan serving layer yang menggabungkan hasil keduanya.
Sebuah perusahaan teknologi ingin mengadopsi praktik DevOps yang disesuaikan untuk pipeline machine learning, mencakup otomatisasi pelatihan model, versioning data, dan continuous monitoring di produksi. Praktik ini paling tepat disebut…
MLOps adalah adaptasi prinsip DevOps untuk machine learning, mencakup otomatisasi siklus hidup ML dari pelatihan, versioning, deployment, hingga monitoring model.
Seorang insinyur data membangun arsitektur yang hanya menggunakan stream processing untuk semua jenis pemrosesan, menghilangkan batch layer sepenuhnya dengan asumsi semua data dapat diperlakukan sebagai stream tak terbatas. Arsitektur ini dikenal sebagai…
Arsitektur Kappa menyederhanakan Lambda dengan menghilangkan batch layer dan hanya menggunakan stream processing engine untuk semua pemrosesan data.
Seorang peneliti pasar ingin mengumpulkan data harga produk dari berbagai situs e-commerce secara otomatis setiap hari untuk analisis kompetitor. Teknik akuisisi data yang paling tepat digunakan adalah…
Web scraping adalah teknik mengekstrak data dari halaman web secara otomatis, cocok untuk mengambil data publik seperti harga produk yang tidak selalu tersedia melalui API.
Sebuah aplikasi IoT mengirimkan data sensor dalam format JSON dengan struktur yang berubah-ubah tiap versi perangkat. Sistem basis data yang paling sesuai untuk menyimpan data semi-terstruktur semacam ini adalah…
MongoDB sebagai basis data NoSQL berorientasi dokumen dirancang untuk menangani data semi-terstruktur seperti JSON dengan skema fleksibel yang dapat berubah antar dokumen.
Perbedaan mendasar antara basis data relasional dan NoSQL dalam konteks skema data adalah…
Basis data relasional menggunakan schema-on-write (skema didefinisikan sebelum data dimasukkan), sementara NoSQL sering menggunakan schema-on-read yang memungkinkan fleksibilitas struktur data.
Data sensor cuaca tersimpan dalam bentuk file CSV dengan kolom suhu, kelembaban, dan tekanan yang terdefinisi konsisten setiap baris. Jenis data ini paling tepat diklasifikasikan sebagai…
Data CSV dengan kolom yang konsisten dan terdefinisi termasuk data terstruktur karena mengikuti format tabular yang ketat dengan skema yang jelas.
Dalam proses pembersihan data, seorang analis menemukan bahwa 40% baris pada kolom pendapatan pelanggan kosong. Jika ia memilih untuk mengisi nilai kosong tersebut dengan median pendapatan dari data yang ada, teknik ini disebut…
Imputation adalah teknik mengisi missing values dengan nilai estimasi seperti mean, median, atau modus, berbeda dengan deletion yang menghapus baris atau kolom tersebut.
Seorang data scientist menerapkan transformasi pada fitur usia dan pendapatan hingga keduanya memiliki rata-rata 0 dan standar deviasi 1. Teknik transformasi yang diterapkan adalah…
Standardisasi (Z-score normalization) mentransformasi data sehingga memiliki mean 0 dan standar deviasi 1, berbeda dengan normalisasi yang menskalakan ke rentang tertentu seperti 0 hingga 1.
Ketika mengembangkan model prediksi harga rumah, seorang data scientist menciptakan fitur baru 'luas per kamar' dengan membagi total luas bangunan dengan jumlah kamar. Aktivitas ini termasuk dalam…
Feature engineering adalah proses menciptakan fitur baru dari data yang ada, seperti 'luas per kamar' yang merupakan turunan dari luas bangunan dan jumlah kamar.
Dalam pipeline transformasi data, seorang insinyur data ingin memastikan bahwa setiap kali data baru masuk, seluruh rangkaian pembersihan, normalisasi, dan feature engineering dijalankan secara otomatis tanpa intervensi manual. Pendekatan yang paling tepat adalah…
Pipeline transformasi data otomatis menjalankan seluruh rangkaian transformasi secara konsisten dan otomatis setiap data baru masuk, menjamin reproduktibilitas dan efisiensi.
Sebuah perusahaan logistik perlu memproses data GPS dari ribuan kendaraan yang mengirimkan pembaruan lokasi setiap detik. Framework pemrosesan yang dirancang khusus untuk menangani aliran data real-time semacam ini adalah…
Apache Kafka adalah platform streaming terdistribusi yang dirancang untuk menangani aliran data real-time berkecepatan tinggi, ideal untuk data streaming seperti pembaruan GPS.
Seorang insinyur data membandingkan Hadoop MapReduce dan Apache Spark untuk tugas pemrosesan data besar yang melibatkan banyak iterasi, seperti algoritma machine learning. Alasan utama memilih Spark daripada Hadoop MapReduce adalah…
Keunggulan utama Spark adalah pemrosesan in-memory yang menghindari penulisan ke disk antar iterasi, sehingga sangat mempercepat algoritma iteratif seperti machine learning dibanding MapReduce.
Ketika sebuah pipeline pemrosesan data besar menggunakan kerangka kerja open-source yang menyimpan data secara terdistribusi dan memprosesnya dengan model MapReduce, kerangka kerja yang dimaksud adalah…
Hadoop merupakan kerangka kerja open-source yang dirancang untuk penyimpanan terdistribusi dan pemrosesan data besar menggunakan model MapReduce.
Perbedaan utama antara pemrosesan batch dan stream processing dalam konteks data skala besar terletak pada…
Batch processing memproses data dalam blok besar dengan latensi tinggi, sementara stream processing menangani data secara real-time dengan latensi rendah.
Seorang data scientist ingin melakukan operasi perkalian matriks dan menghitung dekomposisi nilai singular pada dataset numerik besar. Library Python yang menyediakan fungsi-fungsi komputasi numerik fundamental tersebut adalah…
NumPy adalah library fundamental untuk komputasi numerik yang menyediakan objek array multidimensi dan fungsi aljabar linear seperti perkalian matriks dan dekomposisi nilai singular.
Dalam ekosistem Python, struktur data dua dimensi berlabel yang memungkinkan manipulasi data tabular dengan operasi seperti grouping, merging, dan reshaping disediakan oleh…
Pandas DataFrame adalah struktur data dua dimensi berlabel dalam library Pandas yang dirancang khusus untuk manipulasi dan analisis data tabular.
Seorang analis ingin membuat visualisasi yang terdiri dari beberapa subplot dalam satu figure, masing-masing menampilkan histogram, scatter plot, dan box plot dari dataset yang sama. Library Python yang memungkinkan kustomisasi tata letak semacam ini secara langsung adalah…
Matplotlib menyediakan kontrol tingkat rendah untuk membuat figure dengan banyak subplot dan kustomisasi tata letak visualisasi secara detail.
Perbedaan mendasar antara NumPy Array dan Pandas DataFrame dalam konteks struktur data adalah…
NumPy Array bersifat homogen dan menggunakan indeks integer implisit, sedangkan Pandas DataFrame bersifat heterogen dengan label indeks pada baris dan kolom.
Dalam SQL, operator yang menggabungkan baris dari dua tabel dan tetap mempertahankan semua baris dari tabel kiri meskipun tidak ada pasangan di tabel kanan disebut…
LEFT JOIN mengembalikan semua baris dari tabel kiri dan baris yang cocok dari tabel kanan; jika tidak ada kecocokan, kolom dari tabel kanan bernilai NULL.
Seorang analis perlu menghitung rata-rata penjualan bergerak 7 hari untuk setiap produk dalam satu query tanpa mereduksi jumlah baris hasil. Fungsi SQL yang paling tepat digunakan adalah…
Window function melakukan kalkulasi pada sekumpulan baris terkait tanpa meruntuhkan hasil, sehingga rata-rata bergerak dapat dihitung sambil mempertahankan setiap baris asli.
Perbedaan antara klausa WHERE dan HAVING dalam query SQL adalah…
WHERE memfilter baris sebelum operasi GROUP BY diterapkan, sedangkan HAVING memfilter grup hasil agregasi setelah GROUP BY.
Seorang data scientist sedang mengembangkan model di Jupyter Notebook dan perlu memastikan bahwa library yang digunakan dalam proyek ini tidak bertabrakan dengan versi library di proyek lain. Alat manajemen lingkungan yang menyediakan isolasi lingkungan beserta dependensinya adalah…
Conda adalah manajer paket dan lingkungan yang memungkinkan isolasi lingkungan lengkap beserta semua dependensi perangkat lunak untuk setiap proyek.
Seorang peneliti ingin berbagi dokumen yang berisi kode Python, output visualisasi, dan penjelasan naratif dalam satu file interaktif yang dapat dijalankan ulang oleh koleganya. Aplikasi yang menghasilkan dokumen semacam ini adalah…
Jupyter Notebook adalah aplikasi web interaktif yang memungkinkan pembuatan dokumen berisi kode, visualisasi, dan teks naratif yang dapat dieksekusi ulang.
Perbedaan antara Git dan GitHub dalam konteks kontrol versi adalah…
Git adalah perangkat lunak kontrol versi terdistribusi yang berjalan secara lokal, sedangkan GitHub adalah platform web yang menyediakan hosting untuk repositori Git dan fitur kolaborasi.
Seorang praktisi melatih model machine learning menggunakan data berlabel untuk memprediksi harga rumah berdasarkan fitur-fitur seperti luas bangunan dan jumlah kamar. Paradigma pembelajaran yang diterapkan adalah…
Supervised learning menggunakan data berlabel, di mana model belajar memetakan fitur input ke output yang diketahui untuk melakukan prediksi pada data baru.
Ketika sebuah model regresi menunjukkan performa sangat baik pada data latih dengan R-squared 0,98 namun hanya mencapai R-squared 0,45 pada data uji, kondisi yang dialami model tersebut adalah…
Overfitting terjadi ketika model terlalu cocok dengan data latih, menangkap noise dan pola spesifik, sehingga gagal menggeneralisasi pada data baru yang tidak terlihat sebelumnya.
Perbedaan antara overfitting dan underfitting dalam konteks machine learning adalah…
Overfitting menunjukkan error latih rendah namun error uji tinggi karena model terlalu kompleks, sedangkan underfitting menunjukkan error tinggi pada data latih dan uji karena model terlalu sederhana.
Seorang data scientist menghadapi masalah klasifikasi biner di mana dataset memiliki 1000 sampel kelas minoritas dan 50000 sampel kelas mayoritas. Ia memutuskan menggunakan algoritma yang mencari hyperplane pemisah optimal dengan margin maksimum. Algoritma yang dimaksud adalah…
Support Vector Machine mencari hyperplane optimal yang memaksimalkan margin antar kelas, dan dapat menangani klasifikasi biner termasuk pada dataset tidak seimbang.
Seorang praktisi membandingkan Decision Tree tunggal dengan Random Forest untuk tugas klasifikasi. Keunggulan utama Random Forest dibandingkan Decision Tree tunggal adalah…
Random Forest membangun banyak pohon keputusan dan menggabungkan prediksinya, sehingga mengurangi varians dan overfitting yang sering terjadi pada Decision Tree tunggal.
Seorang data scientist ingin memprediksi harga mobil bekas berdasarkan tahun produksi, jarak tempuh, dan kapasitas mesin. Ia memilih model yang mengasumsikan hubungan linear antara variabel-variabel tersebut dengan harga. Model yang paling tepat digunakan adalah…
Regresi linear memprediksi variabel kontinu dengan asumsi hubungan linear antara variabel independen dan dependen. Regresi logistik digunakan untuk klasifikasi, bukan prediksi nilai kontinu seperti harga.
PT Sentra Analitik memiliki data transaksi pelanggan tanpa label dan ingin mengelompokkan pelanggan ke dalam beberapa segmen berdasarkan pola belanja. Jumlah segmen yang diinginkan sudah ditentukan oleh tim bisnis sebanyak lima kelompok. Algoritma unsupervised learning yang paling sesuai untuk kebutuhan ini adalah…
K-Means mempartisi data ke dalam sejumlah klaster yang telah ditentukan sebelumnya (k=5) dengan meminimalkan varians intra-klaster. DBSCAN tidak mensyaratkan jumlah klaster di awal, sedangkan PCA dan t-SNE adalah teknik reduksi dimensi, bukan klastering.
Seorang peneliti menganalisis data titik lokasi kejadian gempa bumi di Indonesia. Ia menemukan bahwa data membentuk kelompok-kelompok dengan kepadatan berbeda dan terdapat wilayah dengan titik yang sangat jarang. Algoritma yang paling tepat untuk menemukan klaster tanpa menentukan jumlahnya terlebih dahulu adalah…
DBSCAN mengelompokkan titik berdasarkan kepadatan dan tidak memerlukan jumlah klaster di awal. Algoritma ini mampu menemukan klaster dengan bentuk arbitrer dan mengidentifikasi titik noise, cocok untuk data spasial dengan kepadatan bervariasi.
Seorang data scientist menghadapi dataset dengan 200 fitur numerik dan ingin mereduksi dimensi data menjadi beberapa komponen yang mempertahankan varians maksimum untuk visualisasi. Teknik yang paling tepat digunakan adalah…
PCA mentransformasi fitur menjadi komponen utama yang mempertahankan varians maksimum secara linear. Teknik ini cocok untuk reduksi dimensi dengan mempertahankan struktur varians global, berbeda dengan t-SNE yang lebih cocok untuk visualisasi nonlinear namun tidak mempertahankan varians global.
Dalam melatih jaringan saraf tiruan, algoritma yang menghitung gradien fungsi loss terhadap setiap bobot dengan mengalirkan error dari lapisan output kembali ke lapisan input disebut…
Backpropagation adalah algoritma inti pelatihan neural network yang menghitung gradien secara mundur dari output ke input menggunakan aturan rantai. Forward propagation adalah proses menghitung output dari input ke output, sedangkan gradient descent adalah algoritma optimasi yang menggunakan gradien tersebut.
Seorang praktisi deep learning membangun jaringan saraf dengan banyak lapisan tersembunyi. Ia mengamati bahwa nilai gradien menjadi sangat kecil saat mencapai lapisan awal sehingga bobot lapisan tersebut hampir tidak berubah. Masalah ini paling tepat diatasi dengan memilih fungsi aktivasi…
ReLU (Rectified Linear Unit) mengatasi vanishing gradient karena turunannya bernilai 1 untuk input positif, sehingga gradien tidak mengecil secara eksponensial saat backpropagation. Sigmoid dan Tanh memiliki turunan yang mendekati nol pada nilai jenuh, memperparah vanishing gradient.
PT Inovasi Data mengembangkan sistem deteksi cacat produk berbasis gambar. Tim memilih menggunakan TensorFlow dengan API tingkat tinggi untuk membangun dan melatih model neural network secara cepat tanpa harus mengelola detail operasi tensor. API yang dimaksud adalah…
Keras adalah API tingkat tinggi yang terintegrasi dalam TensorFlow, dirancang untuk memudahkan pembangunan dan pelatihan model deep learning dengan sintaks yang ringkas dan intuitif. PyTorch adalah framework terpisah, bukan bagian dari TensorFlow.
Seorang peneliti computer vision menerapkan operasi matematis berupa filter 3×3 yang digeser melintasi gambar input untuk mendeteksi tepi dan tekstur. Operasi yang dilakukan pada lapisan awal CNN ini disebut…
Operasi menggeser filter melintasi gambar untuk mengekstrak fitur spasial seperti tepi dan tekstur pada lapisan awal CNN disebut konvolusi.
Setelah menerapkan beberapa lapisan konvolusi pada arsitektur CNN, seorang insinyur menambahkan operasi yang mereduksi dimensi spasial peta fitur dari 112×112 menjadi 56×56 dengan mengambil nilai maksimum di setiap jendela 2×2. Operasi ini disebut…
Pooling adalah operasi downsampling yang mengurangi dimensi peta fitur sambil mempertahankan informasi penting. Max pooling mengambil nilai maksimum dalam jendela tertentu, mengurangi ukuran spasial dan parameter komputasi.
Tim riset PT Visi Cerdas ingin membangun model klasifikasi citra satwa endemik Indonesia, namun hanya memiliki 500 gambar per spesies. Mereka memutuskan menggunakan model yang sudah dilatih pada ImageNet dan hanya melatih ulang beberapa lapisan terakhir. Teknik yang diterapkan disebut…
Fine-tuning adalah teknik transfer learning di mana model pra-latih dilatih ulang pada dataset baru dengan menyesuaikan bobot beberapa lapisan. Ini berbeda dari feature extraction yang membekukan seluruh bobot pra-latih, atau training from scratch yang melatih dari nol.
Sebuah model penerjemah mesin memproses kalimat bahasa Indonesia dan menghasilkan terjemahan bahasa Inggris. Agar model dapat menangkap konteks kata yang memiliki ketergantungan jarak jauh, arsitektur RNN yang paling tepat digunakan karena memiliki mekanisme gerbang untuk mengontrol aliran informasi adalah…
LSTM (Long Short-Term Memory) dirancang dengan mekanisme gerbang forget, input, dan output untuk mengontrol informasi yang dipertahankan atau dibuang, sehingga mampu mengingat dependensi jangka panjang. Simple RNN rentan terhadap vanishing gradient pada sekuens panjang.
Seorang peneliti NLP membandingkan arsitektur RNN dengan Transformer untuk tugas pemrosesan teks. Keunggulan utama Transformer dibandingkan RNN adalah…
Transformer memproses seluruh urutan secara paralel menggunakan mekanisme self-attention, berbeda dengan RNN yang memproses secara sekuensial. Paralelisasi ini memungkinkan pelatihan lebih cepat dan menangkap dependensi jarak jauh tanpa masalah vanishing gradient.
Dalam arsitektur Transformer, mekanisme yang menghitung bobot relevansi antara setiap kata dalam kalimat dengan semua kata lainnya secara simultan untuk menangkap konteks dua arah disebut…
Self-attention menghitung skor relevansi antara setiap token dengan seluruh token lain dalam urutan secara paralel, memungkinkan model menangkap hubungan kontekstual tanpa bergantung pada jarak. Mekanisme ini adalah inti dari arsitektur Transformer.
Sebelum teks dapat diproses oleh model machine learning, seorang praktisi NLP memecah kalimat 'Saya belajar di Universitas Terbuka' menjadi unit-unit ['Saya', 'belajar', 'di', 'Universitas', 'Terbuka']. Proses ini disebut…
Tokenisasi adalah proses memecah teks menjadi unit-unit lebih kecil (token) seperti kata atau subkata. Proses ini merupakan langkah fundamental dalam pipeline NLP sebelum representasi teks lebih lanjut.
Seorang analis sentimen ingin mengukur pentingnya kata-kata dalam ulasan produk terhadap keseluruhan korpus ulasan yang ada. Ia memilih metode yang memberi bobot lebih tinggi pada kata yang sering muncul di dokumen tertentu tetapi jarang di keseluruhan korpus. Metode representasi teks yang dimaksud adalah…
TF-IDF mengukur pentingnya kata dengan mengalikan frekuensi kata dalam dokumen (TF) dengan inverse frekuensi dokumen (IDF) yang menghukum kata yang muncul di banyak dokumen. Bag-of-Words hanya menghitung frekuensi tanpa mempertimbangkan kepentingan relatif antar dokumen.
Dalam pipeline NLP bahasa Indonesia, seorang praktisi mengubah kata 'berlari' menjadi 'lari' dan 'mengembangkan' menjadi 'kembang' dengan menghilangkan imbuhan. Teknik normalisasi teks yang diterapkan adalah…
Stemming adalah proses menghilangkan imbuhan untuk mendapatkan bentuk dasar kata secara mekanis tanpa memperhatikan konteks dan kelas kata. Lemmatisasi menghasilkan bentuk kamus yang valid dengan mempertimbangkan kelas kata, sementara pada contoh ini penghilangan afiks dilakukan tanpa analisis morfologis mendalam.
PT Bahasa Cerdas ingin membangun chatbot layanan pelanggan yang mampu memahami pertanyaan kompleks dan menghasilkan respons natural. Mereka memilih menggunakan GPT karena model ini telah dilatih pada data teks sangat besar sehingga memiliki kemampuan pemahaman bahasa yang luas. Jenis model yang dimaksud adalah…
Large Language Model (LLM) adalah model deep learning skala masif yang dilatih pada korpus teks sangat besar sehingga memiliki kemampuan memahami dan menghasilkan teks yang mirip manusia. GPT termasuk dalam kategori ini dan cocok untuk tugas chatbot yang memerlukan pemahaman bahasa alami.
Saat merancang instruksi untuk model bahasa besar agar menghasilkan ringkasan rapat dalam format poin-poin kunci, seorang praktisi mencoba beberapa variasi kalimat perintah dan memilih yang memberikan hasil paling konsisten. Aktivitas ini paling tepat disebut…
Prompt engineering adalah seni merancang instruksi masukan yang efektif untuk memandu LLM menghasilkan output yang diinginkan tanpa mengubah parameter model.
PT Cakrawala Bahasa memiliki dataset percakapan layanan pelanggan dalam bahasa Indonesia sebanyak 5.000 pasang tanya-jawab. Mereka menggunakan model GPT yang sudah dilatih dan ingin menyesuaikannya agar lebih akurat untuk domain layanan pelanggan. Proses yang paling tepat diterapkan adalah…
Fine-tuning adalah proses melatih ulang model pra-latih pada dataset spesifik domain untuk menyesuaikan performanya pada tugas tertentu.
Sebuah sistem pengawasan lalu lintas cerdas harus mendeteksi dan menghitung jumlah kendaraan yang melintas pada suatu persimpangan serta memberikan koordinat persegi yang mengelilingi setiap kendaraan. Tugas computer vision yang dijalankan sistem ini adalah…
Deteksi objek mengidentifikasi dan melokalisasi objek dalam gambar menggunakan bounding box, tepat untuk menghitung dan memberi koordinat persegi pada kendaraan.
PT Arsip Digital ingin mengonversi jutaan halaman dokumen cetak hasil pemindaian menjadi teks yang dapat dicari dan diedit. Teknologi computer vision yang paling tepat untuk kebutuhan ini adalah…
OCR adalah teknologi yang mengonversi teks dari gambar hasil pemindaian menjadi teks yang dapat diedit mesin, cocok untuk digitalisasi dokumen cetak.
Dalam computer vision, perbedaan antara deteksi objek dan segmentasi objek terletak pada…
Deteksi objek menghasilkan bounding box yang melingkupi objek, sedangkan segmentasi objek memisahkan objek dari latar belakang pada tingkat piksel untuk pemahaman yang lebih rinci.
Seorang data scientist di perusahaan e-commerce ingin membangun dan men-deploy model rekomendasi produk tanpa harus mengelola infrastruktur server secara manual. Ia memilih platform cloud yang menyediakan layanan ML terkelola penuh mulai dari pelatihan hingga deployment. Platform yang dimaksud adalah…
Amazon SageMaker adalah layanan AWS terkelola penuh yang menyediakan alat untuk setiap langkah siklus pengembangan machine learning termasuk deployment.
Platform machine learning terintegrasi yang menyediakan teknologi AutoML untuk mengotomatisasi pemilihan model dan penyetelan hyperparameter adalah…
Vertex AI adalah platform ML terpadu Google Cloud yang mencakup AutoML untuk mengotomatisasi proses pemilihan model, rekayasa fitur, dan penyetelan hyperparameter.
PT Finansial Sejahtera telah menggunakan ekosistem Microsoft seperti Azure Active Directory dan Power Platform. Mereka ingin membangun solusi machine learning yang terintegrasi erat dengan ekosistem tersebut. Platform yang paling tepat dipilih adalah…
Azure Machine Learning adalah platform cloud Microsoft yang menyediakan layanan AI dan ML terintegrasi dengan ekosistem Microsoft secara native.
Seorang peneliti di universitas membutuhkan framework deep learning yang mendukung graf komputasi dinamis untuk eksperimen riset yang memerlukan perubahan arsitektur model secara fleksibel selama pelatihan. Framework yang paling tepat adalah…
PyTorch populer untuk riset karena fleksibilitas dan graf komputasi dinamisnya yang memungkinkan perubahan arsitektur model secara on-the-fly.
Perbedaan utama antara TensorFlow dan Scikit-learn dalam ekosistem AI open source adalah…
TensorFlow adalah framework deep learning untuk membangun neural network kompleks, sedangkan Scikit-learn adalah library sederhana dan efisien untuk machine learning klasik dan analisis data prediktif.
PT Bahasa Global membutuhkan akses ke ribuan model NLP pre-trained dan dataset untuk mempercepat pengembangan sistem analisis sentimen multibahasa. Platform open source yang menyediakan akses tersebut adalah…
Hugging Face adalah platform yang menyediakan akses ke ribuan model pre-trained dan dataset untuk NLP dan computer vision melalui library Transformers.
Seorang manajer pemasaran ingin membuat dashboard interaktif untuk memantau metrik kampanye tanpa menulis kode pemrograman. Alat visualisasi yang paling tepat digunakan adalah…
Tableau adalah platform analitik visual interaktif yang memungkinkan pembuatan dashboard dan laporan bisnis tanpa memerlukan pemrograman mendalam.
Seorang data scientist ingin membangun prototipe aplikasi web yang menampilkan hasil prediksi model machine learning secara interaktif dalam waktu singkat menggunakan Python. Framework yang paling tepat adalah…
Streamlit adalah framework Python open-source yang dirancang untuk membangun aplikasi web data science interaktif dengan cepat dan mudah.
Dalam konteks penyajian hasil analisis data, praktik mengkomunikasikan wawasan data melalui narasi yang dikombinasikan dengan visualisasi yang menarik dikenal sebagai…
Data storytelling adalah praktik menggabungkan narasi dengan visualisasi data untuk mengkomunikasikan wawasan secara efektif kepada pemangku kepentingan.
Tim machine learning PT Prediksi Akurat mencatat bahwa akurasi model prediksi penjualan yang sudah berjalan di produksi menurun drastis dalam dua minggu terakhir, meskipun kode model tidak berubah. Setelah diselidiki, karakteristik data input telah bergeser dari pola saat pelatihan. Situasi ini paling tepat disebut…
Data drift terjadi ketika distribusi data input di produksi berubah dibandingkan data pelatihan, menyebabkan penurunan performa model meskipun kode tidak berubah.
Perbedaan antara Data Drift dan Concept Drift dalam konteks monitoring model di produksi adalah…
Data drift adalah perubahan distribusi data input, sedangkan concept drift adalah perubahan hubungan statistik antara variabel input dan target output seiring waktu.
Dalam siklus manajemen model machine learning, sebuah organisasi menerapkan alat yang memungkinkan tim melacak eksperimen, memversikan model, dan mengelola tahapan deployment secara terpadu. Alat open-source yang secara spesifik mengelola siklus hidup ML mencakup reproducibility dan registri model adalah…
MLflow adalah platform open-source yang memang dirancang khusus untuk mengelola siklus hidup machine learning, mencakup tracking eksperimen, versioning model, dan deployment. DVC lebih fokus pada versioning data, Kubernetes pada orkestrasi kontainer, dan Airflow pada penjadwalan workflow.
Ketika tim MLOps mengamati bahwa distribusi fitur 'rata-rata transaksi harian' dalam data produksi bergeser secara signifikan dari distribusi saat pelatihan, namun hubungan antara fitur tersebut dengan target tetap sama, fenomena monitoring model yang terjadi adalah…
Data Drift merujuk pada perubahan distribusi data input (fitur) di produksi dibandingkan saat pelatihan, sementara hubungan dengan target tidak berubah. Concept Drift terjadi ketika hubungan antara fitur dan target yang berubah. Keduanya merupakan aspek penting dalam drift detection pada monitoring model.
PT Logistik Nusantara berencana men-deploy model prediksi keterlambatan pengiriman yang dibangun dengan scikit-learn ke lingkungan produksi. Mereka ingin model dapat dipanggil oleh aplikasi web internal melalui HTTP request dengan format JSON. Pendekatan deployment yang paling tepat adalah…
REST API dengan FastAPI memungkinkan model machine learning disajikan sebagai layanan yang dapat dipanggil melalui HTTP request, menerima input JSON dan mengembalikan prediksi. Ini adalah pendekatan standar untuk serving model ke produksi agar dapat diintegrasikan dengan aplikasi lain.
Seorang insinyur ML di PT Fintech Cerdas harus memastikan bahwa model prediksi risiko kredit yang di-deploy berjalan konsisten di lingkungan pengembangan, staging, maupun produksi tanpa masalah perbedaan dependensi. Ia memutuskan untuk mengemas model bersama semua library dan dependensinya ke dalam unit terisolasi yang portabel. Teknologi yang paling tepat digunakan adalah…
Docker adalah platform kontainerisasi yang mengemas aplikasi beserta seluruh dependensinya ke dalam kontainer portabel, memastikan konsistensi lingkungan di berbagai tahap deployment. Berbeda dengan virtualisasi penuh, kontainer lebih ringan dan cepat dijalankan.
Setelah mengemas model ke dalam kontainer, PT Retail Cerdas menghadapi lonjakan trafik prediksi selama musim belanja. Tim perlu mengelola puluhan kontainer model secara otomatis, termasuk scaling berdasarkan beban dan pemulihan saat kontainer gagal. Sistem yang menyediakan orkestrasi kontainer semacam ini adalah…
Kubernetes adalah sistem orkestrasi kontainer yang mengotomatisasi deployment, scaling, dan manajemen aplikasi terkontainerisasi. Docker Compose hanya untuk lingkungan pengembangan lokal, Jenkins untuk CI/CD, dan Terraform untuk infrastructure as code.
Perbedaan utama antara Continuous Integration dan Continuous Deployment dalam pipeline machine learning terletak pada…
Continuous Integration (CI) adalah praktik mengintegrasikan perubahan kode ke repositori utama secara berkala disertai pengujian otomatis, sedangkan Continuous Deployment (CD) adalah praktik otomatis melepaskan model yang telah lolos pengujian ke lingkungan produksi tanpa intervensi manual. Keduanya merupakan tahapan berbeda dalam pipeline CI/CD.
Tim MLOps PT Asuransi Digital menetapkan bahwa model prediksi klaim harus memiliki akurasi minimal 85% pada data uji dan tidak mengandung bias demografis sebelum dapat dipromosikan dari staging ke produksi. Dalam pipeline CI/CD, ketentuan ini berfungsi sebagai…
Quality Gate adalah kriteria otomatis yang harus dipenuhi model sebelum dapat dipromosikan ke tahap pipeline berikutnya. Dalam kasus ini, ambang akurasi 85% dan pemeriksaan bias merupakan quality gate yang memastikan hanya model berkualitas yang mencapai produksi.
Dalam konteks pipeline CI/CD untuk machine learning, pengujian yang memverifikasi bahwa seluruh rangkaian komponen mulai dari praproses data, pelatihan, hingga inferensi berfungsi dengan benar secara end-to-end disebut…
Pengujian integrasi memvalidasi bahwa seluruh komponen pipeline ML bekerja bersama dengan benar, dari praproses hingga inferensi. Ini berbeda dengan pengujian unit yang hanya menguji komponen individual secara terisolasi.
PT Transportasi Pintar ingin mengembangkan sistem prediksi waktu kedatangan bus. Sebelum memulai proyek teknis, tim perlu merumuskan tujuan yang jelas dan terukur yang dapat diselesaikan dengan pendekatan sains data. Tahap proyek yang paling tepat dijalankan pertama kali adalah…
Identifikasi masalah adalah tahap awal proyek sains data untuk merumuskan masalah bisnis yang jelas dan dapat diselesaikan. Tahap ini menentukan arah seluruh proyek sebelum masuk ke pengumpulan data atau pemilihan algoritma.
Dalam proyek sains data, perbedaan antara tujuan bisnis dan tujuan teknis terletak pada…
Tujuan bisnis berfokus pada manfaat atau dampak bagi organisasi, misalnya meningkatkan retensi pelanggan, sementara tujuan teknis menerjemahkannya ke dalam spesifikasi terukur seperti metrik performa model yang harus dicapai.
Tim data PT Kesehatan Sejahtera merancang sistem yang mencakup alur ingest data dari sensor medis, penyimpanan di data lake, pelatihan model prediksi di cloud, dan deployment API untuk aplikasi mobile. Mereka mendokumentasikan pilihan teknologi serta hubungan antar komponen. Aktivitas ini merupakan bagian dari…
Desain arsitektur platform adalah rancangan struktur komponen teknis yang mendukung alur data, pemodelan, dan deployment dalam proyek. Dokumentasi pilihan teknologi dan hubungan antar komponen adalah inti dari aktivitas ini, dilakukan pada tahap perencanaan proyek.
Sebelum membangun model, seorang data scientist di PT Agri Nusantara memeriksa data curah hujan dan hasil panen selama lima tahun menggunakan statistik ringkasan, histogram, dan scatter plot untuk memahami pola musiman serta mendeteksi pencilan. Tahap dalam implementasi proyek yang sedang dijalankan adalah…
Eksplorasi data adalah proses analisis awal menggunakan statistik ringkasan dan visualisasi untuk memahami pola, anomali, dan merumuskan hipotesis sebelum masuk ke pemodelan. Ini dilakukan setelah pengumpulan data dan sebelum pembangunan model.
Setelah melatih tiga kandidat model, seorang praktisi menghitung precision, recall, dan F1-score pada data uji yang belum pernah dilihat model sebelumnya. Ia kemudian memilih model dengan F1-score tertinggi. Aktivitas ini paling tepat disebut…
Evaluasi model adalah proses mengukur performa model menggunakan metrik yang sesuai pada data uji yang terpisah dari data latih. Pemilihan model berdasarkan F1-score setelah pengujian menunjukkan aktivitas evaluasi untuk menentukan model terbaik.
PT Media Cerdas telah melatih model rekomendasi artikel dan kini ingin menghubungkan model tersebut dengan sistem backend website sehingga prediksi dapat ditampilkan langsung kepada pengguna. Perbedaan utama antara evaluasi model dan integrasi model dalam konteks ini adalah…
Evaluasi model berfokus pada pengukuran performa menggunakan data uji dan metrik seperti akurasi atau F1-score, sementara integrasi model adalah tahap menggabungkan model yang telah dilatih ke dalam platform atau aplikasi yang lebih besar agar dapat digunakan pengguna akhir.
Setelah seluruh sistem prediksi penjualan selesai dibangun, tim QA menjalankan serangkaian pengujian yang mencakup validasi output prediksi, pengukuran waktu respons API, dan ketahanan sistem terhadap input yang tidak valid. Aktivitas ini merupakan bagian dari…
Pengujian sistem adalah proses validasi menyeluruh untuk memastikan seluruh sistem berfungsi sesuai spesifikasi, mencakup aspek fungsional (output benar), performa (waktu respons), dan ketahanan (robustness). Ini dilakukan pada tahap akhir sebelum rilis.
PT Data Analitika telah menyelesaikan proyek deteksi anomali transaksi. Mereka menyusun dokumen yang merinci metodologi pemilihan algoritma, hasil eksperimen setiap kandidat model, konfigurasi hyperparameter final, serta kesimpulan dan rekomendasi. Jenis dokumen yang dihasilkan adalah…
Laporan teknis adalah dokumen formal yang mendeskripsikan metodologi, eksperimen, hasil, dan kesimpulan proyek secara rinci. Berbeda dengan dokumentasi pengguna yang berisi panduan penggunaan, laporan teknis ditujukan untuk mendokumentasikan proses dan keputusan teknis proyek.
Banyak yang jago ngerjain Python-nya. Tapi keteteran pas Modul 8. Soal platform kayak Vertex AI atau SageMaker kadang keluar jadi pembeda. Jago koding saja nggak cukup kalau kamu nggak paham arsitektur cloud-nya. Coba cek lagi bagian perbandingan layanan.
Nah, di STDA4302 Platform Sains Data dan Kecerdasan Artifisial, Modul 5 dan 6 hampir pasti muncul. Biasanya dalam bentuk studi kasus UO yang minta kamu pilih algoritma yang tepat. Evaluasi model juga sering bikin nilai jeblok. Jangan cuma hafal metrik, pahami kapan pakai precision dan kapan pakai recall. Kalau mau variasi, ada soal UT PWKL4209 Sistem Informasi Perencanaan yang serumpun. Latihan dikit lagi udah aman.





