Soal UAS UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial Beserta Kunci Jawaban

Lo baca Modul 1 tentang etika data, terus lompat ke Modul 5 soal overfitting, rasanya kayak nyebrang dua dunia yang nggak nyambung. STDA4302 Platform Sains Data dan Kecerdasan Artifisial memang padat begitu. Modul 3 soal manajemen data juga butuh logika query yang rapi. Seringnya, kita cuma butuh latihan yang tepat sasaran.

Modul 6 tentang deep learning dan Modul 9 soal MLOps paling kerap bikin kening berkerut. Bukan cuma karena rumus. Tapi ngerti cara nge-deploy model pakai Docker itu perlu bayangan teknis yang matang. bank soal UT Sains Data di sini kami rancang buat bantu kamu latihan fokus ke titik rawan itu. Langsung aja kerjakan.

Halaman ini sediakan kumpulan latihan UAS lengkap dengan kunci jawaban dan pembahasan. Ada soal dari Modul 4 tentang Python sampai Modul 7 soal NLP. Jadi, kalau nemu jawaban yang ngganjal, kamu bisa langsung cek alasannya. Butuh latihan matkul lain? Bisa intip Soal UAS UT untuk lihat lebih banyak pilihan.

Soal UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial

Saat sebuah konsultan data diminta membantu PT Maju Jaya memahami penyebab penurunan penjualan selama tiga kuartal terakhir, tahap apa dalam siklus hidup proyek sains data yang pertama kali harus dijalankan…

A. Pengumpulan data dari seluruh cabang
B. Pemodelan prediktif untuk penjualan
C. Perumusan masalah dan tujuan analisis
D. Evaluasi akurasi model machine learning

Jawaban: C
Siklus hidup proyek sains data dimulai dengan merumuskan masalah dan tujuan. Sebelum mengumpulkan data atau membangun model, tim harus memahami secara jelas apa yang ingin dipecahkan.

Seorang profesional bertugas membangun pipeline data agar data mentah dari berbagai sumber siap digunakan untuk analisis dan pemodelan. Peran yang paling tepat menggambarkan tanggung jawab ini adalah…

A. Data Scientist yang fokus pada pemodelan statistik
B. Data Engineer yang membangun infrastruktur data
C. Data Analyst yang membuat laporan dan dashboard
D. Machine Learning Engineer yang men-deploy model

Jawaban: B
Data Engineer bertanggung jawab membangun dan memelihara pipeline serta infrastruktur data agar data siap digunakan oleh Data Scientist dan Data Analyst.

Pernyataan yang paling tepat membedakan analisis deskriptif dan analisis prediktif dalam konteks sains data adalah…

A. Analisis deskriptif selalu menggunakan machine learning sedangkan prediktif tidak
B. Analisis deskriptif hanya bekerja pada data numerik sedangkan prediktif pada data teks
C. Analisis deskriptif menjelaskan apa yang telah terjadi sedangkan prediktif memperkirakan apa yang akan terjadi
D. Analisis deskriptif memerlukan data berlabel sedangkan prediktif tidak memerlukan data historis

Jawaban: C
Analisis deskriptif fokus pada pemaparan kejadian masa lalu melalui ringkasan statistik dan visualisasi, sementara analisis prediktif menggunakan data historis untuk meramalkan kejadian mendatang.

Sains data dikategorikan sebagai bidang interdisipliner karena…

A. Menggabungkan statistik, pemrograman, dan pengetahuan domain untuk mengekstrak wawasan
B. Hanya memadukan statistik dan matematika murni
C. Berfokus eksklusif pada pengembangan algoritma machine learning
D. Mengandalkan satu disiplin ilmu tanpa memerlukan keahlian lain

Jawaban: A
Sains data bersifat interdisipliner karena menyatukan kompetensi statistik, pemrograman komputer, dan pemahaman domain spesifik untuk menghasilkan wawasan yang bermakna dari data.

Sebuah aplikasi asisten virtual seperti Siri atau Google Assistant menerima perintah suara dan merespons dengan tindakan spesifik dalam domain terbatas. Aplikasi semacam ini paling tepat dikategorikan sebagai…

A. Narrow AI yang dirancang untuk tugas spesifik
B. General Artificial Intelligence yang mampu berpikir seperti manusia
C. Super AI yang melampaui kecerdasan manusia
D. Strong AI yang memiliki kesadaran diri

Jawaban: A
Asisten virtual termasuk Narrow AI karena hanya unggul pada tugas tertentu yang telah diprogram. General AI dan Super AI masih bersifat teoretis dan belum terwujud.

Hubungan hierarkis yang benar antara Kecerdasan Artifisial, Machine Learning, dan Deep Learning adalah…

A. Deep Learning merupakan superset dari Machine Learning yang merupakan superset dari AI
B. AI merupakan subset dari Machine Learning, dan Machine Learning merupakan subset dari Deep Learning
C. Ketiganya merupakan bidang yang terpisah tanpa hubungan hierarkis
D. Deep Learning merupakan subset dari Machine Learning, dan Machine Learning merupakan subset dari AI

Jawaban: D
Hubungan yang benar: AI adalah bidang terluas, Machine Learning adalah cabang di dalam AI, dan Deep Learning adalah subbidang dari Machine Learning yang menggunakan jaringan saraf berlapis banyak.

Perbedaan mendasar antara Machine Learning tradisional dan Deep Learning terletak pada…

A. Machine Learning memerlukan perangkat keras GPU sedangkan Deep Learning tidak
B. Deep Learning tidak memerlukan data latih, sedangkan Machine Learning memerlukan data berlabel
C. Machine Learning hanya dapat menangani data tidak terstruktur, sedangkan Deep Learning hanya untuk data terstruktur
D. Deep Learning secara otomatis mengekstrak fitur dari data mentah, sedangkan Machine Learning tradisional memerlukan rekayasa fitur manual

Jawaban: D
Keunggulan Deep Learning adalah kemampuannya mempelajari representasi fitur secara hierarkis dari data mentah tanpa rekayasa fitur manual yang umum diperlukan pada machine learning tradisional.

Ketika sebuah sistem AI dilatih untuk memprediksi risiko kredit dan ternyata memberikan penolakan lebih tinggi pada kelompok demografis tertentu, permasalahan etika yang paling relevan adalah…

A. Privasi data nasabah yang bocor ke pihak ketiga
B. Keamanan data yang diretas oleh peretas
C. Bias algoritma yang menghasilkan keputusan tidak adil
D. Tata kelola data yang tidak memiliki dokumentasi

Jawaban: C
Ketika model secara sistematis merugikan kelompok tertentu, itu menunjukkan bias algoritma — kesalahan sistematis yang menghasilkan ketidakadilan, seringkali karena bias dalam data latih.

Perbedaan konseptual antara privasi data dan keamanan data dalam konteks tata kelola data adalah…

A. Privasi data berkaitan dengan perlindungan dari akses tidak sah, sedangkan keamanan data berkaitan dengan hak individu atas datanya
B. Keamanan data adalah bagian dari privasi data dan keduanya identik
C. Privasi data berkaitan dengan hak dan kontrol individu atas data pribadinya, sedangkan keamanan data berkaitan dengan perlindungan data dari ancaman dan akses ilegal
D. Privasi data hanya berlaku untuk data keuangan, sedangkan keamanan data berlaku untuk semua jenis data

Jawaban: C
Privasi data berfokus pada hak individu menentukan bagaimana data pribadi dikumpulkan dan digunakan, sementara keamanan data adalah tindakan teknis dan prosedural untuk melindungi data dari ancaman.

10.

Sebuah perusahaan teknologi menerapkan kerangka kerja yang mencakup kebijakan klasifikasi data, standar kualitas data, dan prosedur akses data di seluruh organisasi. Kerangka kerja ini paling tepat disebut sebagai…

A. Tata kelola data yang mengelola aset data secara organisasi
B. Etika data yang berfokus pada prinsip moral individu
C. Keamanan data yang hanya menangani enkripsi dan firewall
D. Bias algoritma yang mengatur fairness dalam model AI

Jawaban: A
Tata kelola data adalah kerangka kebijakan, prosedur, dan standar yang diterapkan organisasi untuk mengelola aset data secara menyeluruh, mencakup kualitas, keamanan, dan kepatuhan.

11.

Dalam proyek analisis sentimen media sosial, tim menemukan bahwa model secara konsisten mengklasifikasikan ulasan yang mengandung dialek daerah sebagai negatif. Situasi ini paling tepat menggambarkan…

A. Pelanggaran privasi karena menggunakan data publik
B. Kelemahan keamanan pada platform media sosial
C. Kegagalan tata kelola data karena tidak memiliki backup
D. Bias algoritma akibat representasi data latih yang tidak merata

Jawaban: D
Ketika data latih tidak merepresentasikan keragaman bahasa dan dialek secara proporsional, model dapat mengembangkan bias sistematis terhadap kelompok tertentu, menghasilkan prediksi yang tidak adil.

12.

Sebuah institusi riset membutuhkan sumber daya komputasi yang dapat disesuaikan secara dinamis sesuai beban kerja penelitian tanpa harus berinvestasi pada infrastruktur fisik. Pendekatan yang paling sesuai adalah…

A. Menggunakan cloud computing dengan model bayar sesuai pakai
B. Membangun data center on-premise dengan server dedicated
C. Menginstal virtualisasi pada workstation lokal masing-masing
D. Mengadopsi kontainerisasi tanpa penyedia cloud eksternal

Jawaban: A
Cloud computing menyediakan elastisitas sumber daya sesuai permintaan dengan model bayar sesuai pemakaian, sehingga institusi tidak perlu mengeluarkan biaya awal besar untuk infrastruktur fisik.

13.

Perbedaan utama antara virtualisasi tradisional dan kontainerisasi dalam konteks deployment aplikasi data adalah…

A. Virtualisasi tidak memungkinkan isolasi aplikasi, sedangkan kontainerisasi memungkinkan
B. Kontainerisasi berbagi kernel sistem operasi host sehingga lebih ringan, sedangkan virtualisasi menjalankan OS tamu penuh untuk setiap VM
C. Kontainerisasi hanya dapat berjalan pada sistem operasi Windows, sedangkan virtualisasi khusus Linux
D. Virtualisasi menggunakan Docker Engine, sedangkan kontainerisasi menggunakan Hypervisor

Jawaban: B
Kontainer berbagi kernel OS host sehingga overhead lebih kecil dan startup lebih cepat. Virtualisasi menjalankan OS tamu lengkap di atas hypervisor, membuatnya lebih berat namun dengan isolasi lebih penuh.

14.

Seorang peneliti deep learning mengeluhkan bahwa pelatihan model pada CPU memakan waktu berhari-hari. Teknologi yang paling tepat diadopsi untuk mempercepat proses pelatihan model dengan arsitektur neural network besar adalah…

A. GPU yang dirancang untuk komputasi paralel masif
B. Solid State Drive untuk penyimpanan data lebih cepat
C. Kontainer Docker untuk mempercepat deployment aplikasi
D. Load balancer untuk mendistribusikan beban komputasi

Jawaban: A
GPU memiliki ribuan inti yang dapat melakukan operasi matriks secara paralel, sangat cocok untuk mempercepat pelatihan deep learning yang didominasi komputasi matriks dan operasi floating-point.

15.

Tim IT sebuah perusahaan rintisan memutuskan untuk menjalankan beban kerja analisis data pada infrastruktur milik sendiri di kantor karena regulasi melarang data pelanggan disimpan di server pihak ketiga. Pendekatan ini disebut…

A. Hybrid cloud yang menggabungkan cloud publik dan privat
B. Infrastruktur on-premise yang dikelola sepenuhnya internal
C. Virtualisasi berbasis hypervisor pada cloud publik
D. Kontainerisasi dengan orkestrasi Kubernetes di AWS

Jawaban: B
On-premise berarti seluruh infrastruktur komputasi dimiliki, dioperasikan, dan dikelola sendiri di lokasi fisik organisasi, memberikan kontrol penuh atas data dan keamanan.

16.

Layanan cloud yang menyediakan akses langsung ke sistem operasi, penyimpanan, dan konfigurasi jaringan tanpa harus mengelola perangkat keras fisik termasuk dalam kategori…

A. Software as a Service (SaaS) seperti Google Workspace
B. Infrastructure as a Service (IaaS) seperti AWS EC2
C. Platform as a Service (PaaS) seperti Google App Engine
D. Function as a Service (FaaS) seperti AWS Lambda

Jawaban: B
IaaS memberikan sumber daya komputasi tervirtualisasi melalui internet, pengguna mengelola OS dan aplikasi tanpa mengelola perangkat keras fisik. EC2 dari AWS adalah contoh IaaS.

17.

Perbedaan utama antara Data Lake dan Data Warehouse dalam arsitektur data modern adalah…

A. Data Warehouse menyimpan data mentah dalam format asli, sedangkan Data Lake menyimpan data terstruktur yang telah diproses
B. Data Lake hanya dapat menyimpan data tidak terstruktur sedangkan Data Warehouse hanya data terstruktur
C. Keduanya identik dan hanya berbeda istilah pemasaran dari vendor
D. Data Lake menampung data mentah dalam format asli, sedangkan Data Warehouse menyimpan data terstruktur yang telah diproses dan dioptimalkan untuk query

Jawaban: D
Data Lake adalah repositori data mentah dalam format asli tanpa pemrosesan awal, sementara Data Warehouse menyimpan data yang telah dibersihkan, ditransformasi, dan dioptimalkan untuk analisis bisnis.

18.

Sebuah perusahaan startup memilih Google Cloud sebagai platform cloud-nya dan ingin memanfaatkan layanan analisis data besar yang terintegrasi penuh dengan kemampuan AI tanpa harus mengelola infrastruktur sendiri. Layanan pada Google Cloud yang paling sesuai untuk kebutuhan ini adalah…

A. Azure Synapse Analytics
B. Amazon Redshift
C. BigQuery
D. Snowflake

Jawaban: C
BigQuery adalah layanan data warehouse serverless Google Cloud yang terintegrasi dengan kemampuan AI/ML bawaan, cocok untuk analisis data besar tanpa pengelolaan infrastruktur.

19.

Ketika sebuah organisasi menggunakan layanan cloud untuk menjalankan aplikasi analisis data, mereka bertanggung jawab atas keamanan data dan konfigurasi akses pengguna, sementara penyedia cloud bertanggung jawab atas keamanan fisik pusat data. Model tanggung jawab bersama ini paling tepat dijelaskan oleh perbedaan antara…

A. Keamanan fisik dan keamanan logis
B. Keamanan jaringan dan keamanan aplikasi
C. Keamanan perimeter dan keamanan endpoint
D. Security of the cloud dan security in the cloud

Jawaban: D
Model shared responsibility membedakan security of the cloud (tanggung jawab penyedia atas infrastruktur fisik) dan security in the cloud (tanggung jawab pengguna atas data, akses, dan konfigurasi).

20.

Tim data sebuah perusahaan ritel membandingkan AWS, Google Cloud, dan Azure untuk membangun platform machine learning. Mereka memprioritaskan layanan yang memiliki integrasi paling erat dengan ekosistem Microsoft karena perusahaan sudah menggunakan Office 365 dan Dynamics. Platform cloud yang paling tepat dipilih adalah…

A. Amazon Web Services
B. Microsoft Azure
C. Google Cloud Platform
D. IBM Cloud

Jawaban: B
Microsoft Azure dirancang dengan integrasi mendalam ke ekosistem Microsoft seperti Office 365, Dynamics, dan Active Directory, menjadikannya pilihan alami bagi organisasi berbasis Microsoft.

21.

Seorang arsitek data merancang sistem yang menggabungkan penyimpanan data mentah dalam format asli dengan kemampuan query analitis layaknya gudang data, tanpa harus memindahkan data antar sistem. Arsitektur yang memenuhi kebutuhan ini adalah…

A. Data Lakehouse
B. Data Lake
C. Data Warehouse
D. Data Mart

Jawaban: A
Data Lakehouse menggabungkan fleksibilitas penyimpanan data mentah ala Data Lake dengan kemampuan transaksi dan query analitis seperti Data Warehouse dalam satu platform terpadu.

22.

Dalam arsitektur data modern, sebuah organisasi membutuhkan pemrosesan data yang menggabungkan jalur batch untuk analisis historis dan jalur real-time untuk dashboard operasional. Arsitektur yang secara spesifik dirancang untuk menangani kedua kebutuhan ini dengan lapisan serving terpisah adalah…

A. Arsitektur Monolitik
B. Arsitektur Microservices
C. Arsitektur Kappa
D. Arsitektur Lambda

Jawaban: D
Arsitektur Lambda memiliki tiga lapisan: batch layer untuk pemrosesan historis, speed layer untuk real-time, dan serving layer yang menggabungkan hasil keduanya.

23.

Sebuah perusahaan teknologi ingin mengadopsi praktik DevOps yang disesuaikan untuk pipeline machine learning, mencakup otomatisasi pelatihan model, versioning data, dan continuous monitoring di produksi. Praktik ini paling tepat disebut…

A. DataOps
B. GitOps
C. DevSecOps
D. MLOps

Jawaban: D
MLOps adalah adaptasi prinsip DevOps untuk machine learning, mencakup otomatisasi siklus hidup ML dari pelatihan, versioning, deployment, hingga monitoring model.

24.

Seorang insinyur data membangun arsitektur yang hanya menggunakan stream processing untuk semua jenis pemrosesan, menghilangkan batch layer sepenuhnya dengan asumsi semua data dapat diperlakukan sebagai stream tak terbatas. Arsitektur ini dikenal sebagai…

A. Arsitektur Lambda
B. Arsitektur Kappa
C. Arsitektur Delta
D. Arsitektur Zeta

Jawaban: B
Arsitektur Kappa menyederhanakan Lambda dengan menghilangkan batch layer dan hanya menggunakan stream processing engine untuk semua pemrosesan data.

25.

Seorang peneliti pasar ingin mengumpulkan data harga produk dari berbagai situs e-commerce secara otomatis setiap hari untuk analisis kompetitor. Teknik akuisisi data yang paling tepat digunakan adalah…

A. Web Scraping
B. API Data
C. Streaming Data
D. Database Replication

Jawaban: A
Web scraping adalah teknik mengekstrak data dari halaman web secara otomatis, cocok untuk mengambil data publik seperti harga produk yang tidak selalu tersedia melalui API.

26.

Sebuah aplikasi IoT mengirimkan data sensor dalam format JSON dengan struktur yang berubah-ubah tiap versi perangkat. Sistem basis data yang paling sesuai untuk menyimpan data semi-terstruktur semacam ini adalah…

A. MongoDB
B. MySQL
C. PostgreSQL
D. SQLite

Jawaban: A
MongoDB sebagai basis data NoSQL berorientasi dokumen dirancang untuk menangani data semi-terstruktur seperti JSON dengan skema fleksibel yang dapat berubah antar dokumen.

27.

Perbedaan mendasar antara basis data relasional dan NoSQL dalam konteks skema data adalah…

A. Relasional lebih cepat untuk semua jenis query dibanding NoSQL
B. NoSQL selalu lebih aman dibanding relasional
C. NoSQL hanya dapat menyimpan data tidak terstruktur, sedangkan relasional hanya data terstruktur
D. Relasional mensyaratkan skema tetap yang didefinisikan di awal, sedangkan NoSQL umumnya memiliki skema fleksibel

Jawaban: D
Basis data relasional menggunakan schema-on-write (skema didefinisikan sebelum data dimasukkan), sementara NoSQL sering menggunakan schema-on-read yang memungkinkan fleksibilitas struktur data.

28.

Data sensor cuaca tersimpan dalam bentuk file CSV dengan kolom suhu, kelembaban, dan tekanan yang terdefinisi konsisten setiap baris. Jenis data ini paling tepat diklasifikasikan sebagai…

A. Data Terstruktur
B. Data Semi-terstruktur
C. Data Tidak Terstruktur
D. Data Streaming

Jawaban: A
Data CSV dengan kolom yang konsisten dan terdefinisi termasuk data terstruktur karena mengikuti format tabular yang ketat dengan skema yang jelas.

29.

Dalam proses pembersihan data, seorang analis menemukan bahwa 40% baris pada kolom pendapatan pelanggan kosong. Jika ia memilih untuk mengisi nilai kosong tersebut dengan median pendapatan dari data yang ada, teknik ini disebut…

A. Deletion
B. Normalization
C. Imputation
D. Standardization

Jawaban: C
Imputation adalah teknik mengisi missing values dengan nilai estimasi seperti mean, median, atau modus, berbeda dengan deletion yang menghapus baris atau kolom tersebut.

30.

Seorang data scientist menerapkan transformasi pada fitur usia dan pendapatan hingga keduanya memiliki rata-rata 0 dan standar deviasi 1. Teknik transformasi yang diterapkan adalah…

A. Normalisasi
B. Log Transformation
C. Standardisasi
D. One-Hot Encoding

Jawaban: C
Standardisasi (Z-score normalization) mentransformasi data sehingga memiliki mean 0 dan standar deviasi 1, berbeda dengan normalisasi yang menskalakan ke rentang tertentu seperti 0 hingga 1.

31.

Ketika mengembangkan model prediksi harga rumah, seorang data scientist menciptakan fitur baru 'luas per kamar' dengan membagi total luas bangunan dengan jumlah kamar. Aktivitas ini termasuk dalam…

A. Feature Engineering
B. Normalisasi Data
C. Data Cleaning
D. Dimensionality Reduction

Jawaban: A
Feature engineering adalah proses menciptakan fitur baru dari data yang ada, seperti 'luas per kamar' yang merupakan turunan dari luas bangunan dan jumlah kamar.

32.

Dalam pipeline transformasi data, seorang insinyur data ingin memastikan bahwa setiap kali data baru masuk, seluruh rangkaian pembersihan, normalisasi, dan feature engineering dijalankan secara otomatis tanpa intervensi manual. Pendekatan yang paling tepat adalah…

A. Ad-hoc Transformation
B. Pipeline Transformasi Data Otomatis
C. Manual Feature Selection
D. Batch Processing Satu Kali

Jawaban: B
Pipeline transformasi data otomatis menjalankan seluruh rangkaian transformasi secara konsisten dan otomatis setiap data baru masuk, menjamin reproduktibilitas dan efisiensi.

33.

Sebuah perusahaan logistik perlu memproses data GPS dari ribuan kendaraan yang mengirimkan pembaruan lokasi setiap detik. Framework pemrosesan yang dirancang khusus untuk menangani aliran data real-time semacam ini adalah…

A. Apache Hadoop
B. Apache Spark
C. Apache Kafka
D. Apache Hive

Jawaban: C
Apache Kafka adalah platform streaming terdistribusi yang dirancang untuk menangani aliran data real-time berkecepatan tinggi, ideal untuk data streaming seperti pembaruan GPS.

34.

Seorang insinyur data membandingkan Hadoop MapReduce dan Apache Spark untuk tugas pemrosesan data besar yang melibatkan banyak iterasi, seperti algoritma machine learning. Alasan utama memilih Spark daripada Hadoop MapReduce adalah…

A. Spark hanya mendukung bahasa Java, lebih sederhana dari Hadoop
B. Spark melakukan pemrosesan in-memory yang mempercepat komputasi iteratif secara signifikan
C. Spark menyimpan data di disk untuk setiap iterasi, lebih andal
D. Spark tidak memerlukan klaster untuk berjalan, berbeda dengan Hadoop

Jawaban: B
Keunggulan utama Spark adalah pemrosesan in-memory yang menghindari penulisan ke disk antar iterasi, sehingga sangat mempercepat algoritma iteratif seperti machine learning dibanding MapReduce.

35.

Ketika sebuah pipeline pemrosesan data besar menggunakan kerangka kerja open-source yang menyimpan data secara terdistribusi dan memprosesnya dengan model MapReduce, kerangka kerja yang dimaksud adalah…

A. Apache Spark
B. Apache Hadoop
C. Apache Kafka
D. Apache Flink

Jawaban: B
Hadoop merupakan kerangka kerja open-source yang dirancang untuk penyimpanan terdistribusi dan pemrosesan data besar menggunakan model MapReduce.

36.

Perbedaan utama antara pemrosesan batch dan stream processing dalam konteks data skala besar terletak pada…

A. volume data yang dapat ditangani
B. waktu pemrosesan dan latensi hasil
C. bahasa pemrograman yang didukung
D. jenis basis data yang digunakan

Jawaban: B
Batch processing memproses data dalam blok besar dengan latensi tinggi, sementara stream processing menangani data secara real-time dengan latensi rendah.

37.

Seorang data scientist ingin melakukan operasi perkalian matriks dan menghitung dekomposisi nilai singular pada dataset numerik besar. Library Python yang menyediakan fungsi-fungsi komputasi numerik fundamental tersebut adalah…

A. Pandas
B. Matplotlib
C. NumPy
D. Seaborn

Jawaban: C
NumPy adalah library fundamental untuk komputasi numerik yang menyediakan objek array multidimensi dan fungsi aljabar linear seperti perkalian matriks dan dekomposisi nilai singular.

38.

Dalam ekosistem Python, struktur data dua dimensi berlabel yang memungkinkan manipulasi data tabular dengan operasi seperti grouping, merging, dan reshaping disediakan oleh…

A. NumPy Array
B. Python Dictionary
C. Pandas DataFrame
D. Matplotlib Figure

Jawaban: C
Pandas DataFrame adalah struktur data dua dimensi berlabel dalam library Pandas yang dirancang khusus untuk manipulasi dan analisis data tabular.

39.

Seorang analis ingin membuat visualisasi yang terdiri dari beberapa subplot dalam satu figure, masing-masing menampilkan histogram, scatter plot, dan box plot dari dataset yang sama. Library Python yang memungkinkan kustomisasi tata letak semacam ini secara langsung adalah…

A. Seaborn
B. Pandas
C. Scikit-learn
D. Matplotlib

Jawaban: D
Matplotlib menyediakan kontrol tingkat rendah untuk membuat figure dengan banyak subplot dan kustomisasi tata letak visualisasi secara detail.

40.

Perbedaan mendasar antara NumPy Array dan Pandas DataFrame dalam konteks struktur data adalah…

A. NumPy Array hanya mendukung data numerik, Pandas DataFrame hanya mendukung data teks
B. NumPy Array tidak mendukung operasi matematika, Pandas DataFrame khusus untuk visualisasi
C. NumPy Array homogen dengan indeks implisit integer, Pandas DataFrame heterogen dengan indeks baris dan kolom berlabel
D. NumPy Array berukuran tetap, Pandas DataFrame selalu berukuran dinamis

Jawaban: C
NumPy Array bersifat homogen dan menggunakan indeks integer implisit, sedangkan Pandas DataFrame bersifat heterogen dengan label indeks pada baris dan kolom.

41.

Dalam SQL, operator yang menggabungkan baris dari dua tabel dan tetap mempertahankan semua baris dari tabel kiri meskipun tidak ada pasangan di tabel kanan disebut…

A. INNER JOIN
B. CROSS JOIN
C. LEFT JOIN
D. RIGHT JOIN

Jawaban: C
LEFT JOIN mengembalikan semua baris dari tabel kiri dan baris yang cocok dari tabel kanan; jika tidak ada kecocokan, kolom dari tabel kanan bernilai NULL.

42.

Seorang analis perlu menghitung rata-rata penjualan bergerak 7 hari untuk setiap produk dalam satu query tanpa mereduksi jumlah baris hasil. Fungsi SQL yang paling tepat digunakan adalah…

A. Window Function dengan klausa OVER
B. Fungsi agregasi dengan GROUP BY
C. Subquery di klausa WHERE
D. Operator UNION ALL

Jawaban: A
Window function melakukan kalkulasi pada sekumpulan baris terkait tanpa meruntuhkan hasil, sehingga rata-rata bergerak dapat dihitung sambil mempertahankan setiap baris asli.

43.

Perbedaan antara klausa WHERE dan HAVING dalam query SQL adalah…

A. WHERE digunakan sebelum pengelompokan, HAVING digunakan setelah pengelompokan
B. WHERE hanya untuk data teks, HAVING hanya untuk data numerik
C. WHERE tidak mendukung operator logika, HAVING mendukung operator logika
D. WHERE memerlukan indeks, HAVING tidak memerlukan indeks

Jawaban: A
WHERE memfilter baris sebelum operasi GROUP BY diterapkan, sedangkan HAVING memfilter grup hasil agregasi setelah GROUP BY.

44.

Seorang data scientist sedang mengembangkan model di Jupyter Notebook dan perlu memastikan bahwa library yang digunakan dalam proyek ini tidak bertabrakan dengan versi library di proyek lain. Alat manajemen lingkungan yang menyediakan isolasi lingkungan beserta dependensinya adalah…

A. Git
B. Conda
C. GitHub
D. pip

Jawaban: B
Conda adalah manajer paket dan lingkungan yang memungkinkan isolasi lingkungan lengkap beserta semua dependensi perangkat lunak untuk setiap proyek.

45.

Seorang peneliti ingin berbagi dokumen yang berisi kode Python, output visualisasi, dan penjelasan naratif dalam satu file interaktif yang dapat dijalankan ulang oleh koleganya. Aplikasi yang menghasilkan dokumen semacam ini adalah…

A. Jupyter Notebook
B. GitHub
C. Conda
D. Visual Studio Code

Jawaban: A
Jupyter Notebook adalah aplikasi web interaktif yang memungkinkan pembuatan dokumen berisi kode, visualisasi, dan teks naratif yang dapat dieksekusi ulang.

46.

Perbedaan antara Git dan GitHub dalam konteks kontrol versi adalah…

A. Git adalah sistem kontrol versi terdistribusi, GitHub adalah layanan hosting repositori Git berbasis web
B. Git hanya untuk proyek Python, GitHub untuk semua bahasa pemrograman
C. Git memerlukan koneksi internet, GitHub bekerja secara offline
D. Git adalah antarmuka grafis, GitHub adalah antarmuka baris perintah

Jawaban: A
Git adalah perangkat lunak kontrol versi terdistribusi yang berjalan secara lokal, sedangkan GitHub adalah platform web yang menyediakan hosting untuk repositori Git dan fitur kolaborasi.

47.

Seorang praktisi melatih model machine learning menggunakan data berlabel untuk memprediksi harga rumah berdasarkan fitur-fitur seperti luas bangunan dan jumlah kamar. Paradigma pembelajaran yang diterapkan adalah…

A. Reinforcement Learning
B. Supervised Learning
C. Unsupervised Learning
D. Semi-supervised Learning

Jawaban: B
Supervised learning menggunakan data berlabel, di mana model belajar memetakan fitur input ke output yang diketahui untuk melakukan prediksi pada data baru.

48.

Ketika sebuah model regresi menunjukkan performa sangat baik pada data latih dengan R-squared 0,98 namun hanya mencapai R-squared 0,45 pada data uji, kondisi yang dialami model tersebut adalah…

A. Overfitting
B. Underfitting
C. Regularisasi
D. Konvergensi

Jawaban: A
Overfitting terjadi ketika model terlalu cocok dengan data latih, menangkap noise dan pola spesifik, sehingga gagal menggeneralisasi pada data baru yang tidak terlihat sebelumnya.

49.

Perbedaan antara overfitting dan underfitting dalam konteks machine learning adalah…

A. Overfitting terjadi pada model linear, underfitting pada model non-linear
B. Overfitting ditandai bias tinggi, underfitting ditandai varians tinggi
C. Overfitting adalah model terlalu sederhana, underfitting adalah model terlalu kompleks
D. Overfitting memiliki error latih rendah dan error uji tinggi, underfitting memiliki error tinggi pada keduanya

Jawaban: D
Overfitting menunjukkan error latih rendah namun error uji tinggi karena model terlalu kompleks, sedangkan underfitting menunjukkan error tinggi pada data latih dan uji karena model terlalu sederhana.

50.

Seorang data scientist menghadapi masalah klasifikasi biner di mana dataset memiliki 1000 sampel kelas minoritas dan 50000 sampel kelas mayoritas. Ia memutuskan menggunakan algoritma yang mencari hyperplane pemisah optimal dengan margin maksimum. Algoritma yang dimaksud adalah…

A. Regresi Linear
B. Decision Tree
C. Random Forest
D. Support Vector Machine

Jawaban: D
Support Vector Machine mencari hyperplane optimal yang memaksimalkan margin antar kelas, dan dapat menangani klasifikasi biner termasuk pada dataset tidak seimbang.

51.

Seorang praktisi membandingkan Decision Tree tunggal dengan Random Forest untuk tugas klasifikasi. Keunggulan utama Random Forest dibandingkan Decision Tree tunggal adalah…

A. Random Forest selalu membutuhkan waktu pelatihan yang lebih singkat
B. Random Forest tidak memerlukan data latih untuk membuat prediksi
C. Random Forest menghasilkan model yang lebih mudah diinterpretasi secara visual
D. Random Forest mengurangi varians dan meningkatkan generalisasi melalui agregasi ensemble

Jawaban: D
Random Forest membangun banyak pohon keputusan dan menggabungkan prediksinya, sehingga mengurangi varians dan overfitting yang sering terjadi pada Decision Tree tunggal.

52.

Seorang data scientist ingin memprediksi harga mobil bekas berdasarkan tahun produksi, jarak tempuh, dan kapasitas mesin. Ia memilih model yang mengasumsikan hubungan linear antara variabel-variabel tersebut dengan harga. Model yang paling tepat digunakan adalah…

A. Regresi Linear
B. Regresi Logistik
C. Decision Tree
D. Support Vector Machine

Jawaban: A
Regresi linear memprediksi variabel kontinu dengan asumsi hubungan linear antara variabel independen dan dependen. Regresi logistik digunakan untuk klasifikasi, bukan prediksi nilai kontinu seperti harga.

53.

PT Sentra Analitik memiliki data transaksi pelanggan tanpa label dan ingin mengelompokkan pelanggan ke dalam beberapa segmen berdasarkan pola belanja. Jumlah segmen yang diinginkan sudah ditentukan oleh tim bisnis sebanyak lima kelompok. Algoritma unsupervised learning yang paling sesuai untuk kebutuhan ini adalah…

A. K-Means
B. DBSCAN
C. PCA
D. t-SNE

Jawaban: A
K-Means mempartisi data ke dalam sejumlah klaster yang telah ditentukan sebelumnya (k=5) dengan meminimalkan varians intra-klaster. DBSCAN tidak mensyaratkan jumlah klaster di awal, sedangkan PCA dan t-SNE adalah teknik reduksi dimensi, bukan klastering.

54.

Seorang peneliti menganalisis data titik lokasi kejadian gempa bumi di Indonesia. Ia menemukan bahwa data membentuk kelompok-kelompok dengan kepadatan berbeda dan terdapat wilayah dengan titik yang sangat jarang. Algoritma yang paling tepat untuk menemukan klaster tanpa menentukan jumlahnya terlebih dahulu adalah…

A. K-Means
B. Hierarchical Clustering
C. Mean Shift
D. DBSCAN

Jawaban: D
DBSCAN mengelompokkan titik berdasarkan kepadatan dan tidak memerlukan jumlah klaster di awal. Algoritma ini mampu menemukan klaster dengan bentuk arbitrer dan mengidentifikasi titik noise, cocok untuk data spasial dengan kepadatan bervariasi.

55.

Seorang data scientist menghadapi dataset dengan 200 fitur numerik dan ingin mereduksi dimensi data menjadi beberapa komponen yang mempertahankan varians maksimum untuk visualisasi. Teknik yang paling tepat digunakan adalah…

A. t-SNE
B. Autoencoder
C. PCA
D. LDA

Jawaban: C
PCA mentransformasi fitur menjadi komponen utama yang mempertahankan varians maksimum secara linear. Teknik ini cocok untuk reduksi dimensi dengan mempertahankan struktur varians global, berbeda dengan t-SNE yang lebih cocok untuk visualisasi nonlinear namun tidak mempertahankan varians global.

56.

Dalam melatih jaringan saraf tiruan, algoritma yang menghitung gradien fungsi loss terhadap setiap bobot dengan mengalirkan error dari lapisan output kembali ke lapisan input disebut…

A. Forward Propagation
B. Backpropagation
C. Gradient Descent
D. Stochastic Gradient Descent

Jawaban: B
Backpropagation adalah algoritma inti pelatihan neural network yang menghitung gradien secara mundur dari output ke input menggunakan aturan rantai. Forward propagation adalah proses menghitung output dari input ke output, sedangkan gradient descent adalah algoritma optimasi yang menggunakan gradien tersebut.

57.

Seorang praktisi deep learning membangun jaringan saraf dengan banyak lapisan tersembunyi. Ia mengamati bahwa nilai gradien menjadi sangat kecil saat mencapai lapisan awal sehingga bobot lapisan tersebut hampir tidak berubah. Masalah ini paling tepat diatasi dengan memilih fungsi aktivasi…

A. ReLU
B. Tanh
C. Sigmoid
D. Softmax

Jawaban: A
ReLU (Rectified Linear Unit) mengatasi vanishing gradient karena turunannya bernilai 1 untuk input positif, sehingga gradien tidak mengecil secara eksponensial saat backpropagation. Sigmoid dan Tanh memiliki turunan yang mendekati nol pada nilai jenuh, memperparah vanishing gradient.

58.

PT Inovasi Data mengembangkan sistem deteksi cacat produk berbasis gambar. Tim memilih menggunakan TensorFlow dengan API tingkat tinggi untuk membangun dan melatih model neural network secara cepat tanpa harus mengelola detail operasi tensor. API yang dimaksud adalah…

A. Keras
B. Scikit-learn
C. PyTorch
D. Theano

Jawaban: A
Keras adalah API tingkat tinggi yang terintegrasi dalam TensorFlow, dirancang untuk memudahkan pembangunan dan pelatihan model deep learning dengan sintaks yang ringkas dan intuitif. PyTorch adalah framework terpisah, bukan bagian dari TensorFlow.

59.

Seorang peneliti computer vision menerapkan operasi matematis berupa filter 3×3 yang digeser melintasi gambar input untuk mendeteksi tepi dan tekstur. Operasi yang dilakukan pada lapisan awal CNN ini disebut…

A. Pooling
B. Konvolusi
C. Flattening
D. Normalisasi

Jawaban: B
Operasi menggeser filter melintasi gambar untuk mengekstrak fitur spasial seperti tepi dan tekstur pada lapisan awal CNN disebut konvolusi.

60.

Setelah menerapkan beberapa lapisan konvolusi pada arsitektur CNN, seorang insinyur menambahkan operasi yang mereduksi dimensi spasial peta fitur dari 112×112 menjadi 56×56 dengan mengambil nilai maksimum di setiap jendela 2×2. Operasi ini disebut…

A. Konvolusi
B. Pooling
C. Padding
D. Stride

Jawaban: B
Pooling adalah operasi downsampling yang mengurangi dimensi peta fitur sambil mempertahankan informasi penting. Max pooling mengambil nilai maksimum dalam jendela tertentu, mengurangi ukuran spasial dan parameter komputasi.

61.

Tim riset PT Visi Cerdas ingin membangun model klasifikasi citra satwa endemik Indonesia, namun hanya memiliki 500 gambar per spesies. Mereka memutuskan menggunakan model yang sudah dilatih pada ImageNet dan hanya melatih ulang beberapa lapisan terakhir. Teknik yang diterapkan disebut…

A. Transfer Learning
B. Feature Extraction
C. Fine-tuning
D. Training from Scratch

Jawaban: C
Fine-tuning adalah teknik transfer learning di mana model pra-latih dilatih ulang pada dataset baru dengan menyesuaikan bobot beberapa lapisan. Ini berbeda dari feature extraction yang membekukan seluruh bobot pra-latih, atau training from scratch yang melatih dari nol.

62.

Sebuah model penerjemah mesin memproses kalimat bahasa Indonesia dan menghasilkan terjemahan bahasa Inggris. Agar model dapat menangkap konteks kata yang memiliki ketergantungan jarak jauh, arsitektur RNN yang paling tepat digunakan karena memiliki mekanisme gerbang untuk mengontrol aliran informasi adalah…

A. Simple RNN
B. Autoencoder
C. CNN
D. LSTM

Jawaban: D
LSTM (Long Short-Term Memory) dirancang dengan mekanisme gerbang forget, input, dan output untuk mengontrol informasi yang dipertahankan atau dibuang, sehingga mampu mengingat dependensi jangka panjang. Simple RNN rentan terhadap vanishing gradient pada sekuens panjang.

63.

Seorang peneliti NLP membandingkan arsitektur RNN dengan Transformer untuk tugas pemrosesan teks. Keunggulan utama Transformer dibandingkan RNN adalah…

A. Memproses data secara sekuensial langkah demi langkah
B. Menggunakan mekanisme rekurensi untuk menangkap konteks
C. Hanya dapat menangani sekuens dengan panjang tetap
D. Memproses seluruh urutan secara paralel dengan mekanisme self-attention

Jawaban: D
Transformer memproses seluruh urutan secara paralel menggunakan mekanisme self-attention, berbeda dengan RNN yang memproses secara sekuensial. Paralelisasi ini memungkinkan pelatihan lebih cepat dan menangkap dependensi jarak jauh tanpa masalah vanishing gradient.

64.

Dalam arsitektur Transformer, mekanisme yang menghitung bobot relevansi antara setiap kata dalam kalimat dengan semua kata lainnya secara simultan untuk menangkap konteks dua arah disebut…

A. Positional Encoding
B. Feed-Forward Network
C. Self-Attention
D. Layer Normalization

Jawaban: C
Self-attention menghitung skor relevansi antara setiap token dengan seluruh token lain dalam urutan secara paralel, memungkinkan model menangkap hubungan kontekstual tanpa bergantung pada jarak. Mekanisme ini adalah inti dari arsitektur Transformer.

65.

Sebelum teks dapat diproses oleh model machine learning, seorang praktisi NLP memecah kalimat 'Saya belajar di Universitas Terbuka' menjadi unit-unit ['Saya', 'belajar', 'di', 'Universitas', 'Terbuka']. Proses ini disebut…

A. Stemming
B. Lemmatisasi
C. Parsing
D. Tokenisasi

Jawaban: D
Tokenisasi adalah proses memecah teks menjadi unit-unit lebih kecil (token) seperti kata atau subkata. Proses ini merupakan langkah fundamental dalam pipeline NLP sebelum representasi teks lebih lanjut.

66.

Seorang analis sentimen ingin mengukur pentingnya kata-kata dalam ulasan produk terhadap keseluruhan korpus ulasan yang ada. Ia memilih metode yang memberi bobot lebih tinggi pada kata yang sering muncul di dokumen tertentu tetapi jarang di keseluruhan korpus. Metode representasi teks yang dimaksud adalah…

A. Bag-of-Words
B. TF-IDF
C. One-Hot Encoding
D. Word Embedding

Jawaban: B
TF-IDF mengukur pentingnya kata dengan mengalikan frekuensi kata dalam dokumen (TF) dengan inverse frekuensi dokumen (IDF) yang menghukum kata yang muncul di banyak dokumen. Bag-of-Words hanya menghitung frekuensi tanpa mempertimbangkan kepentingan relatif antar dokumen.

67.

Dalam pipeline NLP bahasa Indonesia, seorang praktisi mengubah kata 'berlari' menjadi 'lari' dan 'mengembangkan' menjadi 'kembang' dengan menghilangkan imbuhan. Teknik normalisasi teks yang diterapkan adalah…

A. Tokenisasi
B. Lemmatisasi
C. Stemming
D. Parsing

Jawaban: C
Stemming adalah proses menghilangkan imbuhan untuk mendapatkan bentuk dasar kata secara mekanis tanpa memperhatikan konteks dan kelas kata. Lemmatisasi menghasilkan bentuk kamus yang valid dengan mempertimbangkan kelas kata, sementara pada contoh ini penghilangan afiks dilakukan tanpa analisis morfologis mendalam.

68.

PT Bahasa Cerdas ingin membangun chatbot layanan pelanggan yang mampu memahami pertanyaan kompleks dan menghasilkan respons natural. Mereka memilih menggunakan GPT karena model ini telah dilatih pada data teks sangat besar sehingga memiliki kemampuan pemahaman bahasa yang luas. Jenis model yang dimaksud adalah…

A. Large Language Model
B. Convolutional Neural Network
C. Decision Tree
D. Support Vector Machine

Jawaban: A
Large Language Model (LLM) adalah model deep learning skala masif yang dilatih pada korpus teks sangat besar sehingga memiliki kemampuan memahami dan menghasilkan teks yang mirip manusia. GPT termasuk dalam kategori ini dan cocok untuk tugas chatbot yang memerlukan pemahaman bahasa alami.

69.

Saat merancang instruksi untuk model bahasa besar agar menghasilkan ringkasan rapat dalam format poin-poin kunci, seorang praktisi mencoba beberapa variasi kalimat perintah dan memilih yang memberikan hasil paling konsisten. Aktivitas ini paling tepat disebut…

A. Fine-tuning
B. Prompt Engineering
C. Tokenisasi
D. Transfer Learning

Jawaban: B
Prompt engineering adalah seni merancang instruksi masukan yang efektif untuk memandu LLM menghasilkan output yang diinginkan tanpa mengubah parameter model.

70.

PT Cakrawala Bahasa memiliki dataset percakapan layanan pelanggan dalam bahasa Indonesia sebanyak 5.000 pasang tanya-jawab. Mereka menggunakan model GPT yang sudah dilatih dan ingin menyesuaikannya agar lebih akurat untuk domain layanan pelanggan. Proses yang paling tepat diterapkan adalah…

A. Prompt Engineering
B. Tokenisasi
C. Fine-tuning
D. Self-Attention

Jawaban: C
Fine-tuning adalah proses melatih ulang model pra-latih pada dataset spesifik domain untuk menyesuaikan performanya pada tugas tertentu.

71.

Sebuah sistem pengawasan lalu lintas cerdas harus mendeteksi dan menghitung jumlah kendaraan yang melintas pada suatu persimpangan serta memberikan koordinat persegi yang mengelilingi setiap kendaraan. Tugas computer vision yang dijalankan sistem ini adalah…

A. Segmentasi Objek
B. Deteksi Objek
C. Optical Character Recognition
D. Pengenalan Wajah

Jawaban: B
Deteksi objek mengidentifikasi dan melokalisasi objek dalam gambar menggunakan bounding box, tepat untuk menghitung dan memberi koordinat persegi pada kendaraan.

72.

PT Arsip Digital ingin mengonversi jutaan halaman dokumen cetak hasil pemindaian menjadi teks yang dapat dicari dan diedit. Teknologi computer vision yang paling tepat untuk kebutuhan ini adalah…

A. Segmentasi Objek
B. Deteksi Objek
C. Optical Character Recognition
D. Pengenalan Wajah

Jawaban: C
OCR adalah teknologi yang mengonversi teks dari gambar hasil pemindaian menjadi teks yang dapat diedit mesin, cocok untuk digitalisasi dokumen cetak.

73.

Dalam computer vision, perbedaan antara deteksi objek dan segmentasi objek terletak pada…

A. Deteksi bekerja pada video, segmentasi hanya pada gambar statis
B. Deteksi memberikan bounding box, segmentasi memberikan label pada tingkat piksel
C. Deteksi memerlukan deep learning, segmentasi hanya memerlukan pengolahan citra klasik
D. Deteksi hanya mengenali satu objek, segmentasi mengenali banyak objek sekaligus

Jawaban: B
Deteksi objek menghasilkan bounding box yang melingkupi objek, sedangkan segmentasi objek memisahkan objek dari latar belakang pada tingkat piksel untuk pemahaman yang lebih rinci.

74.

Seorang data scientist di perusahaan e-commerce ingin membangun dan men-deploy model rekomendasi produk tanpa harus mengelola infrastruktur server secara manual. Ia memilih platform cloud yang menyediakan layanan ML terkelola penuh mulai dari pelatihan hingga deployment. Platform yang dimaksud adalah…

A. Amazon SageMaker
B. Jupyter Notebook
C. Apache Spark
D. Docker

Jawaban: A
Amazon SageMaker adalah layanan AWS terkelola penuh yang menyediakan alat untuk setiap langkah siklus pengembangan machine learning termasuk deployment.

75.

Platform machine learning terintegrasi yang menyediakan teknologi AutoML untuk mengotomatisasi pemilihan model dan penyetelan hyperparameter adalah…

A. Google Vertex AI
B. Docker
C. Kubernetes
D. Jupyter Notebook

Jawaban: A
Vertex AI adalah platform ML terpadu Google Cloud yang mencakup AutoML untuk mengotomatisasi proses pemilihan model, rekayasa fitur, dan penyetelan hyperparameter.

76.

PT Finansial Sejahtera telah menggunakan ekosistem Microsoft seperti Azure Active Directory dan Power Platform. Mereka ingin membangun solusi machine learning yang terintegrasi erat dengan ekosistem tersebut. Platform yang paling tepat dipilih adalah…

A. Google Vertex AI
B. Amazon SageMaker
C. Microsoft Azure Machine Learning
D. Hugging Face

Jawaban: C
Azure Machine Learning adalah platform cloud Microsoft yang menyediakan layanan AI dan ML terintegrasi dengan ekosistem Microsoft secara native.

77.

Seorang peneliti di universitas membutuhkan framework deep learning yang mendukung graf komputasi dinamis untuk eksperimen riset yang memerlukan perubahan arsitektur model secara fleksibel selama pelatihan. Framework yang paling tepat adalah…

A. Scikit-learn
B. PyTorch
C. Tableau
D. Streamlit

Jawaban: B
PyTorch populer untuk riset karena fleksibilitas dan graf komputasi dinamisnya yang memungkinkan perubahan arsitektur model secara on-the-fly.

78.

Perbedaan utama antara TensorFlow dan Scikit-learn dalam ekosistem AI open source adalah…

A. TensorFlow untuk deep learning, Scikit-learn untuk machine learning klasik
B. TensorFlow berbayar, Scikit-learn gratis
C. TensorFlow untuk visualisasi, Scikit-learn untuk pemrosesan data
D. TensorFlow hanya berjalan di cloud, Scikit-learn hanya berjalan di lokal

Jawaban: A
TensorFlow adalah framework deep learning untuk membangun neural network kompleks, sedangkan Scikit-learn adalah library sederhana dan efisien untuk machine learning klasik dan analisis data prediktif.

79.

PT Bahasa Global membutuhkan akses ke ribuan model NLP pre-trained dan dataset untuk mempercepat pengembangan sistem analisis sentimen multibahasa. Platform open source yang menyediakan akses tersebut adalah…

A. Scikit-learn
B. Tableau
C. Hugging Face
D. Apache Kafka

Jawaban: C
Hugging Face adalah platform yang menyediakan akses ke ribuan model pre-trained dan dataset untuk NLP dan computer vision melalui library Transformers.

80.

Seorang manajer pemasaran ingin membuat dashboard interaktif untuk memantau metrik kampanye tanpa menulis kode pemrograman. Alat visualisasi yang paling tepat digunakan adalah…

A. Streamlit
B. Python
C. Tableau
D. TensorFlow

Jawaban: C
Tableau adalah platform analitik visual interaktif yang memungkinkan pembuatan dashboard dan laporan bisnis tanpa memerlukan pemrograman mendalam.

81.

Seorang data scientist ingin membangun prototipe aplikasi web yang menampilkan hasil prediksi model machine learning secara interaktif dalam waktu singkat menggunakan Python. Framework yang paling tepat adalah…

A. Tableau
B. Streamlit
C. Docker
D. Kubernetes

Jawaban: B
Streamlit adalah framework Python open-source yang dirancang untuk membangun aplikasi web data science interaktif dengan cepat dan mudah.

82.

Dalam konteks penyajian hasil analisis data, praktik mengkomunikasikan wawasan data melalui narasi yang dikombinasikan dengan visualisasi yang menarik dikenal sebagai…

A. Data Storytelling
B. Data Warehousing
C. Data Scraping
D. Data Streaming

Jawaban: A
Data storytelling adalah praktik menggabungkan narasi dengan visualisasi data untuk mengkomunikasikan wawasan secara efektif kepada pemangku kepentingan.

83.

Tim machine learning PT Prediksi Akurat mencatat bahwa akurasi model prediksi penjualan yang sudah berjalan di produksi menurun drastis dalam dua minggu terakhir, meskipun kode model tidak berubah. Setelah diselidiki, karakteristik data input telah bergeser dari pola saat pelatihan. Situasi ini paling tepat disebut…

A. Data Drift
B. Concept Drift
C. Overfitting
D. Underfitting

Jawaban: A
Data drift terjadi ketika distribusi data input di produksi berubah dibandingkan data pelatihan, menyebabkan penurunan performa model meskipun kode tidak berubah.

84.

Perbedaan antara Data Drift dan Concept Drift dalam konteks monitoring model di produksi adalah…

A. Data drift pada data input, concept drift pada hubungan antara input dan output
B. Data drift hanya terjadi di cloud, concept drift hanya di on-premise
C. Data drift memerlukan pelatihan ulang, concept drift tidak memerlukan tindakan apa pun
D. Data drift terdeteksi otomatis, concept drift hanya terdeteksi manual

Jawaban: A
Data drift adalah perubahan distribusi data input, sedangkan concept drift adalah perubahan hubungan statistik antara variabel input dan target output seiring waktu.

85.

Dalam siklus manajemen model machine learning, sebuah organisasi menerapkan alat yang memungkinkan tim melacak eksperimen, memversikan model, dan mengelola tahapan deployment secara terpadu. Alat open-source yang secara spesifik mengelola siklus hidup ML mencakup reproducibility dan registri model adalah…

A. Apache Airflow
B. DVC
C. Kubernetes
D. MLflow

Jawaban: D
MLflow adalah platform open-source yang memang dirancang khusus untuk mengelola siklus hidup machine learning, mencakup tracking eksperimen, versioning model, dan deployment. DVC lebih fokus pada versioning data, Kubernetes pada orkestrasi kontainer, dan Airflow pada penjadwalan workflow.

86.

Ketika tim MLOps mengamati bahwa distribusi fitur 'rata-rata transaksi harian' dalam data produksi bergeser secara signifikan dari distribusi saat pelatihan, namun hubungan antara fitur tersebut dengan target tetap sama, fenomena monitoring model yang terjadi adalah…

A. Concept Drift
B. Data Drift
C. Model Degradation
D. Feature Decay

Jawaban: B
Data Drift merujuk pada perubahan distribusi data input (fitur) di produksi dibandingkan saat pelatihan, sementara hubungan dengan target tidak berubah. Concept Drift terjadi ketika hubungan antara fitur dan target yang berubah. Keduanya merupakan aspek penting dalam drift detection pada monitoring model.

87.

PT Logistik Nusantara berencana men-deploy model prediksi keterlambatan pengiriman yang dibangun dengan scikit-learn ke lingkungan produksi. Mereka ingin model dapat dipanggil oleh aplikasi web internal melalui HTTP request dengan format JSON. Pendekatan deployment yang paling tepat adalah…

A. Menyajikan model sebagai REST API menggunakan FastAPI
B. Mengunggah model ke Google Drive dan membagikan link
C. Mengekspor model sebagai file Excel untuk diunduh
D. Menjadwalkan model berjalan otomatis dengan cron job

Jawaban: A
REST API dengan FastAPI memungkinkan model machine learning disajikan sebagai layanan yang dapat dipanggil melalui HTTP request, menerima input JSON dan mengembalikan prediksi. Ini adalah pendekatan standar untuk serving model ke produksi agar dapat diintegrasikan dengan aplikasi lain.

88.

Seorang insinyur ML di PT Fintech Cerdas harus memastikan bahwa model prediksi risiko kredit yang di-deploy berjalan konsisten di lingkungan pengembangan, staging, maupun produksi tanpa masalah perbedaan dependensi. Ia memutuskan untuk mengemas model bersama semua library dan dependensinya ke dalam unit terisolasi yang portabel. Teknologi yang paling tepat digunakan adalah…

A. VirtualBox
B. Docker
C. Anaconda
D. Jupyter

Jawaban: B
Docker adalah platform kontainerisasi yang mengemas aplikasi beserta seluruh dependensinya ke dalam kontainer portabel, memastikan konsistensi lingkungan di berbagai tahap deployment. Berbeda dengan virtualisasi penuh, kontainer lebih ringan dan cepat dijalankan.

89.

Setelah mengemas model ke dalam kontainer, PT Retail Cerdas menghadapi lonjakan trafik prediksi selama musim belanja. Tim perlu mengelola puluhan kontainer model secara otomatis, termasuk scaling berdasarkan beban dan pemulihan saat kontainer gagal. Sistem yang menyediakan orkestrasi kontainer semacam ini adalah…

A. Terraform
B. Docker Compose
C. Jenkins
D. Kubernetes

Jawaban: D
Kubernetes adalah sistem orkestrasi kontainer yang mengotomatisasi deployment, scaling, dan manajemen aplikasi terkontainerisasi. Docker Compose hanya untuk lingkungan pengembangan lokal, Jenkins untuk CI/CD, dan Terraform untuk infrastructure as code.

90.

Perbedaan utama antara Continuous Integration dan Continuous Deployment dalam pipeline machine learning terletak pada…

A. CI menggunakan Docker, sedangkan CD menggunakan Kubernetes
B. CI hanya untuk model deep learning, sedangkan CD untuk semua model
C. CI menggabungkan kode secara berkala dengan pengujian otomatis, sedangkan CD melepaskan model yang lolos uji ke produksi secara otomatis
D. CI berjalan mingguan, sedangkan CD berjalan harian

Jawaban: C
Continuous Integration (CI) adalah praktik mengintegrasikan perubahan kode ke repositori utama secara berkala disertai pengujian otomatis, sedangkan Continuous Deployment (CD) adalah praktik otomatis melepaskan model yang telah lolos pengujian ke lingkungan produksi tanpa intervensi manual. Keduanya merupakan tahapan berbeda dalam pipeline CI/CD.

91.

Tim MLOps PT Asuransi Digital menetapkan bahwa model prediksi klaim harus memiliki akurasi minimal 85% pada data uji dan tidak mengandung bias demografis sebelum dapat dipromosikan dari staging ke produksi. Dalam pipeline CI/CD, ketentuan ini berfungsi sebagai…

A. Monitoring Alert
B. Rollback Trigger
C. Deployment Script
D. Quality Gate

Jawaban: D
Quality Gate adalah kriteria otomatis yang harus dipenuhi model sebelum dapat dipromosikan ke tahap pipeline berikutnya. Dalam kasus ini, ambang akurasi 85% dan pemeriksaan bias merupakan quality gate yang memastikan hanya model berkualitas yang mencapai produksi.

92.

Dalam konteks pipeline CI/CD untuk machine learning, pengujian yang memverifikasi bahwa seluruh rangkaian komponen mulai dari praproses data, pelatihan, hingga inferensi berfungsi dengan benar secara end-to-end disebut…

A. Pengujian Integrasi
B. Pengujian Unit
C. Pengujian A/B
D. Pengujian Beban

Jawaban: A
Pengujian integrasi memvalidasi bahwa seluruh komponen pipeline ML bekerja bersama dengan benar, dari praproses hingga inferensi. Ini berbeda dengan pengujian unit yang hanya menguji komponen individual secara terisolasi.

93.

PT Transportasi Pintar ingin mengembangkan sistem prediksi waktu kedatangan bus. Sebelum memulai proyek teknis, tim perlu merumuskan tujuan yang jelas dan terukur yang dapat diselesaikan dengan pendekatan sains data. Tahap proyek yang paling tepat dijalankan pertama kali adalah…

A. Pemilihan Algoritma
B. Identifikasi Masalah
C. Pengumpulan Data
D. Evaluasi Model

Jawaban: B
Identifikasi masalah adalah tahap awal proyek sains data untuk merumuskan masalah bisnis yang jelas dan dapat diselesaikan. Tahap ini menentukan arah seluruh proyek sebelum masuk ke pengumpulan data atau pemilihan algoritma.

94.

Dalam proyek sains data, perbedaan antara tujuan bisnis dan tujuan teknis terletak pada…

A. Tujuan bisnis ditentukan insinyur data, sedangkan tujuan teknis ditentukan manajer produk
B. Tujuan bisnis menyatakan dampak yang diinginkan bagi organisasi, sedangkan tujuan teknis menyatakan metrik performa model yang harus dicapai
C. Tujuan bisnis selalu berupa angka, sedangkan tujuan teknis berupa deskripsi
D. Tujuan bisnis bersifat opsional, sedangkan tujuan teknis bersifat wajib

Jawaban: B
Tujuan bisnis berfokus pada manfaat atau dampak bagi organisasi, misalnya meningkatkan retensi pelanggan, sementara tujuan teknis menerjemahkannya ke dalam spesifikasi terukur seperti metrik performa model yang harus dicapai.

95.

Tim data PT Kesehatan Sejahtera merancang sistem yang mencakup alur ingest data dari sensor medis, penyimpanan di data lake, pelatihan model prediksi di cloud, dan deployment API untuk aplikasi mobile. Mereka mendokumentasikan pilihan teknologi serta hubungan antar komponen. Aktivitas ini merupakan bagian dari…

A. Pengujian Sistem
B. Pemrograman Model
C. Desain Arsitektur Platform
D. Presentasi Proyek

Jawaban: C
Desain arsitektur platform adalah rancangan struktur komponen teknis yang mendukung alur data, pemodelan, dan deployment dalam proyek. Dokumentasi pilihan teknologi dan hubungan antar komponen adalah inti dari aktivitas ini, dilakukan pada tahap perencanaan proyek.

96.

Sebelum membangun model, seorang data scientist di PT Agri Nusantara memeriksa data curah hujan dan hasil panen selama lima tahun menggunakan statistik ringkasan, histogram, dan scatter plot untuk memahami pola musiman serta mendeteksi pencilan. Tahap dalam implementasi proyek yang sedang dijalankan adalah…

A. Deployment Model
B. Pengumpulan Data
C. Evaluasi Model
D. Eksplorasi Data

Jawaban: D
Eksplorasi data adalah proses analisis awal menggunakan statistik ringkasan dan visualisasi untuk memahami pola, anomali, dan merumuskan hipotesis sebelum masuk ke pemodelan. Ini dilakukan setelah pengumpulan data dan sebelum pembangunan model.

97.

Setelah melatih tiga kandidat model, seorang praktisi menghitung precision, recall, dan F1-score pada data uji yang belum pernah dilihat model sebelumnya. Ia kemudian memilih model dengan F1-score tertinggi. Aktivitas ini paling tepat disebut…

A. Feature Engineering
B. Pelatihan Model
C. Evaluasi Model
D. Deployment Model

Jawaban: C
Evaluasi model adalah proses mengukur performa model menggunakan metrik yang sesuai pada data uji yang terpisah dari data latih. Pemilihan model berdasarkan F1-score setelah pengujian menunjukkan aktivitas evaluasi untuk menentukan model terbaik.

98.

PT Media Cerdas telah melatih model rekomendasi artikel dan kini ingin menghubungkan model tersebut dengan sistem backend website sehingga prediksi dapat ditampilkan langsung kepada pengguna. Perbedaan utama antara evaluasi model dan integrasi model dalam konteks ini adalah…

A. Evaluasi model mengukur performa pada data uji, sedangkan integrasi model menggabungkan model ke dalam platform yang lebih besar
B. Evaluasi model lebih penting daripada integrasi model
C. Evaluasi model dilakukan setelah integrasi model
D. Evaluasi model menggunakan metrik bisnis, sedangkan integrasi model menggunakan metrik teknis

Jawaban: A
Evaluasi model berfokus pada pengukuran performa menggunakan data uji dan metrik seperti akurasi atau F1-score, sementara integrasi model adalah tahap menggabungkan model yang telah dilatih ke dalam platform atau aplikasi yang lebih besar agar dapat digunakan pengguna akhir.

99.

Setelah seluruh sistem prediksi penjualan selesai dibangun, tim QA menjalankan serangkaian pengujian yang mencakup validasi output prediksi, pengukuran waktu respons API, dan ketahanan sistem terhadap input yang tidak valid. Aktivitas ini merupakan bagian dari…

A. Pelatihan Model
B. Eksplorasi Data
C. Pengujian Sistem
D. Perumusan Masalah

Jawaban: C
Pengujian sistem adalah proses validasi menyeluruh untuk memastikan seluruh sistem berfungsi sesuai spesifikasi, mencakup aspek fungsional (output benar), performa (waktu respons), dan ketahanan (robustness). Ini dilakukan pada tahap akhir sebelum rilis.

100.

PT Data Analitika telah menyelesaikan proyek deteksi anomali transaksi. Mereka menyusun dokumen yang merinci metodologi pemilihan algoritma, hasil eksperimen setiap kandidat model, konfigurasi hyperparameter final, serta kesimpulan dan rekomendasi. Jenis dokumen yang dihasilkan adalah…

A. Laporan Teknis
B. Dokumentasi Pengguna
C. Presentasi Eksekutif
D. Manual Instalasi

Jawaban: A
Laporan teknis adalah dokumen formal yang mendeskripsikan metodologi, eksperimen, hasil, dan kesimpulan proyek secara rinci. Berbeda dengan dokumentasi pengguna yang berisi panduan penggunaan, laporan teknis ditujukan untuk mendokumentasikan proses dan keputusan teknis proyek.

Banyak yang jago ngerjain Python-nya. Tapi keteteran pas Modul 8. Soal platform kayak Vertex AI atau SageMaker kadang keluar jadi pembeda. Jago koding saja nggak cukup kalau kamu nggak paham arsitektur cloud-nya. Coba cek lagi bagian perbandingan layanan.

Nah, di STDA4302 Platform Sains Data dan Kecerdasan Artifisial, Modul 5 dan 6 hampir pasti muncul. Biasanya dalam bentuk studi kasus UO yang minta kamu pilih algoritma yang tepat. Evaluasi model juga sering bikin nilai jeblok. Jangan cuma hafal metrik, pahami kapan pakai precision dan kapan pakai recall. Kalau mau variasi, ada soal UT PWKL4209 Sistem Informasi Perencanaan yang serumpun. Latihan dikit lagi udah aman.

Soal UAS UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial Beserta Kunci Jawaban

Soal UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial

Baca juga

Soal UAS UT STSI4207 Sistem Informasi Manajemen dan Kunci Jawaban

Soal UAS UT ECON4101 Pengantar Ekonomi Makro dan Kunci Jawaban

Soal UAS UT STAG4121 Manajemen Agribisnis dan Kunci Jawaban

Soal UAS UT STDA4205 Metodologi Penelitian dan Kunci Jawaban

Soalut.com

Soal UAS UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial Beserta Kunci Jawaban

Soal UT STDA4302 Platform Sains Data dan Kecerdasan Artifisial

Baca juga

Soal UAS UT STSI4207 Sistem Informasi Manajemen dan Kunci Jawaban

Soal UAS UT ECON4101 Pengantar Ekonomi Makro dan Kunci Jawaban

Soal UAS UT STAG4121 Manajemen Agribisnis dan Kunci Jawaban

Soal UAS UT STDA4205 Metodologi Penelitian dan Kunci Jawaban

Soalut.com

🔥 Post Terbaru