Soal UAS UT STDA4440 Capstone Project dan Kunci Jawaban

Kamu sudah pegang data, paham metodologi, tapi begitu diminta menyusun proposal utuh malah blank. Itu klasik di STDA4440 Capstone Project. Modul 1 tentang Fondasi Capstone langsung menguji itu lewat KB 2: Identifikasi Masalah dan Penetapan Topik. Banyak yang lompat ke coding. Padahal akarnya ya di sini.

Modul 3 soal Pengumpulan dan Persiapan Data juga jebakan. Praproses dan pembersihan data kelihatan teknis, tapi justru di KB 2 itu kamu bisa salah langkah kalau nggak teliti. Latihan dari kumpulan soal UT Sains Data di halaman ini mencakup studi kasus yang mirip tugas UT-mu. Bukan hafalan.

Soal-soal di bawah ini membedah tiap tahap proyek secara runut. Dari identifikasi masalah sampai dokumentasi teknis. Lengkap dengan kunci jawaban dan pembahasan yang jelasin kenapa opsi lain gugur. Kalau masih ragu, soal ujian UT untuk semua matkul juga bisa kamu akses di sini.

Soal UT STDA4440 Capstone Project

Seorang mahasiswa sains data diwajibkan menyelesaikan proyek akhir yang mengintegrasikan seluruh kompetensi program studi untuk memecahkan masalah nyata berbasis data. Proyek ini berbeda dari skripsi karena penekanannya pada implementasi solusi yang aplikatif dan terukur. Apa nama proyek akhir yang dimaksud…

A. Capstone Project
B. Tesis
C. Skripsi
D. Disertasi

Jawaban: A
Capstone Project merupakan proyek akhir integratif yang menerapkan seluruh kompetensi program studi untuk memecahkan masalah nyata berbasis data, berbeda dari skripsi yang lebih menekankan pada penelitian akademik.

Prinsip moral apa yang memastikan bahwa proyek sains data mematuhi privasi, keadilan, transparansi, dan akuntabilitas dalam setiap tahapannya…

A. Legalitas Data
B. Standar Industri
C. Kepatuhan Regulasi
D. Etika Sains Data

Jawaban: D
Etika Sains Data adalah prinsip moral yang memastikan proyek data mematuhi privasi, keadilan, transparansi, dan akuntabilitas, sementara legalitas lebih merujuk pada kepatuhan terhadap hukum tertulis.

Apa perbedaan mendasar antara etika dan legalitas dalam konteks proyek sains data…

A. Legalitas lebih longgar dibandingkan etika
B. Etika berdasarkan hukum tertulis, legalitas berdasarkan norma sosial
C. Etika dan legalitas memiliki makna yang identik
D. Etika bersifat sukarela, legalitas bersifat wajib

Jawaban: D
Etika bersifat sukarela dan didasarkan pada prinsip moral, sedangkan legalitas bersifat wajib karena didasarkan pada hukum dan regulasi yang berlaku.

Seorang mahasiswa menemukan dataset publik yang berisi informasi pribadi tanpa persetujuan pemiliknya. Meskipun secara hukum dataset tersebut tersedia bebas, mahasiswa tersebut memutuskan untuk tidak menggunakannya. Keputusan ini mencerminkan penerapan prinsip…

A. Legalitas penggunaan data
B. Etika sains data
C. Efisiensi proyek
D. Validitas ilmiah

Jawaban: B
Keputusan tersebut mencerminkan etika sains data karena mahasiswa mempertimbangkan aspek moral seperti privasi dan persetujuan, meskipun secara hukum data tersedia.

Apa karakteristik utama yang membedakan Capstone Project dari tugas akhir lainnya dalam kurikulum sains data…

A. Mengintegrasikan seluruh kompetensi untuk solusi aplikatif
B. Berfokus pada penelitian teoretis dan pengembangan ilmu
C. Hanya mengevaluasi kemampuan menulis ilmiah
D. Tidak memerlukan implementasi praktis

Jawaban: A
Capstone Project menekankan integrasi seluruh kompetensi program studi untuk menghasilkan solusi aplikatif berbasis data, bukan sekadar penelitian teoretis.

Rumusan singkat yang menjelaskan kesenjangan antara kondisi aktual dan kondisi ideal yang akan diatasi oleh proyek sains data disebut…

A. Pertanyaan Penelitian
B. Topik Proyek
C. Pernyataan Masalah
D. Judul Proyek

Jawaban: C
Pernyataan masalah adalah rumusan singkat yang menjelaskan kesenjangan antara kondisi aktual dan ideal, sedangkan pertanyaan penelitian menggali lebih spesifik aspek yang akan dijawab.

Sebelum memulai proyek, tim melakukan penilaian terhadap ketersediaan data, sumber daya, waktu, dan relevansi topik. Kegiatan ini dikenal sebagai…

A. Penjadwalan
B. Perencanaan Proyek
C. Analisis Risiko
D. Studi Kelayakan

Jawaban: D
Studi kelayakan adalah penilaian awal terhadap ketersediaan data, sumber daya, waktu, dan relevansi topik sebelum proyek dimulai untuk memastikan proyek dapat dilaksanakan.

Apa perbedaan utama antara pernyataan masalah dan pertanyaan penelitian dalam konteks capstone project…

A. Pernyataan masalah lebih spesifik daripada pertanyaan penelitian
B. Keduanya identik dan dapat digunakan bergantian
C. Pertanyaan penelitian menggali aspek spesifik dari kesenjangan yang dirumuskan dalam pernyataan masalah
D. Pertanyaan penelitian lebih umum daripada pernyataan masalah

Jawaban: C
Pernyataan masalah merumuskan kesenjangan umum, sementara pertanyaan penelitian menggali aspek spesifik dari kesenjangan tersebut yang akan dijawab melalui analisis data.

PT Maju Jaya ingin mengurangi churn pelanggan sebesar 15 persen dalam enam bulan. Tim sains data mengusulkan topik analisis prediksi churn. Apa yang harus dilakukan untuk memastikan topik ini layak dijadikan capstone project…

A. Langsung membangun model machine learning
B. Melakukan studi kelayakan terhadap ketersediaan data pelanggan
C. Menulis laporan akhir proyek
D. Menyusun slide presentasi untuk manajemen

Jawaban: B
Studi kelayakan diperlukan untuk menilai apakah data pelanggan tersedia dan memadai, sumber daya mencukupi, serta waktu pengerjaan realistis sebelum melanjutkan ke tahap implementasi.

10.

Apa yang membedakan topik proyek dari judul proyek dalam capstone project…

A. Topik lebih spesifik, judul lebih umum
B. Topik adalah area kajian, judul adalah nama spesifik proyek
C. Topik dan judul memiliki makna yang persis sama
D. Judul ditentukan sebelum topik

Jawaban: B
Topik adalah area kajian yang luas, sedangkan judul adalah nama spesifik proyek yang mencerminkan fokus dan pendekatan yang diambil.

11.

Bagan batang horizontal yang memvisualisasikan jadwal tugas, durasi, dan ketergantungan antar tahapan proyek dikenal sebagai…

A. Flowchart
B. Milestone Chart
C. Gantt Chart
D. PERT Diagram

Jawaban: C
Gantt Chart adalah bagan batang horizontal yang menampilkan jadwal tugas, durasi setiap tugas, dan ketergantungan antar tahapan proyek secara visual.

12.

Apa perbedaan antara milestones dan deliverables dalam manajemen proyek…

A. Milestones adalah hasil nyata, deliverables adalah titik pemeriksaan
B. Keduanya adalah istilah yang dapat dipertukarkan
C. Milestones adalah titik pemeriksaan waktu, deliverables adalah hasil konkret
D. Deliverables hanya ada di akhir proyek

Jawaban: C
Milestones adalah titik pemeriksaan atau tonggak waktu dalam proyek, sedangkan deliverables adalah hasil konkret yang diserahkan pada titik tertentu.

13.

Tim proyek mengidentifikasi bahwa data yang dibutuhkan mungkin tidak tersedia tepat waktu karena ketergantungan pada pihak ketiga. Proses mengantisipasi dan merencanakan mitigasi terhadap hambatan ini disebut…

A. Manajemen Risiko
B. Penanganan Isu
C. Studi Kelayakan
D. Evaluasi Proyek

Jawaban: A
Manajemen risiko adalah proses identifikasi, analisis, dan perencanaan mitigasi terhadap potensi hambatan, sedangkan penanganan isu berkaitan dengan masalah yang sudah terjadi.

14.

Apa perbedaan antara risiko dan isu dalam konteks manajemen proyek sains data…

A. Risiko adalah masalah yang sudah terjadi, isu adalah potensi masalah
B. Isu lebih serius daripada risiko
C. Risiko dan isu adalah konsep yang sama
D. Risiko adalah potensi masalah di masa depan, isu adalah masalah yang sedang terjadi

Jawaban: D
Dalam manajemen proyek, risiko merujuk pada potensi hambatan yang mungkin terjadi di masa depan dan dapat direncanakan mitigasinya, sedangkan isu adalah masalah aktual yang sudah terjadi dan memerlukan penanganan segera.

15.

Budi ditugaskan menyusun jadwal proyek yang menunjukkan bahwa tugas pembersihan data harus selesai sebelum pemodelan dimulai, dan tugas visualisasi dapat berjalan paralel dengan pemodelan. Alat visual apa yang paling tepat digunakan Budi…

A. Pie Chart
B. Gantt Chart
C. Scatter Plot
D. Histogram

Jawaban: B
Gantt Chart paling tepat untuk memvisualisasikan jadwal tugas, durasi, dan ketergantungan antar tugas, termasuk tugas paralel dan sekuensial.

16.

Celah penelitian yang teridentifikasi dari sintesis literatur dan menjadi dasar orisinalitas proyek sains data disebut…

A. Research Gap
B. Research Question
C. Literature Review
D. Theoretical Framework

Jawaban: A
Research Gap adalah celah penelitian yang teridentifikasi dari sintesis literatur, menjadi dasar orisinalitas proyek. Research Question adalah pertanyaan spesifik yang akan dijawab dari celah tersebut.

17.

Apa yang dimaksud dengan sintesis literatur dalam konteks tinjauan pustaka berbasis bukti…

A. Proses mengintegrasikan temuan dari berbagai sumber untuk membangun pemahaman koheren
B. Menyalin ringkasan abstrak dari setiap artikel
C. Menghitung jumlah artikel yang relevan dengan topik
D. Membaca satu per satu artikel tanpa mencari keterkaitan

Jawaban: A
Sintesis literatur adalah proses mengintegrasikan temuan dari berbagai sumber untuk membangun pemahaman yang koheren, bukan sekadar merangkum satu per satu artikel.

18.

Dalam menelusuri literatur untuk capstone project, seorang mahasiswa menemukan tiga artikel dari jurnal Q1, satu artikel dari prosiding konferensi, dan dua artikel dari repositori universitas. Mahasiswa tersebut harus menentukan sumber mana yang paling kredibel sebagai landasan utama tinjauan pustaka. Apa kriteria utama yang membedakan kredibilitas ketiga jenis sumber tersebut…

A. Faktor dampak jurnal dan reputasi penerbit sebagai indikator kualitas penelaahan sejawat
B. Tahun publikasi karena sumber terbaru selalu lebih akurat dan relevan
C. Jumlah sitasi yang diterima tanpa mempertimbangkan konteks sitasi
D. Ketersediaan akses terbuka karena menjamin transparansi penelitian

Jawaban: A
Kredibilitas sumber ilmiah terutama ditentukan oleh proses penelaahan sejawat yang ketat, yang tercermin dari faktor dampak jurnal dan reputasi penerbit, bukan sekadar jumlah sitasi atau akses terbuka.

19.

Seorang mahasiswa sedang menyusun tinjauan pustaka dan menemukan bahwa lima penelitian sebelumnya menggunakan regresi linear untuk memprediksi harga rumah, tetapi belum ada yang menggabungkan fitur citra satelit dengan data transaksi. Temuan ini menunjukkan adanya…

A. Kesalahan peneliti sebelumnya dalam memilih variabel penelitian
B. Kelemahan metodologis yang membatalkan hasil penelitian sebelumnya
C. Ketidakmampuan regresi linear dalam memprediksi harga rumah
D. Research gap yang membenarkan perlunya pendekatan baru dalam proyek

Jawaban: D
Ketiadaan integrasi fitur citra satelit dengan data transaksi dalam literatur yang ada mengindikasikan celah penelitian yang dapat diisi oleh proyek yang mengusulkan pendekatan tersebut.

20.

Mahasiswa A hanya merangkum satu per satu isi artikel tanpa menghubungkannya, sedangkan Mahasiswa B mengidentifikasi pola, kontradiksi, dan kesenjangan dari berbagai artikel lalu menyusunnya menjadi narasi koheren. Apa nama proses yang dilakukan Mahasiswa B…

A. Ekstraksi data yang mengambil informasi kunci dari setiap publikasi
B. Anotasi bibliografi yang mencatat informasi penting setiap artikel
C. Sintesis literatur yang mengintegrasikan temuan dari berbagai sumber secara kritis
D. Parafrase akademik yang menulis ulang isi artikel dengan bahasa sendiri

Jawaban: C
Sintesis literatur adalah proses mengintegrasikan temuan dari berbagai sumber menjadi pemahaman yang koheren, bukan sekadar merangkum satu per satu artikel.

21.

Penelitian sebelumnya menunjukkan bahwa jam belajar berkorelasi positif dengan nilai ujian, namun mekanisme hubungan ini belum dijelaskan secara teoritis. Seorang mahasiswa capstone menyusun diagram yang menghubungkan jam belajar, motivasi intrinsik, kualitas pemahaman, dan nilai ujian berdasarkan teori kognitif sosial. Diagram ini merupakan…

A. Kerangka teoritis yang menunjukkan hubungan antar variabel berdasarkan teori tertentu
B. Diagram alir penelitian yang menggambarkan urutan langkah metodologi
C. Peta konsep yang mengelompokkan topik tanpa menjelaskan hubungan kausal
D. Model visualisasi data yang menampilkan distribusi setiap variabel

Jawaban: A
Kerangka teoritis adalah struktur konseptual yang menunjukkan hubungan antar variabel berdasarkan teori yang mendasari, bukan sekadar diagram alir atau peta konsep.

22.

Dalam sebuah proyek sains data, seorang mahasiswa merumuskan dugaan bahwa 'rata-rata pengeluaran pelanggan setelah program loyalitas lebih tinggi dibandingkan sebelum program'. Dugaan ini akan diuji menggunakan uji statistik terhadap data transaksi. Apakah jenis pernyataan yang dirumuskan mahasiswa tersebut…

A. Pertanyaan analitik yang mengeksplorasi data tanpa arah dugaan
B. Hipotesis yang menyatakan dugaan sementara tentang hubungan antar variabel
C. Asumsi model yang harus dipenuhi sebelum analisis dilakukan
D. Kesimpulan awal yang dapat langsung ditulis di laporan

Jawaban: B
Pernyataan yang menyatakan dugaan sementara tentang hubungan atau perbedaan antar variabel dan akan diuji secara empiris merupakan hipotesis, bukan pertanyaan eksploratif.

23.

Manakah dari pernyataan berikut yang merupakan hipotesis yang dapat diuji secara empiris dalam proyek sains data…

A. Bagaimana pola penggunaan aplikasi berubah setelah pembaruan fitur
B. Mengapa pengguna lebih sering login pada akhir pekan dibandingkan hari kerja
C. Terdapat pengaruh signifikan frekuensi login terhadap durasi penggunaan aplikasi
D. Seberapa besar variasi durasi penggunaan antar kelompok usia pengguna

Jawaban: C
Hipotesis menyatakan dugaan hubungan antar variabel yang terukur dan dapat diuji, sedangkan pertanyaan analitik bersifat eksploratif dan tidak menyatakan arah dugaan.

24.

PT Sejahtera ingin menguji apakah desain antarmuka baru meningkatkan konversi pembelian. Tim sains data membagi pengguna secara acak menjadi dua kelompok: kelompok A melihat desain lama, kelompok B melihat desain baru, lalu membandingkan rata-rata konversi kedua kelompok. Rancangan sistematis ini disebut…

A. Studi observasional yang mengamati perilaku pengguna tanpa intervensi
B. Desain eksperimen yang mengumpulkan data untuk menguji hipotesis dengan validitas tinggi
C. Simulasi Monte Carlo yang menghasilkan data buatan untuk pengujian
D. Analisis retrospektif yang menggunakan data historis transaksi

Jawaban: B
Pembagian acak ke kelompok kontrol dan perlakuan untuk menguji efek intervensi merupakan ciri desain eksperimen, berbeda dari studi observasional yang tidak memberikan intervensi.

25.

Tim sains data mengembangkan model prediksi churn menggunakan data pelatihan dan memperoleh akurasi 98%. Untuk memastikan model ini benar-benar dapat diandalkan sebelum deployment, tim perlu melakukan…

A. Penambahan fitur baru agar model lebih kompleks dan akurat
B. Pelatihan ulang dengan lebih banyak epoch hingga akurasi mencapai 100%
C. Validasi menggunakan data yang tidak terlihat selama pelatihan untuk mengukur generalisasi
D. Optimasi hyperparameter untuk memaksimalkan akurasi data pelatihan

Jawaban: C
Validasi bertujuan memastikan model dapat menggeneralisasi pada data baru, bukan hanya menghafal data pelatihan. Akurasi tinggi pada data latih belum menjamin performa pada data nyata.

26.

Seorang mahasiswa merancang metodologi untuk proyek analisis sentimen media sosial. Ia memutuskan menggunakan pendekatan kuantitatif dengan analisis statistik. Keputusan ini paling tepat apabila tujuan proyeknya adalah…

A. Mendeskripsikan pengalaman subjektif pengguna saat mengunggah konten
B. Mengeksplorasi makna mendalam di balik ekspresi emosi pengguna dalam teks
C. Mengembangkan teori baru tentang dinamika opini publik di media sosial
D. Mengukur proporsi sentimen positif, negatif, dan netral serta menguji hubungannya dengan variabel numerik

Jawaban: D
Pendekatan kuantitatif sesuai untuk mengukur, menghitung proporsi, dan menguji hubungan numerik antar variabel, berbeda dari pendekatan kualitatif yang mengeksplorasi makna mendalam.

27.

Dalam desain metodologi, validitas internal berkaitan dengan sejauh mana efek yang diamati benar-benar disebabkan oleh variabel independen. Apa yang menjadi fokus validitas eksternal…

A. Kekuatan hubungan statistik antara variabel independen dan dependen
B. Ketepatan instrumen pengukuran dalam mengukur konstruk yang dimaksud
C. Konsistensi hasil pengukuran ketika diulang dalam kondisi yang sama
D. Generalisabilitas temuan ke populasi, konteks, atau waktu yang berbeda

Jawaban: D
Validitas eksternal berkaitan dengan sejauh mana temuan dapat digeneralisasi di luar konteks penelitian, sedangkan validitas internal tentang hubungan kausal dalam studi.

28.

Sebuah perusahaan e-commerce membutuhkan data harga produk pesaing secara berkala. Tim sains data mempertimbangkan antara menggunakan API resmi marketplace atau mengekstrak langsung dari halaman web. Apa keunggulan utama penggunaan API dibandingkan web scraping dalam konteks ini…

A. API memungkinkan pengambilan data dalam jumlah lebih besar tanpa batasan
B. API menyediakan akses data yang terstruktur, legal, dan stabil dengan dokumentasi resmi
C. API dapat mengekstrak data dari situs yang memblokir akses otomatis
D. API tidak memerlukan koneksi internet untuk mengakses data

Jawaban: B
API menyediakan akses terstruktur dan resmi dengan izin penyedia data, sementara web scraping mengekstrak dari tampilan HTML yang dapat berubah dan memiliki risiko legal.

29.

Seorang mahasiswa menggunakan dataset dari portal Satu Data Indonesia untuk proyek analisis kemiskinan. Dataset tersebut disertai lisensi Creative Commons BY-SA. Apa implikasi lisensi ini terhadap proyek mahasiswa…

A. Data bebas digunakan tanpa syarat apapun termasuk untuk komersial
B. Dataset hanya boleh digunakan untuk kepentingan non-komersial tanpa modifikasi
C. Mahasiswa wajib memberikan atribusi dan membagikan karya turunan dengan lisensi yang sama
D. Mahasiswa harus membayar royalti kepada penyedia data sebelum publikasi

Jawaban: C
Lisensi Creative Commons BY-SA mewajibkan atribusi kepada pembuat asli dan mewajibkan karya turunan dibagikan dengan lisensi yang sama, konsep ini dikenal sebagai share-alike.

30.

Tim sains data di sebuah startup ingin mengumpulkan data ulasan aplikasi dari Google Play Store. Mereka memutuskan menggunakan teknik ekstraksi otomatis dari halaman web karena belum tersedia API publik. Teknik ini disebut…

A. API gateway yang menghubungkan aplikasi dengan layanan backend
B. Web scraping yang mengekstrak data dari HTML halaman web secara terprogram
C. Data warehousing yang menyimpan data dari berbagai sumber terstruktur
D. Stream processing yang mengolah data secara real-time dari sumber

Jawaban: B
Web scraping adalah teknik ekstraksi data otomatis dari halaman web menggunakan program atau skrip, berbeda dari API yang merupakan antarmuka resmi yang disediakan penyedia.

31.

Badan Pusat Statistik merilis data sensus penduduk dalam format CSV yang dapat diunduh bebas. Sebuah lembaga riset menggunakan data ini untuk analisis demografi. Klasifikasi data sensus ini berdasarkan sumbernya adalah…

A. Open data yang tersedia bebas untuk digunakan dan didistribusikan ulang oleh publik
B. Data internal yang dihasilkan dari operasional organisasi itu sendiri
C. Data proprietary yang memerlukan lisensi berbayar untuk akses
D. Data eksperimental yang dikumpulkan melalui eksperimen terkontrol

Jawaban: A
Data sensus yang dirilis pemerintah secara bebas termasuk open data, yaitu data yang tersedia untuk digunakan, didistribusikan ulang, dan dimodifikasi oleh siapa pun.

32.

Dalam dataset survei kepuasan pelanggan yang terdiri dari 10.000 responden, kolom 'tingkat pendapatan' memiliki 15% sel kosong. Jika data ini tidak ditangani, analisis regresi dapat menghasilkan estimasi yang bias. Kondisi sel kosong ini disebut…

A. Missing values yang harus diatasi dengan imputasi atau penghapusan yang tepat
B. Outlier yang perlu diidentifikasi dan dihapus dari dataset
C. Noise yang muncul dari kesalahan pengukuran acak
D. Duplikasi yang menyebabkan baris data berulang

Jawaban: A
Missing values adalah nilai data yang tidak tersedia dalam dataset. Penanganannya penting karena analisis tanpa penanganan dapat menghasilkan estimasi yang bias.

33.

Seorang analis memvisualisasikan distribusi pendapatan nasabah bank dalam box plot dan menemukan beberapa titik data yang berada jauh di luar whisker atas. Setelah diverifikasi, data tersebut valid dan berasal dari nasabah premium. Apa istilah untuk titik data semacam ini…

A. Modus yaitu nilai yang paling sering muncul dalam dataset
B. Median yaitu nilai tengah dari distribusi data terurut
C. Kuartil atas yang menandai batas 75 persen data
D. Outlier yaitu observasi yang menyimpang signifikan dari pola distribusi umum

Jawaban: D
Outlier adalah titik data yang menyimpang secara signifikan dari pola distribusi umum. Meskipun valid, outlier perlu diidentifikasi karena dapat mempengaruhi hasil pemodelan.

34.

Sebelum melatih model machine learning, seorang data scientist menerapkan teknik yang mengubah skala semua fitur numerik ke rentang 0 hingga 1. Teknik ini sangat penting ketika model menggunakan pengukuran jarak seperti KNN. Teknik yang dimaksud dikenal sebagai…

A. Normalisasi yang mengubah skala fitur ke rentang tertentu tanpa mengubah distribusi
B. Standarisasi yang mengubah data menjadi distribusi dengan rata-rata 0 dan standar deviasi 1
C. Encoding yang mengubah variabel kategorikal menjadi representasi numerik
D. Diskretisasi yang mengubah data kontinu menjadi interval kategori

Jawaban: A
Normalisasi mengubah skala data ke rentang tertentu seperti 0 hingga 1, penting untuk model berbasis jarak. Standarisasi berbeda karena mentransformasi ke distribusi dengan mean 0 dan standar deviasi 1.

35.

Dalam proses pembersihan data, seorang analis menemukan bahwa kolom 'tanggal_lahir' pada beberapa baris berisi nilai '00/00/0000' yang jelas tidak valid, sementara pada baris lain format penulisannya tidak seragam. Apa langkah paling tepat yang harus dilakukan terlebih dahulu…

A. Menghapus semua baris yang memiliki format tidak seragam
B. Menstandarisasi format kolom dan menandai nilai tidak valid sebagai missing
C. Mengisi nilai tidak valid dengan rata-rata tanggal lahir
D. Mendiamkan data tersebut karena jumlahnya sedikit

Jawaban: B
Sebelum menangani missing values, standarisasi format harus dilakukan terlebih dahulu agar semua nilai terdeteksi dengan benar. Nilai tidak valid seperti '00/00/0000' dikonversi menjadi missing value untuk ditangani pada tahap berikutnya.

36.

PT Sehat Selalu memiliki database pasien dengan 500.000 baris. Tim data menemukan 200 baris memiliki nilai tekanan darah yang identik di semua kolom pemeriksaan, termasuk nama pasien, alamat, dan hasil lab — persis sama hingga karakter terakhir. Kemungkinan besar baris-baris ini merupakan…

A. Data duplikat yang harus dihapus karena dapat membiaskan analisis
B. Outlier yang harus dipertahankan karena bisa jadi pasien kembar
C. Missing values yang harus diimputasi dengan median
D. Noise acak yang wajar dalam dataset besar

Jawaban: A
Kesamaan identik di seluruh kolom termasuk data pribadi mengindikasikan duplikasi entri, bukan kemiripan alami. Data duplikat harus diidentifikasi dan dihapus karena dapat memberikan bobot berlebih pada satu observasi dan membiaskan hasil analisis.

37.

Dalam proyek prediksi harga rumah, terdapat 50 fitur yang tersedia. Seorang data scientist menghitung korelasi setiap fitur dengan variabel target dan memilih 10 fitur dengan korelasi tertinggi. Teknik ini dikenal sebagai…

A. Ekstraksi fitur menggunakan Principal Component Analysis
B. Seleksi fitur berbasis filter dengan metode univariat
C. Reduksi dimensi melalui feature embedding
D. One-hot encoding untuk variabel kategorikal

Jawaban: B
Menghitung korelasi setiap fitur terhadap target dan memilih subset teratas merupakan seleksi fitur berbasis filter (filter method) dengan pendekatan univariat. Teknik ini mengevaluasi relevansi fitur secara independen tanpa melibatkan model pembelajaran.

38.

Apa perbedaan utama antara seleksi fitur dan ekstraksi fitur dalam konteks feature engineering…

A. Seleksi fitur selalu menghasilkan akurasi lebih tinggi daripada ekstraksi fitur
B. Seleksi fitur hanya untuk data numerik, sedangkan ekstraksi fitur untuk data teks
C. Seleksi fitur menggunakan PCA, sedangkan ekstraksi fitur menggunakan korelasi
D. Seleksi fitur memilih subset dari fitur asli, sedangkan ekstraksi fitur menciptakan fitur baru hasil kombinasi atau transformasi

Jawaban: D
Seleksi fitur mempertahankan fitur-fitur asli yang paling relevan tanpa mengubahnya, sedangkan ekstraksi fitur membangun fitur baru yang merupakan hasil transformasi atau kombinasi dari fitur-fitur asli, seperti pada PCA yang menghasilkan komponen utama baru.

39.

Dalam proyek klasifikasi sentimen, tim data memiliki kolom 'kategori_produk' dengan nilai: 'Elektronik', 'Fashion', 'Makanan', 'Otomotif', 'Fashion', 'Elektronik'. Karena akan menggunakan model regresi logistik yang membutuhkan input numerik, tim menerapkan One-Hot Encoding. Berapa jumlah kolom baru yang dihasilkan dari fitur tersebut…

A. 3 kolom
B. 4 kolom
C. 5 kolom
D. 1 kolom

Jawaban: B
One-Hot Encoding menghasilkan n kolom biner untuk n kategori unik. Kategori unik pada data adalah Elektronik, Fashion, Makanan, dan Otomotif — total 4 kategori, sehingga dihasilkan 4 kolom baru.

40.

Tim data science Bank Nusantara memiliki dataset dengan 200 fitur numerik tetapi hanya 500 baris data. Principal Component Analysis (PCA) diterapkan dan diperoleh bahwa 3 komponen pertama sudah menjelaskan 95% variansi total. Apa manfaat utama dari penerapan PCA pada kasus ini…

A. Meningkatkan akurasi model secara otomatis tanpa tuning lebih lanjut
B. Menambah jumlah data sintetis agar seimbang dengan banyaknya fitur
C. Mengubah data menjadi berdistribusi normal agar sesuai asumsi model linear
D. Mengurangi risiko overfitting dengan menurunkan dimensi dari 200 menjadi 3 fitur

Jawaban: D
Dengan 200 fitur dan hanya 500 baris, rasio fitur terhadap sampel sangat tinggi yang rawan overfitting. PCA mereduksi dimensi menjadi 3 komponen yang menangkap 95% variansi, sehingga model menjadi lebih sederhana dan risiko overfitting berkurang signifikan.

41.

Siti, seorang junior data scientist, diminta menyiapkan data untuk model K-Nearest Neighbors. Ia mengubah fitur 'usia' (rentang 0-100) dan 'pendapatan' (rentang 3.000.000-100.000.000) menggunakan rumus (X – min) / (max – min). Teknik yang diterapkan Siti dikenal sebagai…

A. Standarisasi Z-score dengan rata-rata nol dan standar deviasi satu
B. Transformasi logaritmik untuk menangani skewness data
C. Normalisasi Min-Max yang mengubah skala ke rentang 0 hingga 1
D. Label Encoding untuk mengonversi data kontinu ke diskret

Jawaban: C
Rumus (X – min) / (max – min) adalah formula normalisasi Min-Max yang mengubah setiap nilai ke dalam rentang [0,1]. Teknik ini penting untuk algoritma berbasis jarak seperti KNN agar fitur dengan skala besar tidak mendominasi perhitungan jarak.

42.

Seorang analis menghitung ringkasan numerik dari dataset penjualan dan mendapatkan nilai mean Rp 2.500.000, median Rp 1.200.000, dan standar deviasi Rp 3.800.000. Apa interpretasi yang paling tepat dari ketiga statistik deskriptif ini…

A. Data penjualan berdistribusi normal karena memiliki mean dan median
B. Median tidak dapat diinterpretasikan karena standar deviasi terlalu besar
C. Tidak ada variasi dalam data karena standar deviasi lebih kecil dari mean
D. Distribusi data cenderung menceng ke kanan karena mean jauh lebih besar dari median

Jawaban: D
Ketika mean jauh lebih besar daripada median, distribusi data menceng ke kanan (right-skewed). Hal ini menunjukkan adanya beberapa nilai penjualan yang sangat tinggi yang menarik mean ke atas, sementara sebagian besar nilai penjualan terkonsentrasi di bawah mean.

43.

Apa yang membedakan korelasi dari kausalitas dalam analisis data eksploratif…

A. Korelasi menunjukkan hubungan timbal balik, sedangkan kausalitas hanya satu arah
B. Korelasi hanya berlaku untuk data numerik, sedangkan kausalitas untuk data kategorikal
C. Korelasi mengukur kekuatan hubungan linear, sedangkan kausalitas membuktikan bahwa perubahan satu variabel menyebabkan perubahan variabel lain
D. Korelasi dan kausalitas adalah istilah yang sama dalam konteks statistik

Jawaban: C
Korelasi hanya menunjukkan adanya asosiasi atau hubungan linear antara dua variabel tanpa membuktikan sebab-akibat. Kausalitas memerlukan pembuktian lebih kuat bahwa perubahan pada satu variabel secara langsung menyebabkan perubahan pada variabel lainnya, misalnya melalui eksperimen terkontrol.

44.

Dalam eksplorasi dataset kesehatan masyarakat, seorang analis menemukan bahwa jumlah penjualan es krim berkorelasi positif kuat (r = 0,92) dengan jumlah kasus tenggelam di kolam renang. Apa kesimpulan paling tepat dari temuan ini…

A. Kedua variabel kemungkinan sama-sama dipengaruhi oleh variabel laten, yaitu suhu udara atau musim panas
B. Mengkonsumsi es krim menyebabkan otot kram sehingga meningkatkan risiko tenggelam
C. Data ini pasti salah karena korelasi sangat tidak masuk akal secara logis
D. Harus dibuat model prediksi tenggelam berdasarkan data penjualan es krim

Jawaban: A
Korelasi tinggi tidak membuktikan kausalitas. Dalam kasus ini, variabel laten seperti musim panas dapat menjelaskan mengapa penjualan es krim dan aktivitas berenang (yang meningkatkan risiko tenggelam) sama-sama meningkat. Ini contoh klasik spurious correlation yang disebabkan oleh variabel perancu.

45.

Tim data PT Perkasa ingin mendeteksi anomali pada data transaksi keuangan. Mereka menggunakan box plot dan menemukan beberapa transaksi dengan nilai di atas Q3 + 1,5 × IQR. Sebelum memutuskan untuk menghapus data tersebut, langkah yang paling bijaksana adalah…

A. Langsung menghapus semua titik di luar whisker atas karena pasti error input
B. Mengganti nilai outlier dengan mean agar data tetap lengkap
C. Memverifikasi konteks bisnis dari transaksi tersebut karena bisa jadi merupakan transaksi sah bernilai tinggi
D. Mengabaikan karena box plot tidak dirancang untuk data keuangan

Jawaban: C
Outlier yang terdeteksi secara statistik belum tentu merupakan kesalahan data. Dalam konteks transaksi keuangan, nilai tinggi bisa berasal dari transaksi korporat yang sah. Verifikasi konteks bisnis diperlukan sebelum memutuskan penanganan, karena menghapus data valid akan menghilangkan informasi penting.

46.

Seorang data scientist ingin menampilkan distribusi skor ujian dari 1.000 mahasiswa untuk melihat pola penyebaran, kecenderungan memusat, dan keberadaan nilai ekstrem. Satu grafik yang paling tepat untuk menampilkan ketiga informasi tersebut sekaligus adalah…

A. Diagram batang frekuensi per kelompok nilai
B. Histogram dengan jumlah bin yang sesuai
C. Grafik garis skor rata-rata per kelas
D. Diagram lingkaran proporsi mahasiswa per kategori

Jawaban: B
Histogram menampilkan distribusi frekuensi data kontinu seperti skor ujian. Dari histogram dapat langsung terlihat kecenderungan memusat (di mana batang tertinggi), penyebaran (lebar distribusi), dan nilai ekstrem (batang terisolasi di ujung). Diagram batang dan lingkaran lebih cocok untuk data kategorikal.

47.

Dalam visualisasi hubungan antara harga rumah dan luas bangunan, seorang analis menggunakan scatter plot dan menambahkan garis regresi linear. Namun, ia mengamati bahwa titik-titik data membentuk pola melengkung, bukan linear. Apa jenis visualisasi bivariat yang lebih tepat untuk mengeksplorasi hubungan nonlinear ini…

A. Tetap menggunakan scatter plot karena pola sudah terlihat jelas dari titik data
B. Mengganti dengan dua histogram terpisah untuk harga dan luas bangunan
C. Mengganti dengan pie chart yang menunjukkan proporsi rumah berdasarkan kategori harga
D. Menambahkan garis loess atau polynomial fit pada scatter plot untuk melihat tren nonlinear

Jawaban: D
Scatter plot dengan garis regresi linear hanya menangkap hubungan linear. Untuk mengeksplorasi pola nonlinear, garis loess (locally estimated scatterplot smoothing) atau polynomial fit dapat ditambahkan agar mengikuti kelengkungan data dan memberikan gambaran tren yang lebih akurat.

48.

Badan Meteorologi Klimatologi dan Geofisika (BMKG) memiliki data suhu rata-rata bulanan dari 100 stasiun pengamatan selama 20 tahun. Tim data ingin memvisualisasikan tren suhu sepanjang waktu dan membandingkan perubahan antar wilayah secara bersamaan. Pilihan visualisasi mana yang paling efektif…

A. Diagram batang bertumpuk suhu per bulan untuk setiap stasiun
B. Scatter plot suhu vs kelembaban untuk melihat korelasi
C. Line chart multi-series dengan warna berbeda untuk setiap wilayah dan sumbu x berupa waktu
D. Pie chart kontribusi setiap stasiun terhadap total suhu

Jawaban: C
Line chart multi-series dengan sumbu waktu memungkinkan visualisasi tren temporal. Penggunaan warna berbeda untuk tiap wilayah memfasilitasi perbandingan pola antar wilayah dalam satu grafik, sehingga analis dapat mengidentifikasi wilayah mana yang mengalami kenaikan suhu lebih cepat.

49.

Apa perbedaan utama antara histogram dan bar chart yang harus dipahami oleh seorang data scientist ketika memilih visualisasi univariat…

A. Histogram menampilkan distribusi data kontinu dengan bin yang bersebelahan tanpa celah, sedangkan bar chart untuk data kategorikal dengan batang terpisah
B. Histogram menggunakan sumbu vertikal untuk frekuensi sedangkan bar chart menggunakan sumbu horizontal
C. Histogram hanya bisa dibuat dengan Python sedangkan bar chart hanya dengan Excel
D. Histogram selalu memiliki distribusi normal sedangkan bar chart tidak

Jawaban: A
Perbedaan fundamental terletak pada jenis data dan tampilan: histogram untuk data kontinu yang dikelompokkan dalam bin bersebelahan tanpa celah (menunjukkan kontinuitas), sedangkan bar chart untuk data kategorikal diskret dengan batang yang terpisah. Keduanya merupakan visualisasi univariat namun dengan tujuan berbeda.

50.

Setelah menyelesaikan eksplorasi data penjualan ritel, Budi harus menyampaikan temuannya kepada direktur pemasaran. Ia menemukan bahwa penjualan produk kategori A turun 30% setiap kali harga dinaikkan 5%, sementara produk kategori B justru naik 15% pada kondisi yang sama. Untuk menyampaikan insight ini secara naratif dan meyakinkan, teknik komunikasi data yang paling tepat diterapkan Budi adalah…

A. Data storytelling yang mengaitkan temuan dengan konteks bisnis dan implikasi pengambilan keputusan
B. Membacakan seluruh angka statistik deskriptif dari awal hingga akhir
C. Menampilkan screenshot mentah kode Python yang menghasilkan temuan
D. Membagikan file CSV mentah dan meminta direktur menganalisis sendiri

Jawaban: A
Data storytelling mengubah temuan statistik menjadi narasi yang kontekstual, menghubungkan data dengan dampak bisnis, dan memandu audiens menuju kesimpulan atau rekomendasi. Pendekatan ini jauh lebih efektif untuk audiens non-teknis dibandingkan menyajikan data mentah atau detail teknis.

51.

Manakah dari berikut ini yang paling mencerminkan prinsip penyampaian temuan EDA melalui narasi data yang bermakna…

A. Memilih temuan kunci, menjelaskan konteks mengapa temuan tersebut penting, dan menghubungkannya dengan pertanyaan bisnis awal
B. Menampilkan semua grafik yang dihasilkan selama EDA tanpa penyaringan agar audiens mendapat gambaran lengkap
C. Fokus hanya pada nilai p dan signifikansi statistik tanpa membahas implikasi praktis
D. Menggunakan istilah teknis sebanyak mungkin untuk menunjukkan kompetensi analis

Jawaban: A
Narasi data yang bermakna berfokus pada temuan kunci yang relevan dengan pertanyaan bisnis, disertai konteks dan interpretasi yang menjembatani data mentah dengan keputusan. Menyajikan semua grafik tanpa filter justru mengaburkan pesan utama dan membingungkan audiens.

52.

Budi menyajikan temuan bahwa penjualan kategori A turun 30% setiap akhir kuartal. Untuk membuat presentasinya lebih persuasif dan mudah diingat oleh direktur pemasaran, teknik komunikasi visual apakah yang paling tepat ia gunakan…

A. Menampilkan tabel data penjualan per bulan untuk seluruh kategori produk
B. Menulis paragraf naratif yang menjelaskan fluktuasi penjualan secara rinci
C. Menggunakan grafik garis yang menyoroti tren penurunan dengan anotasi persentase
D. Menampilkan diagram lingkaran komposisi penjualan seluruh kategori produk

Jawaban: C
Dalam komunikasi visual, menyampaikan tren data secara efektif memerlukan pemilihan grafik yang tepat. Grafik garis sangat cocok untuk menunjukkan perubahan data sepanjang waktu, seperti tren penurunan penjualan per kuartal. Dengan menambahkan anotasi persentase penurunan, audiens dapat langsung menangkap inti temuan tanpa harus membaca data mentah. Teknik ini merupakan bagian dari data storytelling yang menekankan pada kejelasan dan dampak visual untuk audiens non-teknis.

53.

Dalam proyek prediksi harga rumah, seorang data scientist harus memilih antara menerapkan algoritma regresi linear atau pohon keputusan. Data yang tersedia memiliki banyak fitur numerik dan target kontinu. Apabila data scientist memilih algoritma yang menghasilkan output berupa nilai kontinu berdasarkan data berlabel, paradigma machine learning apakah yang digunakan…

A. Pembelajaran Semi-Terawasi
B. Pembelajaran Tak Terawasi
C. Pembelajaran Terawasi
D. Pembelajaran Reinforcement

Jawaban: C
Pembelajaran terawasi adalah paradigma di mana model dilatih menggunakan data berlabel untuk memprediksi output, baik kontinu (regresi) maupun kategorikal (klasifikasi). Dalam kasus ini, adanya target kontinu dan data berlabel menempatkannya dalam supervised learning.

54.

Seorang data scientist sedang mengevaluasi model klasifikasi yang dilatih pada dataset kecil dengan 400 sampel. Ia ingin memastikan bahwa metrik evaluasi tidak bergantung pada satu pembagian data tertentu dan memberikan estimasi performa yang lebih stabil. Teknik validasi yang paling sesuai untuk skenario ini adalah…

A. Cross-Validation
B. Hold-Out Validation
C. Bootstrap Sampling
D. Leave-One-Out

Jawaban: A
Cross‑Validation membagi data menjadi beberapa lipatan dan merata‑rata metrik evaluasi sehingga estimasi performa lebih stabil dan tidak bergantung pada satu pembagian acak.

55.

Seorang data scientist menerapkan stratified k-fold cross-validation dengan k=5 pada dataset tidak seimbang yang hanya memiliki 400 sampel. Tujuan utama penggunaan stratified k-fold dibandingkan k-fold biasa dalam situasi ini adalah…

A. memastikan proporsi kelas pada setiap fold mencerminkan proporsi kelas pada dataset asli
B. mempercepat waktu komputasi karena ukuran setiap fold menjadi lebih kecil
C. meningkatkan jumlah total data latih melalui duplikasi sampel minoritas
D. menghilangkan kebutuhan akan metrik evaluasi seperti precision dan recall

Jawaban: A
Stratified k-fold cross-validation mempertahankan distribusi kelas asli di setiap fold, sehingga metrik evaluasi lebih stabil dan representatif, terutama pada dataset kecil dan tidak seimbang. Teknik ini tidak bertujuan mempercepat komputasi, menambah data, atau menghilangkan metrik evaluasi.

56.

PT Sejahtera memiliki data transaksi pelanggan dengan label churn dan tidak churn. Tim data science menerapkan algoritma K-Nearest Neighbors dan Random Forest untuk memprediksi churn. Kedua algoritma ini termasuk dalam paradigma yang sama karena…

A. keduanya menggunakan data berlabel untuk proses pelatihan
B. keduanya menghasilkan output berupa klaster pelanggan
C. keduanya tidak memerlukan variabel target dalam data
D. keduanya hanya bekerja pada data numerik kontinu

Jawaban: A
KNN dan Random Forest sama-sama termasuk supervised learning karena proses pelatihannya memanfaatkan data berlabel (churn/tidak churn) untuk mempelajari pola prediksi. Klaster pelanggan adalah output unsupervised, dan tidak semua supervised learning terbatas pada data numerik kontinu.

57.

Seorang mahasiswa menerapkan algoritma K-Means pada dataset pelanggan tanpa label untuk mengelompokkan mereka berdasarkan perilaku belanja. Berbeda dengan supervised learning, pendekatan ini tidak memiliki target output yang diketahui sebelumnya. Apa istilah untuk paradigma pembelajaran yang digunakan…

A. Pembelajaran Terawasi
B. Pembelajaran Semi-Terawasi
C. Pembelajaran Tak Terawasi
D. Pembelajaran Reinforcement

Jawaban: C
Pembelajaran tak terawasi digunakan ketika data tidak memiliki label target dan algoritma mencari pola atau struktur tersembunyi seperti klaster. K-Means adalah contoh klasik unsupervised learning untuk segmentasi pelanggan.

58.

Siti melatih model neural network pada data latih dan memperoleh akurasi 99,8%, namun saat diuji pada data validasi akurasi anjlok ke 72%. Ia menduga model telah menghafal noise dalam data latih alih-alih mempelajari pola yang dapat digeneralisasi. Kondisi ini dikenal sebagai…

A. Overfitting
B. Underfitting
C. Bias Tinggi
D. Data Leakage

Jawaban: A
Model yang terlalu cocok dengan data latih hingga menangkap noise dan gagal menggeneralisasi pada data baru disebut Overfitting.

59.

Seorang data scientist mengamati bahwa model deep learning yang dilatih memberikan akurasi hampir sempurna pada data pelatihan tetapi gagal menggeneralisasi pada data uji. Ia menduga model terlalu kompleks dan mulai mengingat detail spesifik serta fluktuasi acak dalam data latih…

A. Overfitting karena model mempelajari noise dan pola spesifik data latih
B. Underfitting karena model kurang belajar dari data pelatihan yang diberikan
C. Bias tinggi karena model terlalu menyederhanakan hubungan dalam data
D. Kebocoran data karena informasi dari data uji masuk ke proses pelatihan

Jawaban: A
Fenomena ketika model memberikan performa sangat baik pada data latih namun buruk pada data baru disebut overfitting. Hal ini terjadi karena model yang terlalu kompleks cenderung mempelajari noise dan detail spesifik dari data latih, bukan hanya pola umum yang relevan, sehingga gagal menggeneralisasi. Mengurangi kompleksitas model, menambah data latih, atau menerapkan regularisasi merupakan strategi untuk mengatasi masalah ini.

60.

Tim data science PT Nusantara ingin mengoptimalkan hyperparameter model XGBoost. Mereka memiliki 6 hyperparameter dengan rentang nilai kontinu dan diskret. Karena keterbatasan waktu komputasi, tim memilih pendekatan yang menguji kombinasi hyperparameter secara acak dari distribusi yang ditentukan. Pendekatan ini disebut…

A. Grid Search
B. Manual Tuning
C. Bayesian Optimization
D. Random Search

Jawaban: D
Random Search memilih kombinasi hyperparameter secara acak dari distribusi yang ditentukan, berbeda dengan Grid Search yang menguji semua kombinasi secara sistematis. Dalam kasus ini, keterbatasan waktu membuat Random Search lebih efisien karena tidak perlu menjelajahi seluruh ruang pencarian.

61.

Model klasifikasi yang dilatih Budi memiliki bias tinggi dan variansi rendah. Ia mengamati bahwa baik pada data latih maupun validasi, akurasi model hanya sekitar 65%. Strategi ensemble yang paling tepat untuk mengurangi bias sekaligus meningkatkan performa model adalah…

A. Boosting
B. Bagging
C. Stacking
D. Voting Classifier

Jawaban: A
Boosting secara sekuensial membangun model yang fokus memperbaiki kesalahan model sebelumnya, sehingga secara efektif mengurangi bias. Bagging lebih cocok untuk mengurangi variansi pada model yang overfitting. Dalam kasus ini, akurasi rendah di kedua set menunjukkan underfitting dengan bias tinggi.

62.

Seorang data scientist menerapkan teknik ensemble di mana beberapa model berbeda (Random Forest, XGBoost, Logistic Regression) dilatih secara independen pada data yang sama, lalu hasil prediksinya digabungkan menggunakan meta-model. Teknik ensemble ini disebut…

A. Stacking
B. Boosting
C. Bagging
D. Voting

Jawaban: A
Stacking adalah teknik ensemble yang melatih beberapa model dasar secara independen, kemudian menggunakan meta-model (blender) untuk menggabungkan prediksi mereka. Berbeda dengan bagging yang menggunakan satu jenis model pada subset data berbeda, atau boosting yang membangun model secara sekuensial.

63.

Model machine learning yang kompleks seperti deep neural network sering dianggap sebagai black box karena sulit menjelaskan mengapa prediksi tertentu dihasilkan. Untuk memberikan interpretasi lokal terhadap prediksi individu, seorang data scientist dapat menggunakan alat yang menjelaskan kontribusi setiap fitur terhadap prediksi tertentu. Alat yang dimaksud adalah…

A. SHAP
B. LIME
C. Partial Dependence Plot
D. Permutation Importance

Jawaban: B
LIME (Local Interpretable Model-agnostic Explanations) dirancang untuk memberikan interpretasi lokal pada prediksi individu dengan membangun model sederhana yang menjelaskan keputusan di sekitar titik data tersebut. SHAP juga dapat digunakan untuk interpretasi lokal, tetapi soal spesifik merujuk pada konsep LIME yang fokus pada lokalitas. Namun, SHAP juga tepat — kuncinya adalah keduanya alat interpretasi lokal.

64.

Dewasa ini beberapa teknik interpretasi post-hoc dikembangkan untuk mengatasi keterbatasan transparansi model kompleks. Teknik yang menghitung kontribusi setiap fitur terhadap prediksi individu berdasarkan prinsip permainan kooperatif Shapley dikenal sebagai…

A. LIME
B. SHAP
C. Partial Dependence Plot
D. Permutation Feature Importance

Jawaban: B
SHAP (SHapley Additive exPlanations) secara spesifik menggunakan nilai Shapley dari teori permainan kooperatif untuk mendistribusikan kontribusi prediksi secara adil di antara fitur-fitur. Teknik ini berbeda dengan LIME yang membangun model pengganti lokal, atau Partial Dependence Plot yang menunjukkan efek rata-rata fitur terhadap prediksi, atau Permutation Feature Importance yang mengukur penurunan performa model.

65.

Setelah melatih model klasifikasi biner untuk deteksi spam, tim data menghitung metrik evaluasi dan memperoleh precision 0,95 dan recall 0,60. Manakah interpretasi yang tepat mengenai trade-off antara precision dan recall pada model ini…

A. Model gagal total karena akurasi berada di bawah 0,80
B. Model menangkap sebagian besar spam tetapi sering salah mengklasifikasikan email normal
C. Model memiliki keseimbangan sempurna antara false positive dan false negative
D. Model sangat baik mengidentifikasi spam tetapi banyak spam yang terlewat

Jawaban: D
Precision 0,95 berarti dari semua email yang diprediksi spam, 95% benar-benar spam (sedikit false positive). Recall 0,60 berarti hanya 60% dari total spam aktual yang berhasil terdeteksi (banyak spam terlewat sebagai false negative). Ini menunjukkan model konservatif dalam menandai spam.

66.

PT Asuransi Jaya mengembangkan model untuk mendeteksi klaim penipuan. Karena biaya investigasi klaim yang salah dituduh penipuan sangat tinggi, tim harus meminimalkan false positive meskipun beberapa klaim penipuan mungkin lolos. Metrik evaluasi yang paling tepat dijadikan acuan utama untuk skenario ini adalah…

A. Recall
B. Accuracy
C. F1-Score
D. Precision

Jawaban: D
Precision mengukur proporsi prediksi positif yang benar-benar positif. Dalam konteks ini, false positive adalah klaim jujur yang salah diprediksi sebagai penipuan, yang harus diminimalkan karena biayanya tinggi. Recall sebaliknya fokus pada false negative (penipuan yang lolos), yang dalam skenario ini lebih ditoleransi.

67.

Seorang data scientist membandingkan dua model klasifikasi menggunakan ROC Curve. Model A memiliki AUC 0,92 sedangkan Model B memiliki AUC 0,78. Grafik manakah yang paling tepat menggambarkan perbandingan kedua model tersebut…

A. Kurva Model A lebih dekat ke diagonal, kurva Model B lebih dekat ke sudut kiri atas
B. Kurva Model A lebih dekat ke sudut kiri atas, kurva Model B lebih mendekati diagonal
C. Kedua kurva berimpit tepat pada diagonal referensi
D. Kurva Model B berada di atas kurva Model A di seluruh rentang threshold

Jawaban: B
AUC mengukur kemampuan model membedakan kelas. Model dengan AUC tinggi (0,92) memiliki kurva yang mendekati sudut kiri atas (TPR tinggi, FPR rendah). Model dengan AUC lebih rendah (0,78) kurvanya lebih mendekati diagonal referensi yang mewakili klasifikasi acak.

68.

Dalam evaluasi model klasifikasi multikelas dengan 5 kategori, tim data ingin memahami tidak hanya akurasi keseluruhan tetapi juga jenis kesalahan yang terjadi antar kelas. Misalnya, apakah model sering salah mengklasifikasikan kelas A sebagai kelas B. Alat evaluasi yang paling informatif untuk tujuan ini adalah…

A. Akurasi
B. ROC Curve
C. F1-Score Makro
D. Confusion Matrix

Jawaban: D
Confusion Matrix adalah tabel ringkasan yang menunjukkan prediksi benar dan salah untuk setiap kelas, termasuk pola kesalahan antar kelas. Untuk kebutuhan memahami jenis kesalahan spesifik antar kategori, confusion matrix memberikan informasi paling granular dibandingkan metrik agregat lainnya.

69.

PT Logistik Nusantara telah mengembangkan model prediksi keterlambatan pengiriman menggunakan Flask dan berhasil diuji secara lokal. Tim ingin model ini dapat diakses oleh sistem operasional kantor cabang di seluruh Indonesia melalui internet dengan jaminan ketersediaan tinggi dan skalabilitas otomatis. Strategi deployment mana yang paling sesuai dengan kebutuhan tersebut…

A. Mengonversi model menjadi aplikasi desktop yang diinstal di setiap kantor cabang
B. Menjalankan model di server lokal kantor pusat dan membuka akses port melalui firewall
C. Menghosting model pada infrastruktur penyedia layanan cloud seperti AWS atau GCP
D. Menyimpan model dalam bentuk file pickle yang dibagikan melalui email ke setiap cabang

Jawaban: C
Kebutuhan akses internet luas, ketersediaan tinggi, dan skalabilitas otomatis merupakan karakteristik layanan cloud. Server lokal tidak menjamin skalabilitas otomatis, aplikasi desktop menyulitkan pembaruan, dan distribusi file pickle tidak menyediakan serving yang aman dan terstandar.

70.

Setelah melakukan deployment model klasifikasi sentimen ke AWS, seorang data engineer mengamati bahwa latensi respons API meningkat dari 200 ms menjadi 1.200 ms dalam dua minggu terakhir, sementara akurasi prediksi tetap stabil. Aktivitas deployment lanjutan apa yang paling relevan untuk mengatasi situasi ini…

A. Mengganti framework serving dari FastAPI ke Flask karena Flask lebih ringan
B. Melatih ulang model dengan dataset yang lebih besar agar lebih cepat
C. Monitoring performa model secara berkelanjutan untuk mendeteksi penurunan infrastruktur atau beban
D. Menerapkan hyperparameter tuning untuk mengurangi waktu komputasi model

Jawaban: C
Peningkatan latensi dengan akurasi stabil menunjukkan masalah infrastruktur atau beban, bukan performa model. Monitoring berkelanjutan membantu mendeteksi dan mendiagnosis penurunan kualitas layanan di lingkungan produksi.

71.

Startup HealthTech ingin mendemonstrasikan model deteksi penyakit kulit kepada calon investor dan dokter tanpa mengharuskan mereka menginstal perangkat lunak khusus. Aplikasi harus memiliki antarmuka web interaktif, mendukung unggahan gambar, dan dapat langsung digunakan melalui browser. Alat apa yang paling tepat untuk membangun antarmuka pengguna ini…

A. Streamlit atau Gradio untuk membuat antarmuka pengguna berbasis web secara cepat
B. Flask untuk membangun REST API yang dipanggil melalui Postman oleh pengguna
C. Docker untuk mengemas model menjadi container yang diunduh pengguna
D. Jupyter Notebook yang dibagikan melalui Google Colab dengan akses terbatas

Jawaban: A
Streamlit dan Gradio adalah framework Python yang dirancang untuk membangun antarmuka web interaktif bagi model machine learning secara cepat, mendukung unggahan gambar, dan langsung dapat diakses melalui browser tanpa instalasi khusus di sisi pengguna.

72.

Sebuah model rekomendasi produk telah berjalan di production selama tiga bulan. Tim data menemukan bahwa distribusi kategori produk yang dibeli pelanggan berubah signifikan dibandingkan data pelatihan awal, sehingga rekomendasi menjadi kurang relevan. Istilah apa yang menggambarkan fenomena perubahan distribusi data ini…

A. Data drift atau concept drift pada model yang memerlukan pemantauan dan pembaruan
B. Overfitting kronis yang baru terdeteksi setelah deployment berjalan lama
C. Underfitting laten yang disebabkan oleh kurangnya hyperparameter tuning
D. Data leakage yang terjadi saat data production bercampur dengan data pelatihan

Jawaban: A
Perubahan distribusi data input atau hubungan antara input dan target dari waktu ke waktu disebut data drift atau concept drift. Fenomena ini memerlukan pemantauan berkelanjutan dan pembaruan model secara berkala.

73.

Tim data science PT Finansialku menyimpan kode proyek di repositori GitHub. Seorang anggota tim secara tidak sengaja menghapus sebuah fungsi penting dalam kode pemrosesan data dan perubahan tersebut sudah tercommit. Untuk mengembalikan kode ke versi sebelum penghapusan, fitur apakah yang paling esensial dalam sistem yang digunakan…

A. Fork yang memungkinkan penyalinan repositori ke akun pribadi
B. Branching yang memungkinkan pengembangan fitur baru tanpa mengganggu kode utama
C. Pull request yang memungkinkan peninjauan kode oleh anggota tim lain
D. Version control yang merekam setiap perubahan sehingga dapat memulihkan versi spesifik sebelumnya

Jawaban: D
Version control seperti Git merekam perubahan dari waktu ke waktu sehingga setiap versi kode dapat dipulihkan. Fitur ini memungkinkan pengguna kembali ke commit sebelum penghapusan terjadi.

74.

Budi baru saja menyelesaikan capstone project analisis sentimen dan ingin mempublikasikan kodenya di GitHub agar dapat diakses oleh perekrut dan komunitas. Dokumen apa yang harus ia sertakan agar pengguna lain dapat memahami tujuan proyek, cara instalasi dependensi, dan langkah menjalankan kode tanpa harus membaca seluruh kode sumber…

A. Lisensi MIT yang menjelaskan ketentuan penggunaan kode oleh pihak lain
B. File requirements.txt yang mendaftarkan semua library Python yang digunakan
C. Notebook Jupyter yang berisi seluruh kode dan output analisis
D. README dalam format markdown yang berisi deskripsi proyek, petunjuk instalasi, dan cara penggunaan

Jawaban: D
README adalah dokumen markdown yang berfungsi sebagai panduan utama bagi pengguna baru, mencakup deskripsi proyek, instruksi instalasi, cara penggunaan, dan informasi kontribusi agar kode dapat dipahami dan digunakan tanpa membaca seluruh sumbernya.

75.

Seorang mahasiswa mengerjakan capstone project bersama tim beranggotakan empat orang. Setiap anggota mengerjakan fitur berbeda pada kode proyek secara paralel. Pola kolaborasi apakah yang paling sesuai diterapkan melalui GitHub untuk menghindari konflik dan memudahkan integrasi…

A. Semua anggota bekerja langsung pada branch main dan melakukan commit bergantian
B. Membuat branch terpisah untuk setiap fitur, lalu menggabungkannya melalui pull request setelah ditinjau
C. Menggunakan fork repositori untuk setiap anggota tanpa pernah menggabungkan kode
D. Menyimpan kode setiap anggota di folder terpisah dalam branch main

Jawaban: B
Pengembangan berbasis branch memungkinkan setiap anggota bekerja secara terisolasi pada fitur masing-masing. Pull request memfasilitasi peninjauan sebelum penggabungan, sehingga konflik dapat diidentifikasi dan diatasi secara sistematis.

76.

Perbedaan utama antara Git sebagai sistem version control dan GitHub sebagai platform hosting terletak pada…

A. Git adalah alternatif pengganti GitHub untuk kolaborasi berbasis web
B. Git hanya bisa digunakan untuk proyek individu, sedangkan GitHub mendukung kolaborasi tim
C. Git menyimpan kode secara cloud, sedangkan GitHub menyimpan kode secara lokal di komputer pengguna
D. Git adalah perangkat lunak version control yang berjalan secara lokal, sedangkan GitHub adalah layanan cloud untuk menyimpan dan mengelola repositori Git

Jawaban: D
Git adalah sistem version control terdistribusi yang berjalan di mesin lokal untuk merekam perubahan kode. GitHub adalah platform berbasis web yang menyediakan hosting repositori Git dan fitur kolaborasi tambahan seperti pull request dan issue tracking.

77.

Seorang mahasiswa sedang menulis bab metodologi capstone project. Ia harus menjelaskan mengapa memilih algoritma Random Forest, bagaimana proses pelatihan model dilakukan, dan bagaimana evaluasi performa diukur. Dalam struktur laporan capstone project, di bab manakah uraian ini seharusnya ditempatkan…

A. Bab metodologi yang menjelaskan pendekatan, metode analisis, dan prosedur evaluasi proyek
B. Bab pendahuluan yang menjelaskan latar belakang pemilihan topik
C. Bab tinjauan pustaka yang membahas penelitian terkait
D. Bab kesimpulan yang merangkum temuan utama proyek

Jawaban: A
Bab metodologi memuat penjelasan tentang pendekatan penelitian, metode analisis yang digunakan, prosedur eksperimen, dan teknik evaluasi. Pemilihan algoritma dan proses pelatihan model merupakan bagian dari metode analisis yang harus diuraikan di bab ini.

78.

Dalam menulis laporan akhir, Siti menyadari bahwa dataset yang digunakan hanya mencakup transaksi dari wilayah Jawa dan Bali, sehingga temuannya tidak dapat digeneralisasi ke seluruh Indonesia. Selain itu, periode data hanya mencakup satu tahun sehingga efek musiman jangka panjang tidak tertangkap. Di bab manakah pengakuan ini harus diungkapkan secara eksplisit…

A. Bab pendahuluan sebagai justifikasi mengapa topik ini dipilih untuk diteliti
B. Bab kesimpulan, saran, dan keterbatasan yang mengakui kelemahan metodologis dan kendala yang mempengaruhi validitas temuan
C. Bab tinjauan pustaka sebagai pembanding dengan penelitian sebelumnya
D. Bab hasil sebagai catatan kaki pada tabel statistik deskriptif

Jawaban: B
Keterbatasan penelitian merupakan pengakuan jujur terhadap kelemahan metodologis atau kendala yang mempengaruhi validitas dan generalisabilitas temuan. Bagian ini ditempatkan di bab kesimpulan bersama saran untuk penelitian selanjutnya.

79.

Apa perbedaan esensial antara abstrak dan ringkasan eksekutif dalam laporan capstone project…

A. Abstrak ditujukan untuk audiens akademik dan berisi intisari seluruh laporan, sedangkan ringkasan eksekutif berfokus pada temuan kunci dan rekomendasi untuk pengambil keputusan
B. Abstrak selalu lebih panjang dari ringkasan eksekutif karena mencakup detail metodologi
C. Ringkasan eksekutif ditulis dalam bahasa Inggris sedangkan abstrak selalu dalam bahasa Indonesia
D. Abstrak hanya berisi hasil dan kesimpulan, sedangkan ringkasan eksekutif mencakup tinjauan pustaka lengkap

Jawaban: A
Abstrak bersifat akademik dan merangkum seluruh isi laporan secara padat, sedangkan ringkasan eksekutif ditulis untuk pembaca non-teknis dan menekankan temuan utama, implikasi bisnis, dan rekomendasi yang dapat ditindaklanjuti.

80.

Struktur laporan capstone project yang baku mencakup beberapa bab utama yang disusun secara sistematis. Urutan yang tepat dari bab-bab tersebut adalah…

A. Tinjauan pustaka, pendahuluan, metodologi, hasil analisis, kesimpulan dan saran
B. Pendahuluan, tinjauan pustaka, metodologi, hasil analisis, kesimpulan dan saran
C. Metodologi, pendahuluan, tinjauan pustaka, hasil analisis, kesimpulan dan saran
D. Pendahuluan, hasil analisis, metodologi, tinjauan pustaka, kesimpulan dan saran

Jawaban: B
Struktur baku laporan capstone project mengikuti alur logis: pendahuluan (latar belakang dan masalah), tinjauan pustaka (landasan teori dan penelitian terkait), metodologi (pendekatan dan metode), hasil analisis (temuan), dan kesimpulan serta saran (penutup).

81.

Direktur pemasaran PT Retailindo meminta presentasi hasil analisis segmentasi pelanggan. Audiens yang hadir terdiri dari kepala divisi pemasaran yang memahami konsep clustering, serta direktur keuangan dan direktur operasional yang tidak memiliki latar belakang teknis. Strategi penyampaian manakah yang paling efektif untuk audiens campuran ini…

A. Menggunakan istilah teknis seperti K-Means, elbow method, dan silhouette score secara dominan agar presentasi terlihat profesional
B. Menyampaikan cerita data dengan narasi yang jelas, menggunakan analogi bisnis, serta menyediakan detail teknis dalam lampiran untuk yang membutuhkan
C. Membagi presentasi menjadi dua sesi terpisah, satu untuk audiens teknis dan satu untuk non-teknis
D. Hanya menampilkan grafik hasil clustering tanpa penjelasan naratif agar audiens menginterpretasi sendiri

Jawaban: B
Data storytelling dengan narasi yang jelas dan analogi bisnis memungkinkan audiens non-teknis memahami wawasan, sementara detail teknis di lampiran memenuhi kebutuhan audiens teknis tanpa mengganggu alur utama presentasi.

82.

Siti merancang slide presentasi untuk sidang capstone project. Pada satu slide ia menampilkan tiga grafik berbeda, empat poin kesimpulan, dan dua tabel ringkasan sekaligus. Dosen penguji terlihat kesulitan mengikuti presentasinya. Prinsip perancangan slide efektif apakah yang dilanggar oleh Siti…

A. Prinsip animasi berjenjang yang mengharuskan setiap elemen muncul bergantian
B. Prinsip kontras warna yang mewajibkan latar belakang putih dengan teks hitam
C. Prinsip minimalis dan satu ide per slide sehingga informasi mudah dicerna audiens
D. Prinsip kelengkapan data yang mengharuskan semua hasil analisis ditampilkan dalam satu slide

Jawaban: C
Slide presentasi yang efektif menganut prinsip minimalis dengan fokus pada satu ide utama per slide. Terlalu banyak elemen dalam satu slide membebani audiens dan mengaburkan pesan yang ingin disampaikan.

83.

Manakah yang paling tepat menggambarkan perbedaan antara data storytelling dan reporting dalam komunikasi hasil analisis…

A. Storytelling selalu bersifat verbal tanpa visualisasi, sedangkan reporting selalu berbentuk dashboard
B. Storytelling hanya menggunakan grafik dan tabel, sedangkan reporting menggunakan teks naratif panjang
C. Storytelling menyusun narasi dengan alur untuk memengaruhi dan mengedukasi audiens, sedangkan reporting menyajikan data dan metrik secara terstruktur tanpa penekanan naratif
D. Storytelling digunakan untuk audiens internal, sedangkan reporting untuk audiens eksternal

Jawaban: C
Data storytelling menekankan penyusunan narasi berbasis data dengan alur yang jelas untuk memengaruhi dan mengedukasi audiens. Reporting lebih berfokus pada penyajian data dan metrik secara terstruktur tanpa penekanan pada elemen naratif.

84.

Seorang mahasiswa akan mempresentasikan capstone project di depan penguji yang terdiri dari praktisi industri dan akademisi. Ia menyiapkan dua versi penjelasan untuk setiap temuan: penjelasan singkat berbasis dampak bisnis dan penjelasan rinci berbasis metodologi. Strategi ini mencerminkan pemahaman bahwa…

A. Akademisi tidak tertarik pada dampak bisnis dari hasil penelitian
B. Semua audiens memiliki pemahaman yang sama sehingga penjelasan ganda tidak diperlukan
C. Praktisi industri selalu lebih memahami metodologi dibandingkan akademisi
D. Audiens teknis tertarik pada validitas metode, sementara audiens non-teknis lebih peduli pada implikasi praktis dari temuan

Jawaban: D
Audiens yang berbeda memiliki ekspektasi dan kepentingan yang berbeda. Praktisi industri cenderung fokus pada dampak bisnis dan aplikasi praktis, sedangkan akademisi lebih menekankan validitas metodologi dan kontribusi ilmiah.

85.

Budi ingin menunjukkan kompetensinya di bidang sains data kepada perekrut dengan memamerkan beberapa proyek yang telah ia selesaikan, lengkap dengan kode, dokumentasi, dan hasil analisisnya di sebuah platform online. Apa istilah untuk kumpulan proyek terpublikasi yang berfungsi sebagai bukti kemampuan ini…

A. Curriculum Vitae Data Science
B. Repositori Proyek Akhir
C. Portofolio Data Science
D. Jurnal Ilmiah Pribadi

Jawaban: C
Portofolio data science adalah kumpulan proyek yang dipublikasikan untuk menunjukkan kompetensi dan pengalaman teknis. CV deskriptif, repositori hanya tempat penyimpanan, dan jurnal ilmiah lebih ke publikasi akademik.

86.

Seorang mahasiswa menggunakan dataset publik dari Kaggle yang dilisensikan di bawah Creative Commons BY 4.0 untuk proyek capstone-nya. Dalam laporan dan repositori GitHub, ia lupa mencantumkan sumber dataset tersebut. Prinsip etika publikasi apakah yang telah dilanggar…

A. Atribusi
B. Hak Cipta
C. Lisensi Open Source
D. Plagiarisme Kode

Jawaban: A
Atribusi adalah praktik memberikan kredit kepada penulis asli data, kode, atau ide yang digunakan. Lisensi open source adalah izin, hak cipta adalah perlindungan hukum, dan plagiarisme kode hanya terkait kode.

87.

Anita telah menyelesaikan proyek analisis sentimen dan ingin membagikan ringkasan temuan serta proses pengerjaannya kepada khalayak luas dengan gaya penulisan populer dan naratif, bukan format akademis yang kaku. Platform mana yang paling sesuai untuk tujuan ini…

A. GitHub
B. Medium atau Blog Pribadi
C. Kaggle
D. Google Scholar

Jawaban: B
Medium atau blog pribadi cocok untuk publikasi ringkasan proyek bergaya populer dan naratif. GitHub dan Kaggle lebih untuk portofolio teknis, Google Scholar untuk artikel ilmiah.

88.

Sebagai bagian dari evaluasi akhir, dua mahasiswa saling menilai proyek capstone masing-masing menggunakan rubrik yang telah disediakan oleh dosen. Proses evaluasi oleh sesama mahasiswa ini dikenal dengan istilah…

A. Peer Review
B. Self-Assessment
C. Umpan Balik Tutor
D. Penilaian Sumatif

Jawaban: A
Peer review adalah proses evaluasi proyek oleh sesama mahasiswa untuk mendapatkan umpan balik konstruktif dari perspektif setara. Self-assessment menilai diri sendiri, umpan balik tutor dari pengajar, dan penilaian sumatif bersifat akhir.

89.

Rubrik penilaian capstone project di Universitas Terbuka memiliki kriteria penilaian yang terstruktur dan skala yang jelas untuk setiap aspek proyek. Manakah dari berikut ini yang merupakan fungsi utama dari rubrik penilaian tersebut…

A. Memberikan nilai akhir tanpa umpan balik
B. Menstandarisasi penilaian agar objektif dan transparan
C. Menggantikan kebutuhan akan presentasi proyek
D. Mempercepat proses pengerjaan proyek

Jawaban: B
Rubrik penilaian menstandarisasi kriteria dan skala penilaian sehingga evaluasi menjadi objektif, terukur, dan transparan. Rubrik tetap menyertakan umpan balik, tidak menghilangkan presentasi, dan tidak mempengaruhi kecepatan pengerjaan.

90.

Setelah menerima umpan balik dari penguji bahwa model machine learning-nya mengalami overfitting, Rina memutuskan untuk menerapkan regularisasi dan mengumpulkan data tambahan sebelum melakukan revisi. Tahapan evaluasi manakah yang sedang dijalani Rina…

A. Self-Assessment
B. Peer Review
C. Penilaian Formatif
D. Revisi dan Penyempurnaan Proyek

Jawaban: D
Revisi dan penyempurnaan proyek adalah tahap menindaklanjuti umpan balik untuk memperbaiki dan meningkatkan kualitas proyek. Self-assessment dan peer review adalah proses evaluasi, bukan tindakan perbaikan.

91.

Dalam konteks evaluasi menyeluruh, apa perbedaan mendasar antara penilaian formatif dan penilaian sumatif pada capstone project…

A. Formatif dilakukan di awal proyek, sumatif di akhir proyek
B. Formatif dilakukan oleh teman sejawat, sumatif oleh dosen
C. Formatif bertujuan memberikan umpan balik untuk perbaikan, sumatif mengukur pencapaian akhir
D. Formatif menggunakan rubrik, sumatif tidak

Jawaban: C
Penilaian formatif bertujuan memberikan umpan balik selama proses untuk perbaikan, sedangkan penilaian sumatif mengukur hasil akhir secara komprehensif. Keduanya bisa dilakukan kapan saja dan oleh siapa saja, serta bisa sama-sama menggunakan rubrik.

92.

Setelah menyelesaikan capstone project-nya, Siti merenungkan kembali seluruh proses pengerjaan dan menyadari bahwa ia terlalu lama menghabiskan waktu pada eksplorasi data sehingga pengembangan model menjadi terburu-buru. Proses introspeksi kritis terhadap pengalaman proyek ini disebut…

A. Evaluasi Sumatif
B. Peer Review
C. Penilaian Kinerja
D. Refleksi Diri

Jawaban: D
Refleksi diri adalah proses introspeksi kritis terhadap pengalaman proyek untuk mengidentifikasi pelajaran yang dipetik dan area pengembangan. Berbeda dengan evaluasi sumatif yang mengukur hasil atau peer review yang melibatkan pihak lain.

93.

Seorang lulusan program studi sains data diharapkan memiliki pengetahuan, keterampilan, dan sikap yang terintegrasi. Dalam capstone project, seluruh kemampuan ini diwujudkan sekaligus. Apa istilah yang merujuk pada seperangkat kemampuan yang harus dikuasai lulusan ini…

A. Kompetensi Program Studi
B. Capaian Pembelajaran Mata Kuliah
C. Profil Lulusan
D. Kurikulum Inti

Jawaban: A
Kompetensi program studi mencakup pengetahuan, keterampilan, dan sikap yang harus dikuasai lulusan. Capstone project mengintegrasikan seluruh kompetensi tersebut, bukan hanya capaian satu mata kuliah atau profil umum, melainkan kemampuan terukur.

94.

Dalam sesi refleksi, tim proyek mengidentifikasi bahwa kelebihan utama proyek mereka adalah kualitas visualisasi data yang sangat informatif, sedangkan kelemahan utamanya adalah kurangnya validasi model dengan data eksternal. Aktivitas ini merupakan bagian dari…

A. Perbandingan dengan Proyek Lain
B. Identifikasi Kekuatan dan Kelemahan Proyek
C. Evaluasi Risiko Proyek
D. Penilaian Akhir Dosen

Jawaban: B
Mengidentifikasi kekuatan dan kelemahan proyek adalah bagian dari refleksi proses dan pembelajaran. Ini berbeda dari membandingkan dengan proyek lain, mengevaluasi risiko, atau penilaian akhir yang bersifat eksternal.

95.

Budi menyadari bahwa selama mengerjakan capstone project, kemampuan komunikasi dan kolaborasi timnya meningkat pesat, sementara sebelumnya ia hanya fokus mengasah kemampuan teknis pemrograman. Peningkatan kemampuan non-teknis ini dikenal sebagai pengembangan…

A. Hard Skills
B. Kompetensi Inti
C. Soft Skills
D. Keahlian Domain

Jawaban: C
Soft skills mencakup kemampuan non-teknis seperti komunikasi dan kolaborasi. Hard skills adalah kemampuan teknis terukur, kompetensi inti bisa mencakup keduanya, dan keahlian domain terkait bidang spesifik.

96.

Seorang mahasiswa sains data bercita-cita membangun infrastruktur data berskala besar, mengelola pipeline data, dan memastikan data siap digunakan oleh data scientist lain. Berdasarkan peta kompetensi, jalur karier apakah yang paling sesuai dengan minat tersebut…

A. Data Analyst
B. Data Engineer
C. Data Scientist
D. Machine Learning Engineer

Jawaban: B
Data engineer bertanggung jawab membangun dan memelihara infrastruktur data, pipeline, dan memastikan data siap digunakan. Data analyst fokus pada analisis deskriptif, data scientist pada pemodelan, dan ML engineer pada deployment model.

97.

Perusahaan XYZ mencari kandidat yang mampu merancang eksperimen, membangun model prediktif, dan mengkomunikasikan insight kepada pemangku kepentingan. Tanggung jawab ini paling mencerminkan peran…

A. Data Analyst
B. Business Intelligence Analyst
C. Data Engineer
D. Data Scientist

Jawaban: D
Data scientist merancang eksperimen, membangun model prediktif, dan mengkomunikasikan insight. Data analyst lebih pada analisis deskriptif, data engineer pada infrastruktur, dan BI analyst pada pelaporan bisnis terstruktur.

98.

Rina ingin memvalidasi keahlian teknisnya di bidang data science melalui kredensial yang diakui industri secara global. Ia memilih mengikuti ujian dari Google untuk sertifikasi Professional Data Engineer. Apa fungsi utama sertifikasi semacam ini bagi karier Rina…

A. Memvalidasi keahlian teknis spesifik yang diakui industri
B. Menggantikan gelar akademik yang sudah dimiliki
C. Menjamin kenaikan gaji secara otomatis
D. Menghilangkan kebutuhan pengalaman kerja

Jawaban: A
Sertifikasi profesional berfungsi memvalidasi keahlian teknis spesifik yang diakui industri, menjadi bukti kompetensi tambahan. Sertifikasi tidak menggantikan gelar akademik, tidak menjamin kenaikan gaji, dan tidak menghilangkan kebutuhan pengalaman kerja.

99.

Andi baru saja lulus dan ingin bergabung dengan komunitas sains data di Indonesia untuk memperluas jaringan, belajar dari praktisi, dan mendapatkan informasi peluang karier. Manakah dari berikut ini yang merupakan contoh ekosistem komunitas sains data di Indonesia…

A. Kaggle
B. GitHub
C. Data Science Indonesia (DSI)
D. Coursera

Jawaban: C
Data Science Indonesia (DSI) adalah komunitas sains data di Indonesia yang mewadahi praktisi untuk berjejaring dan berbagi pengetahuan. Kaggle dan GitHub adalah platform global, Coursera adalah platform pembelajaran, bukan komunitas lokal.

100.

Dalam sebuah proyek sains data yang memanfaatkan data sekunder berskala besar, seorang mahasiswa menemukan inkonsistensi format penulisan pada kolom 'nama_kota' yang menyebabkan kategori yang sama terpecah menjadi beberapa representasi unik. Teknik praproses apa yang paling tepat untuk menangani masalah ini…

A. Merancang fungsi untuk memetakan variasi penulisan ke satu bentuk standar melalui pencocokan string dan validasi manual
B. Menghapus seluruh kolom 'nama_kota' dari dataset karena dianggap tidak konsisten dan berpotensi menimbulkan bias
C. Mengisi semua nilai pada kolom 'nama_kota' dengan modus global untuk menghilangkan variasi yang ada
D. Mengonversi kolom 'nama_kota' menjadi representasi numerik melalui label encoding tanpa memperbaiki data mentahnya

Jawaban: A
Masalah inkonsistensi penulisan pada data kategorikal seperti variasi nama kota memerlukan standardisasi. Teknik yang tepat adalah dengan membangun logika atau fungsi pemetaan (mapping) yang dapat mengenali pola-pola variasi penulisan, seperti perbedaan huruf kapital, singkatan, atau kesalahan ketik, untuk kemudian dikonversi menjadi satu bentuk standar yang seragam. Proses ini sering kali memerlukan validasi manual untuk memastikan akurasi pemetaan. Menghapus kolom akan menghilangkan informasi penting, mengisi dengan modus akan merusak distribusi data sebenarnya, dan melakukan encoding tanpa memperbaiki data mentah hanya akan memindahkan masalah inkonsistensi ke dalam bentuk numerik tanpa menyelesaikan akar permasalahannya.

Banyak yang fokus ke kode dan model, lupa kalau penilaian terbesarnya ada di dokumentasi. Dosen penguji akan baca laporanmu dulu sebelum lihat GitHub. Struktur dari Modul 7 itu bukan formalitas. Kalau metodologinya loncat-loncat, nilai langsung turun.

Di STDA4440 Capstone Project, soal UO biasanya menyatu dengan skenario proyek. Kamu dituntut bernalar seperti data scientist sungguhan, bukan sekadar menghafal library. UTM lebih ke konsep dasar, tapi jangan cuma aman di situ. Kalau masih ada waktu, soal UT MSIM4404 Keamanan Jaringan bisa jadi latihan tambahan buat mengasah logika teknis. Siap sidang?

Soal UAS UT STDA4440 Capstone Project dan Kunci Jawaban

Soal UT STDA4440 Capstone Project

Baca juga

Soal UAS UT STPL4211 Sistem Informasi Perencanaan dan Kunci Jawaban

Soal UAS UT STSI4404 Keamanan Jaringan dan Kunci Jawaban

Soal UAS UT STDA4301 Solusi TI untuk Masyarakat dan Kunci Jawaban

Soal UAS UT STDA4401 Pengantar Teknologi Blockchain dan Kunci Jawaban

Soalut.com

Soal UAS UT STDA4440 Capstone Project dan Kunci Jawaban

Soal UT STDA4440 Capstone Project

Baca juga

Soal UAS UT STPL4211 Sistem Informasi Perencanaan dan Kunci Jawaban

Soal UAS UT STSI4404 Keamanan Jaringan dan Kunci Jawaban

Soal UAS UT STDA4301 Solusi TI untuk Masyarakat dan Kunci Jawaban

Soal UAS UT STDA4401 Pengantar Teknologi Blockchain dan Kunci Jawaban

Soalut.com

🔥 Post Terbaru