Soal UAS UT STSI4204 Analisis dan Visualisasi Data Beserta Kunci Jawaban

Baru baca Modul 1, sudah bingung bedain histogram sama diagram batang. Padahal minggu depan kamu harus paham ukuran pemusatan dan penyebaran data sekaligus. STSI4204 Analisis dan Visualisasi Data memang menguji dari sisi konsep, bukan cuma teknis. Seringnya, soal UAS meminta kamu membandingkan kelompok data dalam satu tampilan.

Modul 3 tentang data hilang dan Modul 4 soal regresi sederhana juga butuh fokus ekstra. Bukan cuma definisinya. Teknik penanganan seperti imputasi rata-rata atau regresi konfirmasi sering muncul berdampingan. Di sinilah kumpulan soal UT Statistika bisa jadi ajang latihan. Rasakan sendiri bagaimana satu soal menyambung ke konsep lainnya.

Soal-soal di bawah ini kami susun dari tiap kegiatan belajar. Ada juga yang menyentuh visualisasi data interaktif dan dashboard. Semua dilengkapi kunci jawaban dan pembahasan biar kamu tahu letak salahnya. Kalau sudah mantap, coba cek latihan UAS UT di halaman lain untuk matkul lain.

Soal UT STSI4204 Analisis dan Visualisasi Data

Seorang analis menghitung rata-rata pendapatan 100 responden dengan menjumlahkan seluruh pendapatan lalu membaginya dengan 100. Prosedur ini paling tepat menggambarkan ukuran pemusatan jenis…

A. Median
B. Mean
C. Modus
D. Kuartil

Jawaban: B
Mean dihitung dengan menjumlahkan semua nilai lalu membagi dengan jumlah data, sehingga prosedur yang dilakukan analis tersebut merupakan penghitungan mean.

Suatu dataset memiliki nilai-nilai: 12, 15, 18, 20, 22, 25, 30. Ukuran pemusatan manakah yang paling tepat digunakan jika peneliti ingin memperoleh nilai yang membagi data terurut menjadi dua bagian sama banyak…

A. Mean
B. Modus
C. Simpangan baku
D. Median

Jawaban: D
Median adalah nilai tengah yang membagi data terurut menjadi dua bagian dengan jumlah data yang sama banyak.

Seorang guru mencatat nilai ujian 40 siswa dan menemukan bahwa nilai 75 muncul sebanyak 8 kali, lebih banyak dibandingkan nilai lainnya. Dalam konteks ini, 75 disebut sebagai…

A. Mean
B. Median
C. Modus
D. Rentang interkuartil

Jawaban: C
Modus adalah nilai yang paling sering muncul dalam suatu kumpulan data, dalam kasus ini 75 muncul terbanyak yaitu 8 kali.

Ketika distribusi data sangat menceng ke kanan akibat adanya beberapa nilai ekstrem tinggi, ukuran pemusatan manakah yang cenderung paling tidak terpengaruh oleh pencilan tersebut…

A. Mean
B. Median
C. Modus
D. Varians

Jawaban: B
Median tidak bergantung pada nilai ekstrem karena hanya mempertimbangkan posisi tengah data terurut, sehingga resisten terhadap pencilan.

Berikut adalah data tinggi tanaman (cm) di sebuah kebun percobaan: 45, 50, 52, 48, 55, 60, 58, 53, 47, 51. Untuk mengetahui seberapa besar penyimpangan rata-rata setiap data terhadap meannya, ukuran yang tepat dihitung adalah…

A. Rentang interkuartil
B. Median
C. Modus
D. Simpangan baku

Jawaban: D
Simpangan baku mengukur rata-rata jarak setiap titik data terhadap mean, menunjukkan seberapa besar penyebaran data dari pusatnya.

Seorang peneliti ingin mengukur sebaran 50% data di bagian tengah distribusi agar tidak terpengaruh oleh nilai-nilai ekstrem. Ukuran penyebaran yang sesuai adalah…

A. Simpangan baku
B. Varians
C. Rentang interkuartil
D. Mean

Jawaban: C
Rentang interkuartil adalah selisih antara kuartil ketiga dan kuartil pertama, mencakup 50% data tengah dan tahan terhadap pencilan.

Perhatikan dua ukuran penyebaran berikut: (1) rata-rata kuadrat selisih setiap data terhadap mean, dan (2) akar kuadrat dari rata-rata kuadrat selisih tersebut. Manakah pernyataan yang benar mengenai hubungan keduanya…

A. (1) adalah simpangan baku dan (2) adalah varians
B. (1) adalah varians dan (2) adalah simpangan baku
C. Keduanya mengukur pemusatan data
D. (1) dan (2) identik secara nilai

Jawaban: B
Varians dihitung sebagai rata-rata kuadrat selisih terhadap mean, sedangkan simpangan baku adalah akar kuadrat dari varians.

PT Maju Sejahtera memiliki data gaji karyawan dengan rentang nilai yang sangat lebar. Manajemen ingin melaporkan satu angka yang merepresentasikan gaji tipikal tanpa terdistorsi oleh gaji direksi yang sangat tinggi. Ukuran pemusatan yang direkomendasikan adalah…

A. Mean
B. Median
C. Simpangan baku
D. Varians

Jawaban: B
Median lebih tepat digunakan ketika terdapat nilai ekstrem karena memberikan gambaran gaji tipikal yang tidak terdistorsi oleh beberapa nilai sangat tinggi.

Dua kelompok data dibandingkan menggunakan diagram yang menampilkan lima angka ringkasan: nilai minimum, Q1, median, Q3, dan nilai maksimum. Diagram ini paling tepat digunakan untuk mengidentifikasi perbedaan sebaran antar kelompok secara visual…

A. Diagram batang berkelompok
B. Diagram pencar
C. Box plot
D. Histogram

Jawaban: C
Box plot menyajikan ringkasan lima angka yang memudahkan perbandingan sebaran antarkelompok melalui visualisasi median, kuartil, dan nilai ekstrem.

10.

Seorang analis ingin membandingkan sebaran nilai ujian tiga kelas paralel secara visual sekaligus mengidentifikasi keberadaan pencilan di setiap kelas. Visualisasi yang paling komprehensif untuk tujuan ini adalah…

A. Diagram batang berkelompok
B. Box plot untuk masing-masing kelas
C. Diagram lingkaran untuk setiap kelas
D. Tiga histogram terpisah tanpa overlay

Jawaban: B
Box plot menyajikan lima angka ringkasan dan secara eksplisit menandai pencilan, sehingga ideal untuk membandingkan sebaran antarkelompok sekaligus mendeteksi pencilan.

11.

Ketika membandingkan dua kelompok data yang memiliki distribusi sangat menceng, ukuran pemusatan manakah yang memberikan perbandingan paling representatif terhadap nilai tipikal masing-masing kelompok…

A. Mean karena memanfaatkan seluruh data
B. Rentang interkuartil karena mengukur sebaran
C. Modus karena menunjukkan nilai tersering
D. Median karena tahan terhadap pencilan

Jawaban: D
Median tidak dipengaruhi oleh nilai ekstrem sehingga lebih representatif sebagai ukuran tipikal ketika distribusi menceng. Mean akan tertarik ke arah ekor distribusi.

12.

Dua perusahaan retail, A dan B, masing-masing memiliki 50 cabang. Manajemen pusat ingin menyajikan perbandingan pendapatan bulanan kedua perusahaan berdasarkan kategori kota (besar, menengah, kecil) dalam satu tampilan. Visualisasi yang paling sesuai adalah…

A. Dua diagram lingkaran terpisah
B. Diagram pencar pendapatan vs kota
C. Diagram batang berkelompok dengan sumbu X kategori kota dan batang berdampingan untuk perusahaan A dan B
D. Box plot pendapatan gabungan kedua perusahaan

Jawaban: C
Diagram batang berkelompok memungkinkan perbandingan langsung antar kelompok dalam setiap kategori, sehingga pola perbedaan mudah terlihat secara visual.

13.

Dalam laporan tahunan, sebuah lembaga survei menampilkan perbandingan rata-rata kepuasan pelanggan antara empat provider telekomunikasi menggunakan diagram batang. Jika lembaga tersebut juga ingin menampilkan variabilitas skor kepuasan pada diagram yang sama, elemen tambahan apa yang paling informatif…

A. Garis diagonal yang menunjukkan kemiringan tren
B. Batang tambahan untuk nilai modus setiap provider
C. Warna berbeda untuk setiap batang tanpa informasi tambahan
D. Error bar yang menunjukkan simpangan baku atau interval kepercayaan pada setiap batang

Jawaban: D
Error bar pada diagram batang menyajikan informasi variabilitas secara langsung pada visualisasi yang sama, sehingga pembaca dapat menilai perbedaan rata-rata dan sebarannya sekaligus.

14.

Seorang peneliti membandingkan dua kelompok data: kelompok X memiliki mean 50 dan median 48, sedangkan kelompok Y memiliki mean 48 dan median 50. Berdasarkan informasi ini, manakah pernyataan yang paling mungkin benar tentang bentuk distribusi kedua kelompok…

A. Distribusi X lebih menyebar daripada distribusi Y
B. Distribusi X menceng ke kiri dan distribusi Y menceng ke kanan
C. Kedua distribusi simetris sempurna
D. Distribusi X menceng ke kanan dan distribusi Y menceng ke kiri

Jawaban: D
Jika mean lebih besar dari median, distribusi menceng ke kanan. Sebaliknya, mean lebih kecil dari median menunjukkan distribusi menceng ke kiri.

15.

Dalam membandingkan tiga kelompok data, analis menggunakan diagram yang menampilkan median, kuartil, dan whisker. Namun, diagram tersebut tidak menampilkan informasi mengenai ukuran pemusatan selain median. Jika analis juga ingin membandingkan mean antarkelompok pada diagram yang sama, simbol apakah yang lazim ditambahkan…

A. Garis putus-putus horizontal pada seluruh lebar diagram
B. Titik atau simbol khusus (misalnya berlian) yang merepresentasikan mean pada setiap box
C. Batang vertikal tambahan di samping setiap box
D. Angka mean dituliskan di bawah sumbu horizontal

Jawaban: B
Pada box plot, simbol seperti titik atau berlian sering ditambahkan untuk menunjukkan posisi mean, sehingga perbandingan mean dan median antarkelompok dapat dilakukan dalam satu visualisasi.

16.

Ketika mean dan modus dua kelompok data disajikan berdampingan untuk perbandingan, informasi penting apa yang hilang jika hanya kedua ukuran tersebut yang dilaporkan tanpa ukuran penyebaran…

A. Nilai tertinggi dan terendah dari masing-masing kelompok
B. Tingkat homogenitas atau variabilitas data di dalam setiap kelompok
C. Jumlah total data pada setiap kelompok
D. Bentuk pasti dari distribusi setiap kelompok

Jawaban: B
Mean dan modus hanya menggambarkan pemusatan data. Tanpa ukuran penyebaran, tidak diketahui seberapa homogen atau bervariasinya data dalam kelompok tersebut.

17.

Asumsi homoskedastisitas merupakan salah satu aspek yang mendasari perlunya transformasi data. Asumsi ini mensyaratkan bahwa…

A. Varians residual konstan di seluruh rentang nilai prediktor
B. Hubungan antar variabel harus berbentuk kurva non-linier
C. Data harus mengikuti distribusi normal sempurna
D. Mean dan varians harus bernilai sama pada setiap kelompok

Jawaban: A
Homoskedastisitas adalah kondisi di mana varians residual konstan di sepanjang nilai variabel prediktor. Pelanggaran asumsi ini dapat diatasi melalui transformasi data.

18.

Sebelum melakukan analisis regresi, seorang analis memeriksa scatter plot dan menemukan bahwa pola titik-titik data membentuk kurva melengkung, bukan garis lurus. Asumsi yang dilanggar dalam situasi ini adalah…

A. Normalitas residual
B. Homoskedastisitas varians
C. Linearitas hubungan antar variabel
D. Independensi antar amatan

Jawaban: C
Linearitas mensyaratkan hubungan antara variabel prediktor dan respons bersifat garis lurus. Pola melengkung pada scatter plot menunjukkan pelanggaran asumsi ini.

19.

Data jumlah pelanggan yang dikeluhkan per hari di sebuah call center memiliki varians yang meningkat seiring dengan bertambahnya jumlah panggilan masuk. Kondisi ini menunjukkan pelanggaran terhadap asumsi…

A. Homoskedastisitas
B. Linearitas hubungan antar variabel
C. Normalitas distribusi data
D. Independensi residual

Jawaban: A
Varians yang berubah sepanjang rentang nilai prediktor merupakan indikasi heteroskedastisitas, yaitu pelanggaran terhadap asumsi homoskedastisitas.

20.

Dalam prosedur analisis data, normalitas sering menjadi asumsi penting. Konsekuensi langsung jika data tidak memenuhi asumsi normalitas pada analisis parametrik adalah…

A. Hasil analisis otomatis menjadi tidak valid dan tidak dapat digunakan sama sekali
B. Pengujian hipotesis berbasis distribusi normal dapat memberikan kesimpulan yang menyesatkan
C. Model regresi tidak dapat dibentuk untuk data tersebut
D. Semua pencilan harus dihapus tanpa pertimbangan lebih lanjut

Jawaban: B
Banyak uji parametrik mengandalkan distribusi normal. Jika asumsi ini dilanggar, nilai-p dan interval kepercayaan bisa tidak akurat, sehingga berpotensi menghasilkan kesimpulan yang keliru.

21.

Transformasi data sering diterapkan untuk mengatasi kemencengan positif yang parah pada distribusi data pendapatan. Prinsip utama di balik efektivitas transformasi dalam kasus ini adalah…

A. Menghilangkan seluruh data di atas rata-rata
B. Mengelompokkan data ke dalam interval yang sama lebar
C. Menambah jumlah data buatan pada ekor kiri distribusi
D. Mengkompresi skala nilai-nilai besar lebih kuat daripada nilai-nilai kecil sehingga distribusi menjadi lebih simetris

Jawaban: D
Transformasi seperti logaritma bekerja dengan memperkecil jarak antar nilai pada rentang tinggi secara lebih agresif sehingga ekor kanan distribusi tertarik masuk dan distribusi menjadi lebih simetris.

22.

Ketika sebuah distribusi sangat menceng ke kanan, transformasi akar kuadrat diterapkan. Namun, terdapat pula metode yang memilih parameter optimal secara otomatis untuk mendekatkan data pada distribusi normal. Metode yang dimaksud adalah…

A. Transformasi Box-Cox
B. Transformasi logaritma natural
C. Standarisasi Z-score
D. Normalisasi min-max

Jawaban: A
Transformasi Box-Cox merupakan keluarga transformasi pangkat yang mengestimasi parameter lambda optimal dari data untuk mencapai bentuk distribusi yang paling mendekati normal.

23.

Data curah hujan harian di suatu wilayah memiliki varians yang sangat besar pada musim hujan namun kecil pada musim kemarau. Transformasi yang paling tepat untuk menstabilkan varians data semacam ini adalah…

A. Transformasi logaritma
B. Standarisasi Z-score
C. Transformasi akar kuadrat
D. Normalisasi min-max

Jawaban: A
Transformasi logaritma sangat efektif untuk data dengan varians yang proporsional terhadap mean, karena mengkompresi nilai-nilai tinggi sehingga varians menjadi lebih stabil.

24.

Sebelum melakukan analisis klaster, seorang data scientist melakukan standarisasi Z-score pada seluruh variabel numerik. Tujuan utama dari prosedur ini adalah…

A. Mengubah distribusi data menjadi normal
B. Menghilangkan multikolinearitas antar variabel
C. Menyamakan skala variabel sehingga setiap variabel memiliki pengaruh yang setara dalam analisis
D. Meningkatkan jumlah klaster yang terbentuk

Jawaban: C
Standarisasi Z-score mentransformasi data agar memiliki mean nol dan simpangan baku satu, sehingga setiap variabel memiliki pengaruh yang setara dalam analisis jarak seperti klastering.

25.

Data cacahan (count data) yang menyebar mengikuti distribusi Poisson sering kali memiliki hubungan antara mean dan varians. Untuk menstabilkan varians data cacahan, transformasi yang umum direkomendasikan adalah…

A. Transformasi Box-Cox dengan lambda = 0
B. Standarisasi Z-score
C. Transformasi akar kuadrat
D. Transformasi logaritma dengan basis e

Jawaban: C
Untuk data cacahan berdistribusi Poisson, transformasi akar kuadrat efektif menstabilkan varians karena varians Poisson setara dengan mean-nya.

26.

Seorang analis keuangan di perusahaan rintisan mendapati data pendapatan bulanan sangat menceng ke kanan. Ia menerapkan transformasi log(y+1) lalu melihat distribusinya menjadi lebih simetris. Tujuan utama transformasi logaritma dalam kasus ini adalah…

A. Menghilangkan pencilan agar semua data masuk dalam satu rentang
B. Mengubah data menjadi skala 0 sampai 1 untuk memudahkan interpretasi
C. Meningkatkan nilai mean agar distribusi terlihat lebih normal
D. Mengurangi kemencengan positif dan menstabilkan varians data

Jawaban: D
Transformasi logaritma sangat efektif untuk data dengan kemencengan positif yang kuat karena logaritma mengkompresi nilai besar lebih kuat daripada nilai kecil, sehingga distribusi menjadi lebih simetris dan varians lebih stabil.

27.

Data jumlah kecelakaan lalu lintas per bulan di suatu kota memiliki karakteristik varians yang meningkat sebanding dengan meannya. Transformasi yang paling sesuai untuk menstabilkan varians data cacahan semacam ini adalah…

A. Transformasi logaritma
B. Transformasi akar kuadrat
C. Transformasi Box-Cox dengan λ = 0
D. Standarisasi Z-score

Jawaban: B
Data cacahan yang variansnya proporsional terhadap mean, seperti data Poisson, cocok ditransformasi menggunakan akar kuadrat karena transformasi ini menstabilkan varians dengan cara mereduksi pengaruh nilai besar secara moderat.

28.

Seorang peneliti menerapkan transformasi Box-Cox pada data dan menemukan bahwa nilai lambda optimal adalah -0,5. Hal ini menunjukkan bahwa data asli memiliki karakteristik…

A. Distribusi sangat menceng ke kanan sehingga perlu transformasi invers akar kuadrat
B. Distribusi sangat menceng ke kiri sehingga perlu transformasi kuadrat
C. Distribusi sudah mendekati normal sehingga tidak memerlukan transformasi
D. Distribusi memiliki varians homogen sehingga perlu transformasi logaritma

Jawaban: A
Lambda negatif pada Box-Cox menandakan data sangat menceng ke kanan. Lambda -0,5 ekuivalen dengan transformasi 1/sqrt(y), yang mengkompresi nilai ekstrem kanan lebih kuat daripada logaritma.

29.

Berbeda dengan normalisasi min-max yang mengubah rentang data menjadi [0,1], standarisasi Z-score memiliki ciri khas berupa…

A. Membuat seluruh data bernilai positif untuk keperluan pemodelan tertentu
B. Mengubah distribusi data menjadi normal sempurna
C. Mengubah data sehingga memiliki mean nol dan simpangan baku satu
D. Mengurutkan data berdasarkan jaraknya terhadap median

Jawaban: C
Standarisasi Z-score mengurangi setiap nilai dengan mean lalu membaginya dengan simpangan baku, sehingga hasil transformasi memiliki mean 0 dan simpangan baku 1 tanpa mengubah bentuk distribusinya.

30.

Ketika data pendapatan penduduk diolah menggunakan transformasi logaritma dan akar kuadrat, hasil keduanya tidak jauh berbeda dalam mengurangi kemencengan. Namun, transformasi akar kuadrat lebih direkomendasikan ketika…

A. Data memiliki banyak nilai nol sehingga logaritma tidak terdefinisi
B. Data sudah memiliki distribusi normal dan ingin dipertahankan
C. Data memiliki rentang nilai negatif yang cukup besar
D. Data memiliki varians yang semakin kecil seiring meningkatnya mean

Jawaban: A
Logaritma dari nol tidak terdefinisi, sehingga untuk data dengan banyak nilai nol, transformasi akar kuadrat dapat langsung diterapkan pada data asli tanpa perlu menambahkan konstanta seperti pada log(y+1).

31.

Dalam prosedur Box-Cox, parameter lambda dipilih secara optimal berdasarkan kriteria tertentu. Prinsip pemilihan lambda terbaik adalah…

A. Memaksimalkan nilai mean data hasil transformasi
B. Memaksimalkan fungsi likelihood agar distribusi hasil transformasi semirip mungkin dengan distribusi normal
C. Meminimalkan jumlah pencilan dalam dataset
D. Meminimalkan selisih antara nilai minimum dan maksimum data

Jawaban: B
Box-Cox menggunakan metode maximum likelihood untuk menemukan lambda yang membuat data hasil transformasi paling mendekati distribusi normal, bukan sekadar memperbaiki tampilan visual.

32.

Ketika data hilang terjadi secara murni acak dan tidak bergantung pada data apa pun dalam dataset, mekanisme ini dikategorikan sebagai…

A. Missing At Random (MAR)
B. Missing Completely At Random (MCAR)
C. Missing Not At Random (MNAR)
D. Missing Systematically At Random (MSAR)

Jawaban: B
MCAR adalah kondisi paling ketat di antara mekanisme data hilang, di mana probabilitas hilangnya suatu nilai tidak bergantung pada variabel apa pun, baik teramati maupun tidak teramati.

33.

Pada survei kesehatan, responden dengan pendapatan tinggi cenderung tidak mengisi pertanyaan tentang utang, tetapi kemungkinan ini tidak bergantung pada besar utang mereka yang sebenarnya. Mekanisme data hilang ini tergolong…

A. Missing At Random (MAR)
B. Missing Completely At Random (MCAR)
C. Missing Not At Random (MNAR)
D. Missing Systematically At Random (MSAR)

Jawaban: A
Dalam MAR, probabilitas data hilang bergantung pada variabel teramati lain (dalam hal ini pendapatan), tetapi tidak pada nilai variabel yang hilang itu sendiri (besar utang).

34.

Di klinik kesehatan jiwa, pasien dengan tingkat depresi parah justru paling sering melewatkan pengisian kuesioner tingkat depresi. Pola ini menunjukkan mekanisme…

A. Missing Not At Random (MNAR)
B. Missing At Random (MAR)
C. Missing Completely At Random (MCAR)
D. Missing Systematically At Random (MSAR)

Jawaban: A
MNAR terjadi ketika probabilitas data hilang bergantung pada nilai variabel yang hilang itu sendiri. Semakin parah depresi, semakin besar kemungkinan kuesioner tidak diisi, sehingga mekanismenya MNAR.

35.

Perbedaan esensial antara MCAR dan MAR terletak pada…

A. MCAR hanya terjadi pada data kategorik, sedangkan MAR pada data numerik
B. MCAR lebih mudah ditangani dengan imputasi mean, sedangkan MAR hanya bisa dengan penghapusan listwise
C. MCAR mensyaratkan independensi terhadap semua variabel, sedangkan MAR membolehkan ketergantungan pada variabel teramati lain
D. MCAR menghasilkan bias lebih besar dibandingkan MAR dalam setiap analisis

Jawaban: C
MCAR mensyaratkan probabilitas hilang tidak bergantung pada variabel apa pun, sedangkan MAR membolehkan ketergantungan pada variabel teramati lain selama tidak bergantung pada nilai variabel yang hilang tersebut.

36.

Peneliti yang mengabaikan mekanisme MNAR dan tetap menggunakan imputasi standar berisiko menghasilkan…

A. Estimasi parameter yang tetap tidak bias meskipun presisi menurun
B. Peningkatan ukuran sampel efektif karena imputasi menambahkan data baru
C. Bias sistematis dalam estimasi karena data hilang berkaitan langsung dengan nilai yang tidak teramati
D. Distribusi data yang otomatis menjadi normal setelah imputasi

Jawaban: C
Pada MNAR, data hilang bergantung pada nilai yang tidak teramati, sehingga mekanisme ini bersifat non-ignorable. Mengabaikannya dan menggunakan imputasi standar dapat menghasilkan estimasi yang bias secara sistematis.

37.

Jika analis membuktikan bahwa data hilang memenuhi asumsi MCAR, konsekuensi positif yang diperoleh adalah…

A. Analisis pada data lengkap tetap menghasilkan estimasi yang tidak bias meskipun ada pengurangan sampel
B. Semua teknik imputasi akan menghasilkan nilai yang identik persis
C. Tidak diperlukan lagi pemeriksaan asumsi normalitas dalam analisis
D. Data hilang otomatis dapat diabaikan tanpa prosedur penanganan apapun

Jawaban: A
Pada MCAR, data yang teramati merupakan sampel acak dari data lengkap, sehingga analisis yang hanya menggunakan data lengkap tetap menghasilkan estimasi tidak bias, meskipun terjadi penurunan presisi karena ukuran sampel berkurang.

38.

Untuk membedakan MAR dari MNAR dalam praktik, tantangan utamanya adalah…

A. Kedua mekanisme selalu menghasilkan pola data hilang yang identik
B. Tidak ada teknik statistik yang dapat mendeteksi pola data hilang
C. MAR hanya terjadi pada data longitudinal, sedangkan MNAR pada data cross-sectional
D. Nilai yang tidak teramati pada MNAR membuatnya sulit diverifikasi tanpa asumsi atau data tambahan

Jawaban: D
MNAR melibatkan nilai yang tidak teramati sebagai penyebab hilangnya data. Karena nilai-nilai ini tidak tersedia, membedakan MNAR dari MAR memerlukan asumsi kuat atau informasi eksternal yang sulit diperoleh.

39.

Seorang peneliti mendapati bahwa pola data hilang pada variabel pendapatan identik antara responden pria dan wanita, serta tidak berkaitan dengan usia atau pendidikan. Ia menyimpulkan mekanisme MCAR. Dasar pengambilan kesimpulan ini adalah…

A. Variabel pendapatan bersifat kontinu sehingga mekanismenya selalu MCAR
B. Data hilang hanya terjadi pada satu variabel saja sehingga pasti MCAR
C. Proporsi data hilang di bawah 5% sehingga otomatis MCAR
D. Data hilang tidak bergantung pada variabel teramati mana pun dalam dataset

Jawaban: D
Kesimpulan MCAR didukung oleh bukti bahwa probabilitas data hilang tidak berkaitan dengan variabel teramati lain seperti jenis kelamin, usia, atau pendidikan. Independensi terhadap variabel teramati merupakan indikator kuat MCAR.

40.

Dalam menangani data hilang, penghapusan listwise diterapkan dengan cara membuang seluruh baris yang memiliki setidaknya satu nilai hilang. Kelemahan utama teknik ini dibandingkan imputasi adalah…

A. Meningkatkan bias karena hanya mempertahankan data yang ekstrem
B. Mengurangi ukuran sampel secara drastis jika data hilang tersebar di banyak variabel
C. Menghasilkan estimasi parameter yang selalu lebih tinggi dari nilai sebenarnya
D. Memerlukan asumsi normalitas yang ketat sebelum diterapkan

Jawaban: B
Penghapusan listwise dapat mengakibatkan hilangnya banyak observasi meskipun setiap variabel hanya memiliki sedikit data hilang, terutama jika data hilang tersebar di banyak variabel. Ini mengurangi ukuran sampel secara signifikan.

41.

Sebuah studi memiliki data tinggi badan dengan 15% nilai hilang. Peneliti memilih mengisi data hilang menggunakan rata-rata tinggi badan responden yang lengkap. Risiko utama dari imputasi mean ini adalah…

A. Menghasilkan nilai imputasi di luar rentang data asli
B. Meningkatkan jumlah pencilan dalam dataset secara artifisial
C. Mengurangi varians variabel sehingga korelasi dengan variabel lain dapat terdistorsi
D. Mengubah mean variabel menjadi lebih rendah dari nilai sebenarnya

Jawaban: C
Imputasi mean mempertahankan mean variabel tetapi memperkecil varians karena semua nilai imputasi terkonsentrasi di pusat distribusi. Ini dapat mendistorsi kovarians dan korelasi dengan variabel lain.

42.

Apabila data hilang pada variabel Y bersifat MAR dan terdapat variabel prediktor X yang lengkap serta berkorelasi tinggi dengan Y, teknik imputasi yang paling memanfaatkan informasi yang tersedia adalah…

A. Penghapusan listwise karena hanya mempertahankan data lengkap
B. Imputasi mean karena sederhana dan menjaga mean variabel Y
C. Imputasi median karena tahan terhadap pencilan pada variabel X
D. Imputasi regresi karena menduga nilai Y berdasarkan hubungannya dengan X

Jawaban: D
Imputasi regresi memanfaatkan hubungan antara variabel prediktor X yang lengkap dengan Y yang memiliki data hilang. Dengan mengestimasi Y dari X, imputasi ini menghasilkan dugaan yang lebih akurat daripada sekadar mengisi rata-rata.

43.

Seorang peneliti memiliki dataset dengan 200 observasi, tetapi variabel tekanan darah memiliki 30 data hilang. Ia memutuskan membuang seluruh baris yang tekanan darahnya hilang, sehingga sampel efektifnya menjadi 170. Teknik ini dikenal sebagai…

A. pembobotan probabilitas
B. imputasi mean
C. imputasi regresi
D. penghapusan listwise

Jawaban: D
Penghapusan listwise membuang seluruh baris yang memiliki setidaknya satu nilai hilang pada variabel yang dianalisis, sehingga ukuran sampel menyusut secara drastis.

44.

Pada studi tentang kepatuhan minum obat, peneliti mengisi data pasien yang kosong menggunakan rata-rata tingkat kepatuhan dari pasien lain yang datanya lengkap. Metode ini rentan menghasilkan estimasi yang bias ke bawah karena…

A. teknik ini hanya cocok untuk data kategori
B. data yang diimputasi tidak berkorelasi dengan variabel asli
C. nilai rata-rata selalu lebih tinggi dari nilai sebenarnya
D. varians data yang diimputasi menjadi lebih kecil dari seharusnya

Jawaban: D
Imputasi mean cenderung mengecilkan varians dan mengubah kovarians antarvariabel karena semua nilai hilang diisi dengan satu nilai tengah yang sama, sehingga variabilitas data berkurang.

45.

Kelemahan mendasar dari teknik penghapusan listwise dibandingkan dengan teknik imputasi terletak pada…

A. kapasitas komputasi yang lebih tinggi
B. potensi kehilangan informasi dalam jumlah besar
C. ketidakmampuan menangani variabel numerik
D. kebutuhan asumsi normalitas data

Jawaban: B
Penghapusan listwise mengorbankan banyak observasi yang mungkin memiliki data lengkap pada variabel lain, sehingga informasi berharga ikut terbuang dan daya uji statistik menurun.

46.

Peneliti menduga data hilang pada variabel dependen Y dipengaruhi oleh variabel prediktor X yang terobservasi lengkap, namun mekanisme ini masih perlu diuji secara empiris. Pemeriksaan paling kritis untuk membedakan MAR dari MNAR dalam kondisi demikian adalah…

A. menguji apakah probabilitas Y hilang bergantung pada nilai Y itu sendiri setelah mengontrol X
B. menghitung proporsi data hilang pada Y untuk setiap kategori X
C. membandingkan rata-rata X antara kelompok data hilang dan data lengkap
D. membuat scatter plot antara Y dan X untuk mengamati pola data

Jawaban: A
Untuk membedakan MAR dari MNAR, peneliti harus menguji apakah setelah mengontrol variabel prediktor X yang lengkap, probabilitas data hilang pada Y masih bergantung pada nilai Y itu sendiri. Jika ya, mekanismenya adalah MNAR. Pemeriksaan ini memerlukan analisis sensitivitas atau uji formal karena tidak dapat disimpulkan hanya dari data terobservasi.

47.

Peneliti membandingkan dua metode imputasi untuk data hilang MAR. Metode pertama mengisi nilai hilang dengan rata-rata, sedangkan metode kedua membangun model linier menggunakan variabel prediktor yang lengkap. Metode kedua lebih unggul dalam hal…

A. kecepatan komputasi yang lebih tinggi
B. mempertahankan hubungan antarvariabel dalam data
C. tidak memerlukan asumsi statistik apapun
D. menghasilkan nilai yang identik untuk semua observasi

Jawaban: B
Imputasi regresi memperhitungkan korelasi antarvariabel sehingga estimasi nilai lebih realistis dan menjaga struktur kovarians data, berbeda dengan imputasi mean yang hanya menitikberatkan pada pusat data.

48.

Model regresi linier sederhana dinyatakan sebagai Y = β₀ + β₁X + ε. Parameter yang menunjukkan perubahan rata-rata pada Y ketika X bertambah satu satuan adalah…

A. koefisien kemiringan β₁
B. intersep β₀
C. error ε
D. koefisien determinasi R²

Jawaban: A
Koefisien kemiringan β₁ merepresentasikan ekspektasi perubahan variabel respons Y untuk setiap kenaikan satu satuan pada variabel prediktor X, dengan asumsi hubungannya linier.

49.

Sebuah perusahaan retail menganalisis data biaya iklan bulanan (X) dalam juta rupiah dan penjualan bulanan (Y) dalam ratusan juta. Hasil regresi menunjukkan Y = 12 + 3,5X. Jika bulan depan perusahaan menganggarkan biaya iklan 10 juta, estimasi penjualan adalah…

A. Rp4.700.000.000
B. Rp1.550.000.000
C. Rp470.000.000
D. Rp1.200.000.000

Jawaban: A
Substitusi X=10 ke persamaan Y=12+3,5(10)=47. Karena Y dalam ratusan juta, maka 47 × 100.000.000 = Rp4.700.000.000.

50.

Analisis residual dalam regresi linier sederhana bertujuan untuk…

A. mengestimasi parameter intersep model
B. menentukan variabel prediktor terbaik
C. mengevaluasi apakah asumsi model terpenuhi
D. menghitung koefisien korelasi Pearson

Jawaban: C
Analisis residual memeriksa selisih antara nilai amatan dan taksiran untuk mendeteksi pelanggaran asumsi seperti non-linearitas, heteroskedastisitas, atau ketidaknormalan residual.

51.

Dosen pembimbing meminta mahasiswa memeriksa plot residual terhadap nilai prediksi dari model regresi. Mahasiswa menemukan pola menyebar acak tanpa bentuk tertentu. Kesimpulan yang tepat adalah…

A. asumsi homoskedastisitas terpenuhi
B. model mengalami heteroskedastisitas berat
C. model perlu ditransformasi logaritma
D. variabel prediktor tidak signifikan

Jawaban: A
Pola residual yang acak dan tidak membentuk corong atau kurva mengindikasikan varians residual konstan di seluruh nilai prediksi, sehingga asumsi homoskedastisitas terpenuhi.

52.

Seorang analis menemukan bahwa koefisien kemiringan dalam model regresi bernilai -0,8. Interpretasi yang paling tepat adalah…

A. variabel X tidak memengaruhi Y secara signifikan
B. hubungan antara X dan Y bersifat non-linier
C. setiap kenaikan satu satuan X, Y turun rata-rata 0,8 satuan
D. intersep model berada pada nilai -0,8

Jawaban: C
Koefisien kemiringan -0,8 menunjukkan hubungan negatif: setiap peningkatan satu satuan pada variabel prediktor, variabel respons turun rata-rata sebesar 0,8 satuan.

53.

PT Nusantara Jaya mendata jumlah mesin produksi (X) dan jumlah cacat produk per jam (Y). Data menunjukkan ketika jumlah mesin bertambah, jumlah cacat justru menurun. Pola ini direpresentasikan oleh…

A. koefisien kemiringan negatif
B. koefisien intersep besar
C. koefisien determinasi nol
D. koefisien kemiringan positif

Jawaban: A
Hubungan berbanding terbalik antara X dan Y dicerminkan oleh koefisien kemiringan bernilai negatif dalam model regresi linier sederhana.

54.

Sebelum menerapkan regresi linier, peneliti membuat scatter plot dan mendapati titik-titik data cenderung membentuk kurva U. Tindakan paling tepat yang dapat dilakukan peneliti adalah…

A. menambahkan lebih banyak variabel prediktor
B. mempertimbangkan transformasi data atau model non-linier
C. menghapus pencilan dan melanjutkan regresi linier
D. mengabaikan bentuk kurva karena regresi tetap bisa dilakukan

Jawaban: B
Pola kurva U mengindikasikan hubungan non-linier sehingga regresi linier sederhana tidak sesuai; perlu transformasi variabel atau penggunaan model yang mengakomodasi kelengkungan.

55.

Salah satu perbedaan antara koefisien kemiringan dan intersep dalam model regresi linier sederhana Y = β₀ + β₁X adalah…

A. kemiringan mengukur kekuatan hubungan, intersep mengukur variabilitas
B. kemiringan menunjukkan nilai Y saat X=0, intersep menunjukkan perubahan Y per satuan X
C. intersep selalu lebih besar daripada koefisien kemiringan
D. intersep menunjukkan nilai Y saat X=0, kemiringan menunjukkan perubahan Y per satuan X

Jawaban: D
Intersep β₀ adalah taksiran Y ketika X bernilai nol, sedangkan kemiringan β₁ menunjukkan besar perubahan Y akibat kenaikan satu satuan X.

56.

Seorang peneliti memperoleh koefisien determinasi R² = 0,72 dari model regresi yang memprediksi hasil panen (Y) berdasarkan dosis pupuk (X). Interpretasi yang benar adalah…

A. 72% data hasil panen bernilai sama dengan dosis pupuk
B. pupuk meningkatkan hasil panen sebesar 72% secara rata-rata
C. korelasi antara pupuk dan hasil panen adalah 0,72
D. 72% keragaman hasil panen dapat dijelaskan oleh dosis pupuk

Jawaban: D
Koefisien determinasi mengukur proporsi variabilitas variabel respons yang mampu diterangkan oleh model regresi, sehingga R²=0,72 berarti 72% variasi Y dijelaskan oleh X.

57.

Dua model regresi dibandingkan: Model 1 memiliki R²=0,85 dan Model 2 memiliki R²=0,53 untuk data yang sama. Perbedaan nilai ini mengindikasikan bahwa…

A. Model 1 lebih baik dalam menjelaskan keragaman variabel respons
B. Model 2 pasti memiliki koefisien kemiringan yang tidak signifikan
C. Model 1 tidak memerlukan analisis residual lebih lanjut
D. Model 2 menghasilkan taksiran yang tidak bias

Jawaban: A
R² yang lebih tinggi menunjukkan proporsi varians Y yang lebih besar dapat dijelaskan oleh model, sehingga Model 1 lebih baik dalam menangkap pola data.

58.

Uji signifikansi parameter dalam regresi linier sederhana menggunakan hipotesis nol H₀: β₁ = 0. Apabila H₀ ditolak pada α = 0,05, kesimpulan yang tepat adalah…

A. koefisien determinasi pasti lebih besar dari 0,9
B. variabel prediktor memiliki pengaruh signifikan terhadap variabel respons
C. intersep model bernilai positif
D. data terbukti berdistribusi normal multivariat

Jawaban: B
Menolak H₀: β₁ = 0 berarti terdapat cukup bukti statistik bahwa koefisien kemiringan tidak nol, sehingga variabel prediktor berpengaruh signifikan terhadap respons.

59.

Setelah mengestimasi model regresi Y = 5 + 2X, peneliti menghitung interval kepercayaan 95% untuk β₁ yaitu [1,4 ; 2,6]. Arti dari interval ini adalah…

A. koefisien determinasi model bernilai antara 1,4 dan 2,6
B. 95% data amatan Y akan berada dalam rentang 1,4 hingga 2,6
C. dengan keyakinan 95%, parameter populasi β₁ berada di antara 1,4 dan 2,6
D. koefisien kemiringan β₁ tepat sama dengan 2 pada tingkat kepercayaan 95%

Jawaban: C
Interval kepercayaan memberikan rentang di mana parameter populasi sesungguhnya diperkirakan berada pada tingkat kepercayaan tertentu, bukan rentang data atau koefisien determinasi.

60.

Seorang peneliti menguji hipotesis bahwa koefisien kemiringan populasi bernilai nol dan memperoleh p-value = 0,02. Dengan α = 0,05, kesimpulan yang tepat adalah…

A. terdapat bukti cukup bahwa β₁ berbeda signifikan dari nol
B. tidak cukup bukti untuk menolak H₀ sehingga β₁ tidak signifikan
C. model regresi tidak layak digunakan untuk prediksi
D. variabel prediktor dan respons tidak memiliki hubungan linier

Jawaban: A
Karena p-value < α, H₀ ditolak sehingga disimpulkan bahwa koefisien kemiringan signifikan secara statistik.

61.

Interpretasi yang benar dari koefisien determinasi R² = 0,64 pada model yang memprediksi penjualan berdasarkan biaya promosi adalah…

A. korelasi antara biaya promosi dan penjualan sebesar 0,64
B. setiap kenaikan biaya promosi 1 juta meningkatkan penjualan 0,64 juta
C. 64% variasi penjualan dapat dijelaskan oleh biaya promosi
D. model regresi memiliki tingkat kesalahan prediksi sebesar 64%

Jawaban: C
Koefisien determinasi menunjukkan proporsi varians variabel respons yang mampu dijelaskan oleh model regresi.

62.

Peneliti A memperoleh interval kepercayaan 95% untuk β₁ sebesar [-0,3 ; 1,1], sedangkan Peneliti B memperoleh [0,8 ; 2,4] pada data yang sama dengan model berbeda. Perbedaan ini mengindikasikan bahwa…

A. koefisien kemiringan Peneliti B signifikan pada α = 0,05
B. model Peneliti A menghasilkan estimasi yang lebih presisi
C. kedua model pasti memiliki R² yang sama
D. intersep model Peneliti A lebih besar daripada model Peneliti B

Jawaban: A
Interval yang tidak mencakup nol mengindikasikan penolakan H₀: β₁ = 0 pada tingkat kepercayaan yang sama, sehingga koefisien signifikan.

63.

Pernyataan yang tepat mengenai hubungan antara uji signifikansi parameter dan interval kepercayaan dalam regresi linier adalah…

A. jika interval kepercayaan tidak mencakup nol maka uji signifikansi akan menolak H₀
B. keduanya menghasilkan kesimpulan yang independen satu sama lain
C. uji signifikansi hanya dilakukan jika interval kepercayaan terlalu lebar
D. interval kepercayaan menggantikan uji signifikansi ketika R² rendah

Jawaban: A
Terdapat ekuivalensi inferensial: interval kepercayaan yang tidak memuat nol sejalan dengan penolakan H₀ pada uji signifikansi.

64.

Data teks berbeda dari data terstruktur dalam hal…

A. data teks selalu disimpan dalam format numerik sebelum dianalisis
B. data terstruktur memerlukan tokenisasi sebelum diproses
C. data terstruktur tidak dapat dikonversi menjadi representasi visual
D. data teks tidak memiliki skema baku dan memerlukan pengolahan awal

Jawaban: D
Data teks bersifat tidak terstruktur, tidak mengikuti format baris-kolom yang ketat, sehingga membutuhkan praproses seperti tokenisasi.

65.

Di perusahaan media, tim analis memecah jutaan komentar pengguna menjadi kata-kata tunggal untuk menghitung frekuensi kemunculan. Proses yang dilakukan tim tersebut dikenal sebagai…

A. normalisasi
B. klasifikasi teks
C. ekstraksi fitur
D. tokenisasi

Jawaban: D
Tokenisasi adalah proses memecah teks menjadi unit-unit kecil seperti kata yang menjadi langkah dasar analisis data teks.

66.

Seorang analis media sosial menghitung bahwa kata 'kolaborasi' muncul 120 kali dalam 500 artikel berita. Angka 120 merepresentasikan…

A. bobot TF-IDF kata tersebut
B. frekuensi kata dalam korpus
C. probabilitas kemunculan kata
D. nilai vektor hasil embedding

Jawaban: B
Frekuensi kata adalah jumlah kemunculan suatu kata dalam dokumen atau kumpulan dokumen yang menjadi dasar berbagai analisis teks.

67.

Tokenisasi pada data teks berfungsi untuk…

A. mengubah kata menjadi representasi numerik berdimensi tinggi
B. mengelompokkan dokumen berdasarkan kemiripan topik
C. menghilangkan kata-kata umum yang tidak membawa makna penting
D. memecah teks menjadi unit-unit bermakna seperti kata atau frasa

Jawaban: D
Tokenisasi merupakan langkah awal pengolahan teks yang membagi teks menjadi token—satuan kecil yang dapat dianalisis lebih lanjut.

68.

Dalam pipeline analisis sentimen, setelah tokenisasi dilakukan, langkah selanjutnya yang umum diterapkan untuk menyederhanakan representasi teks adalah…

A. menghitung frekuensi kata dan membuang kata dengan frekuensi sangat rendah
B. melakukan stemming untuk mengembalikan kata ke bentuk dasarnya
C. membangun word cloud untuk eksplorasi visual
D. menerapkan stopword removal untuk menghilangkan kata-kata fungsional

Jawaban: B
Setelah tokenisasi, normalisasi seperti stemming atau lemmatisasi diterapkan untuk mereduksi variasi bentuk kata agar analisis lebih efisien.

69.

Seorang pustakawan digital menganalisis metadata 1.000 artikel jurnal untuk mengidentifikasi istilah paling dominan berdasarkan abstrak. Ia memerlukan ukuran kuantitatif sederhana untuk memilih kata kunci potensial. Ukuran yang paling sesuai adalah…

A. cosine similarity antar dokumen
B. nilai eigen dari matriks dokumen-istilah
C. frekuensi kemunculan setiap kata dalam seluruh abstrak
D. skor koherensi topik hasil pemodelan

Jawaban: C
Frekuensi kata merupakan ukuran paling langsung untuk mengidentifikasi istilah yang dominan dalam korpus sebelum menerapkan teknik yang lebih kompleks.

70.

Data teks yang tidak terstruktur memiliki karakteristik yang membedakannya dari data numerik terstruktur. Karakteristik tersebut mencakup…

A. dimensi variabel yang rendah dan tetap
B. ketidakmampuan untuk divisualisasikan secara grafis
C. kebutuhan praproses untuk mengekstrak fitur yang dapat dianalisis
D. distribusi yang selalu mengikuti sebaran normal

Jawaban: C
Data teks memerlukan transformasi melalui praproses—tokenisasi, pembersihan, vektorisasi—sebelum dapat dianalisis menggunakan metode kuantitatif.

71.

Sebuah portal berita menampilkan word cloud dari berita politik mingguan. Kata 'pemilu' tampil paling besar, sedangkan 'anggaran', 'koalisi', dan 'debat' berukuran sedang. Word cloud menyampaikan informasi bahwa…

A. berita tentang pemilu memiliki sentimen positif
B. artikel terpanjang membahas tentang pemilu
C. topik pemilu berhubungan erat dengan anggaran dan koalisi
D. kata pemilu paling sering muncul dalam kumpulan berita

Jawaban: D
Ukuran font pada word cloud proporsional terhadap frekuensi kemunculan kata sehingga kata terbesar adalah yang paling sering muncul.

72.

Seorang peneliti ingin menampilkan hubungan antar tokoh berdasarkan kemunculan bersama dalam paragraf di novel digital. Visualisasi yang paling sesuai adalah…

A. word cloud
B. peta pohon teks
C. diagram jaringan kata
D. diagram batang frekuensi

Jawaban: C
Diagram jaringan kata menggambarkan koneksi antar entitas berdasarkan ko-kejadian, cocok untuk menampilkan hubungan antar tokoh.

73.

Perbedaan utama antara word cloud dan diagram jaringan kata terletak pada…

A. word cloud hanya menampilkan kata benda sedangkan diagram jaringan menampilkan semua jenis kata
B. word cloud menonjolkan frekuensi individu sedangkan diagram jaringan menampilkan relasi antar kata
C. diagram jaringan hanya digunakan untuk data terstruktur sedangkan word cloud untuk teks
D. word cloud memerlukan interaktivitas sedangkan diagram jaringan bersifat statis

Jawaban: B
Word cloud mengomunikasikan frekuensi masing-masing kata melalui ukuran, sementara diagram jaringan menekankan hubungan dan koneksi antar kata.

74.

Peneliti linguistik mengkategorikan kosakata dalam naskah kuno ke dalam beberapa kelas kata lalu ingin menampilkan proporsi setiap kategori secara visual. Visualisasi yang menyajikan struktur hierarkis dan proporsi sekaligus adalah…

A. peta pohon teks
B. diagram jaringan kata
C. word cloud bertema
D. diagram batang horizontal

Jawaban: A
Peta pohon teks menyajikan data hierarkis dalam bentuk persegi panjang bersarang yang ukurannya merepresentasikan proporsi setiap kategori.

75.

Dalam membandingkan efektivitas antara peta pohon teks dan diagram batang untuk menyajikan distribusi 12 kategori topik berita, peta pohon teks lebih unggul ketika…

A. urutan kategori berdasarkan waktu sangat penting
B. ingin ditampilkan struktur hierarkis antar kategori
C. jumlah pasti setiap kategori perlu dibaca secara presisi
D. data memiliki nilai negatif pada beberapa kategori

Jawaban: B
Peta pohon teks dirancang untuk menampilkan struktur hierarkis dan proporsi relatif melalui luasan area, berbeda dengan diagram batang yang memprioritaskan perbandingan nilai eksak.

76.

Sebuah portal berita menampilkan visualisasi kata-kata kunci dari tajuk rencana mingguan, dengan ukuran setiap kata proporsional terhadap jumlah kemunculannya. Visualisasi ini paling tepat disebut…

A. Word Cloud
B. Peta Pohon Teks
C. Diagram Jaringan Kata
D. Diagram Batang Frekuensi

Jawaban: A
Word cloud menampilkan kata dengan ukuran font yang proporsional terhadap frekuensi kemunculannya, sehingga kata yang lebih sering muncul terlihat lebih besar.

77.

Seorang peneliti linguistik ingin menampilkan struktur hierarkis dari kategori dan subkategori kata dalam korpus berita berdasarkan proporsi masing-masing. Visualisasi yang paling sesuai adalah…

A. Word Cloud
B. Peta Pohon Teks
C. Diagram Batang Berkelompok
D. Histogram

Jawaban: B
Peta pohon teks (treemap) menampilkan data hierarkis sebagai persegi panjang bersarang yang luasnya proporsional terhadap nilai setiap kategori, cocok untuk struktur kategori-subkategori.

78.

Seorang analis di perusahaan logistik mengembangkan tampilan peta persebaran armada yang memungkinkan manajer mengklik titik tertentu untuk melihat rincian muatan dan status kendaraan. Karakteristik utama yang membedakan visualisasi ini dari peta statis adalah…

A. Resolusi gambar yang lebih tinggi
B. Kemampuan pengguna berinteraksi langsung dengan elemen visual
C. Penggunaan warna yang lebih kontras
D. Jumlah data yang ditampilkan lebih banyak

Jawaban: B
Visualisasi interaktif memungkinkan pengguna berinteraksi langsung melalui tindakan seperti klik, zoom, atau filter, berbeda dengan visualisasi statis yang hanya menampilkan gambar tetap.

79.

Ketika pengguna mengarahkan kursor ke sebuah batang pada diagram penjualan, muncul kotak kecil yang menampilkan angka penjualan dan nama produk. Elemen interaktif ini dikenal sebagai…

A. Cross-Filtering
B. Drill-Down
C. Tooltip
D. Slider

Jawaban: C
Tooltip adalah informasi pop-up yang muncul saat kursor diarahkan ke elemen visual, menyajikan detail data tambahan tanpa mengubah tampilan utama.

80.

Fitur interaktif yang memungkinkan pengguna mengeklik ringkasan penjualan nasional untuk melihat rincian per provinsi, lalu mengeklik provinsi untuk melihat rincian per kota, disebut…

A. Tooltip
B. Drill-Down
C. Cross-Filtering
D. Zoom

Jawaban: B
Drill-down adalah fitur navigasi dari ringkasan ke tingkat detail yang lebih rinci, memungkinkan pengguna menjelajahi hierarki data secara bertahap.

81.

Perbedaan mendasar antara visualisasi interaktif dan visualisasi statis terletak pada…

A. Jenis data yang dapat ditampilkan
B. Tingkat akurasi data yang disajikan
C. Perangkat lunak yang digunakan untuk membuatnya
D. Kemampuan pengguna untuk memanipulasi dan mengeksplorasi tampilan data

Jawaban: D
Visualisasi interaktif memberi pengguna kendali untuk memanipulasi tampilan, seperti memfilter, menyorot, atau memperbesar, sementara visualisasi statis hanya menampilkan informasi secara tetap.

82.

Seorang manajer pemasaran menggunakan dashboard digital untuk memantau kampanye iklan. Saat ia memilih rentang tanggal tertentu pada slider, seluruh grafik dalam dashboard otomatis memperbarui data sesuai periode tersebut. Mekanisme ini disebut…

A. Cross-Filtering
B. Tooltip
C. Drill-Down
D. Dashboard

Jawaban: A
Cross-filtering adalah mekanisme di mana pemilihan atau penyaringan pada satu elemen visual secara otomatis memperbarui elemen visual lain yang terhubung dalam dashboard.

83.

Ibu Sari, kepala cabang bank, memerlukan alat untuk memantau secara real-time jumlah transaksi, volume kredit, dan keluhan nasabah dalam satu layar yang saling terhubung. Solusi visualisasi yang paling tepat adalah…

A. Laporan Statis Bulanan
B. Word Cloud
C. Dashboard Interaktif
D. Diagram Pencar

Jawaban: C
Dashboard interaktif menyajikan beberapa visualisasi terpadu yang saling terhubung dalam satu tampilan, memungkinkan pemantauan dan analisis data secara real-time.

84.

Perbedaan utama antara dashboard interaktif dan laporan statis adalah…

A. Dashboard hanya menampilkan data numerik, laporan statis menampilkan data teks
B. Dashboard memungkinkan eksplorasi dan pembaruan data secara dinamis, laporan statis menyajikan data pada satu titik waktu
C. Dashboard menggunakan diagram batang, laporan statis menggunakan diagram lingkaran
D. Dashboard memerlukan koneksi internet, laporan statis tidak

Jawaban: B
Dashboard interaktif memungkinkan pengguna mengeksplorasi data secara dinamis dengan pembaruan real-time, sementara laporan statis menyajikan informasi tetap pada periode tertentu tanpa interaktivitas.

85.

Sebuah dashboard penjualan memiliki tiga grafik: tren bulanan, pangsa pasar per wilayah, dan produk terlaris. Ketika analis mengklik wilayah 'Jawa Timur' pada grafik pangsa pasar, grafik tren bulanan dan produk terlaris otomatis hanya menampilkan data untuk wilayah tersebut. Mekanisme ini paling tepat dijelaskan sebagai…

A. Drill-Down
B. Tooltip
C. Slider
D. Cross-Filtering

Jawaban: D
Cross-filtering terjadi ketika pemilihan pada satu grafik secara otomatis menyaring data pada grafik lain yang terhubung, menciptakan eksplorasi data yang terkoordinasi.

86.

Dalam dashboard monitoring produksi pabrik, pengguna dapat menggeser dua tuas kecil pada sumbu waktu untuk menentukan rentang 1–15 Maret 2024, dan seluruh grafik otomatis menyesuaikan. Kontrol interaktif ini disebut…

A. Slider Rentang Waktu
B. Tooltip
C. Drill-Down
D. Cross-Filtering

Jawaban: A
Slider rentang waktu adalah kontrol interaktif berbentuk penggeser yang memungkinkan pengguna memilih periode waktu tertentu dan secara dinamis memperbarui visualisasi yang terhubung.

87.

Ketika pengguna mengeklik ikon '＋' pada peta penjualan untuk memperbesar area tertentu pada peta, ia sedang menggunakan fitur…

A. Zoom
B. Tooltip
C. Drill-Down
D. Cross-Filtering

Jawaban: A
Zoom adalah fitur interaktif yang memungkinkan pengguna memperbesar atau memperkecil tampilan untuk melihat detail area tertentu pada visualisasi.

88.

Tim TI perusahaan asuransi diminta mengembangkan sistem visualisasi yang memungkinkan pengguna menyaring data klaim berdasarkan jenis polis, wilayah, dan periode secara bersamaan melalui dropdown dan slider, serta seluruh bagan saling terhubung. Sistem yang dikembangkan termasuk dalam kategori…

A. Visualisasi Statis
B. Diagram Jaringan
C. Infografis Cetak
D. Dashboard Interaktif

Jawaban: D
Dashboard interaktif mengintegrasikan berbagai kontrol seperti dropdown dan slider dengan beberapa visualisasi yang saling terhubung, memungkinkan penyaringan dan eksplorasi data secara simultan.

89.

Di sebuah dashboard analitik ritel, Bapak Dhani memilih kategori 'Elektronik' pada diagram lingkaran produk dan melihat diagram tren penjualan langsung berubah menampilkan hanya data elektronik. Fitur yang menghubungkan kedua diagram ini adalah…

A. Drill-Down
B. Slider
C. Cross-Filtering
D. Tooltip

Jawaban: C
Cross-filtering menghubungkan beberapa visualisasi sehingga penyaringan pada satu visual secara otomatis diterapkan ke visual lain, menciptakan interaksi terkoordinasi antar komponen dashboard.

90.

Pak Hartono, direktur operasional, menginginkan tampilan yang merangkum KPI utama seperti pendapatan, jumlah pelanggan, dan skor kepuasan dalam satu layar yang selalu terbarui. Ia membutuhkan…

A. Rangkaian Diagram Pencar
B. Peta Pohon Teks
C. Infografis Cetak Bulanan
D. Dashboard

Jawaban: D
Dashboard menyajikan ringkasan KPI dan metrik penting dalam satu tampilan terpadu yang dapat diperbarui secara berkala atau real-time untuk pemantauan kinerja.

91.

Slider yang memungkinkan pengguna memilih periode Januari–Juni 2024 pada dashboard penjualan memiliki fungsi utama untuk…

A. Memperbesar area grafik tertentu
B. Menampilkan tooltip pada setiap titik data
C. Menyaring data berdasarkan rentang waktu yang dipilih dan memperbarui seluruh visualisasi
D. Menavigasi dari ringkasan ke data rinci

Jawaban: C
Slider rentang waktu berfungsi sebagai kontrol penyaring dinamis yang membatasi data pada periode tertentu dan secara otomatis memperbarui semua visualisasi yang terhubung dalam dashboard.

92.

Ketika menampilkan proporsi lima kategori sentimen dalam ribuan ulasan produk menggunakan diagram lingkaran, pengguna dapat mengeklik irisan "Negatif" untuk melihat daftar ulasan yang termasuk dalam kategori tersebut…

A. Ini adalah contoh implementasi drill-down karena pengguna mengakses data yang lebih detail dari agregasi yang ditampilkan.
B. Ini adalah contoh fitur tooltip karena menampilkan informasi tambahan saat suatu elemen diklik.
C. Ini adalah contoh implementasi brushing karena menyeleksi subset data berdasarkan kategori yang dipilih.
D. Ini adalah contoh fitur zoom karena memperbesar tampilan untuk fokus pada satu kategori data.

Jawaban: A
Mengeklik suatu kategori agregat (seperti irisan diagram lingkaran) untuk menampilkan data detail di baliknya merupakan definisi dari fitur interaktif drill-down. Ini memungkinkan pengguna menjelajahi data dari ringkasan tingkat tinggi ke rincian tingkat rendah. Berbeda dengan tooltip yang muncul saat hover, brushing yang menyeleksi data dalam plot, atau zoom yang mengubah skala tampilan.

93.

Seorang analis menerapkan transformasi data pada variabel pendapatan yang menceng berat dan mendapati bahwa transformasi logaritma natural menghasilkan distribusi yang mendekati normal, sedangkan transformasi akar kuadrat masih menyisakan sedikit kemencengan. Perbedaan hasil ini paling tepat dijelaskan oleh…

A. Logaritma natural hanya cocok untuk data bernilai positif, sedangkan akar kuadrat dapat menangani nilai nol…
B. Prosedur komputasi logaritma natural lebih kompleks sehingga hasilnya selalu lebih baik dibandingkan akar kuadrat…
C. Logaritma natural menerapkan kompresi yang lebih kuat pada ekor kanan distribusi dibandingkan akar kuadrat…
D. Akar kuadrat memerlukan data berskala rasio, sedangkan logaritma natural hanya memerlukan data berskala interval…

Jawaban: C
Transformasi logaritma natural (ln) dan akar kuadrat sama-sama berfungsi mengatasi kemencengan positif, tetapi keduanya memiliki kekuatan kompresi yang berbeda. Logaritma natural memberikan efek penarikan yang lebih kuat pada nilai-nilai ekstrem di ekor kanan distribusi, sehingga lebih efektif menormalkan data yang sangat menceng. Akar kuadrat memiliki efek kompresi yang lebih lemah, sehingga pada data yang menceng berat, transformasi ini mungkin belum cukup untuk mencapai kenormalan penuh. Perbedaan mendasar ini terletak pada seberapa agresif masing-masing transformasi mengecilkan jarak relatif antar nilai di ujung atas distribusi.

94.

Seorang analis mendapati bahwa data pendapatan memiliki beberapa pencilan ekstrem tinggi. Ia menginginkan nilai yang menggambarkan lokasi pusat data yang tidak terpengaruh oleh pencilan tersebut. Ukuran pemusatan yang paling tepat adalah…

A. Median
B. Mean aritmatika
C. Modus
D. Mean geometrik

Jawaban: A
Median merupakan ukuran pemusatan yang resisten terhadap pengaruh nilai ekstrem atau pencilan, berbeda dengan mean aritmatika yang sangat sensitif terhadap perubahan nilai di ujung distribusi.

95.

Seorang analis ingin menampilkan ringkasan distribusi usia pelanggan dari tiga platform media sosial yang berbeda dalam satu tampilan yang kompak. Ia memilih diagram yang menunjukkan median, kuartil, dan rentang antar kuartil secara berdampingan untuk setiap platform…

A. Diagram batang
B. Diagram lingkaran
C. Diagram kotak sejajar
D. Diagram Venn

Jawaban: C
Diagram kotak sejajar (parallel boxplots) dirancang khusus untuk membandingkan distribusi beberapa kelompok data secara visual. Diagram ini menampilkan median, kuartil pertama (Q1), kuartil ketiga (Q3), dan rentang antar kuartil (IQR) secara ringkas, serta dapat mengidentifikasi keberadaan pencilan. Diagram batang dan lingkaran lebih cocok untuk menampilkan ringkasan tunggal, sedangkan diagram Venn menampilkan hubungan antar himpunan.

96.

Seorang analis data di lembaga riset diminta menyajikan distribusi volume penjualan harian dari 200 gerai ritel menggunakan visualisasi ringkas yang menonjolkan median, sebaran antarkuartil, dan nilai-nilai ekstrem secara eksplisit…

A. Histogram
B. Diagram batang dan daun
C. Diagram kotak (box plot)
D. Diagram garis

Jawaban: C
Visualisasi yang secara ringkas menampilkan median, kuartil (sebaran antarkuartil), dan secara eksplisit menandai nilai-nilai ekstrem sebagai titik-titik di luar whisker adalah diagram kotak. Histogram dan diagram batang dan daun lebih fokus pada distribusi frekuensi tanpa menonjolkan pencilan secara langsung, sedangkan diagram garis lebih tepat untuk data runtun waktu.

97.

Seorang analis ingin menstandarisasi variabel 'lama berlangganan (bulan)' yang memiliki mean 24 dan standar deviasi 6 agar memiliki mean 0 dan standar deviasi 1. Rumus transformasi yang tepat untuk nilai x adalah…

A. (x – 24) / 6
B. (x – 24) / 36
C. (x – 6) / 24
D. x / 24 – 6

Jawaban: A
Standarisasi Z-score mengubah data menjadi distribusi dengan mean 0 dan standar deviasi 1. Rumusnya adalah mengurangi setiap nilai data dengan rata-rata (mean) lalu membaginya dengan standar deviasi. Untuk kasus ini, mean adalah 24 dan standar deviasi adalah 6, sehingga rumus yang tepat adalah (x – 24) / 6. Opsi lain tidak tepat karena pembaginya adalah varians (36), mengurangi dengan standar deviasi lalu dibagi mean, atau urutan operasi yang keliru.

98.

Seorang analis data keuangan melakukan transformasi data pada variabel 'jumlah klaim asuransi' yang berupa data cacahan. Sebelum transformasi, varians data cenderung meningkat seiring bertambahnya rata-rata kelompok. Tujuan paling mendasar dari penerapan transformasi akar kuadrat pada konteks ini adalah…

A. Mengubah data cacahan menjadi data kontinu agar dapat dianalisis dengan regresi linier.
B. Menstabilkan varians agar tidak lagi bergantung pada rata-rata dan mendekatkan distribusi data ke bentuk normal.
C. Mengeliminasi seluruh pencilan yang muncul akibat variasi ekstrem pada data jumlah klaim.
D. Menstandarisasi data sehingga memiliki rata-rata nol dan standar deviasi satu untuk analisis lebih lanjut.

Jawaban: B
Data cacahan seperti jumlah klaim sering mengikuti distribusi Poisson yang memiliki karakteristik varians yang setara atau meningkat seiring rata-rata. Transformasi akar kuadrat bertujuan utama untuk menstabilkan varians sehingga hubungan antara varians dan rata-rata menjadi lebih konstan, serta membantu mendekatkan distribusi ke bentuk normal. Pilihan yang menyebut mengubah data menjadi kontinu kurang tepat karena data cacahan pada dasarnya sudah numerik. Pilihan mengenai eliminasi pencilan dan standarisasi Z-score bukan merupakan tujuan dari transformasi akar kuadrat.

99.

Seorang peneliti membuat model regresi linier sederhana Y = 10 + 3X dan memperoleh p-value untuk uji signifikansi parameter kemiringan sebesar 0,001. Kesimpulan paling tepat yang dapat ditarik pada α = 0,05 adalah…

A. Tidak terdapat hubungan yang signifikan antara X dan Y dalam populasi.
B. Terdapat cukup bukti bahwa setiap kenaikan satu unit X akan meningkatkan Y tepat sebesar 3 unit.
C. Koefisien kemiringan dalam populasi berbeda signifikan dari nol, menunjukkan hubungan linier yang berarti.
D. Intersep model regresi secara statistik tidak berbeda signifikan dari nol dalam populasi.

Jawaban: C
P-value sebesar 0,001 lebih kecil dari α = 0,05, sehingga hipotesis nol (H₀: β₁ = 0) ditolak. Ini menunjukkan bahwa koefisien kemiringan populasi secara statistik berbeda signifikan dari nol, yang berarti terdapat cukup bukti adanya hubungan linier yang signifikan antara variabel prediktor dan variabel respons. Penolakan H₀ tidak secara langsung menyatakan bahwa koefisien kemiringan pasti tepat 3 unit, melainkan cukup bukti bahwa perubahan pada X berhubungan dengan perubahan sistematis pada Y. Intersep model tidak diuji dalam uji signifikansi parameter kemiringan ini.

100.

Seorang data scientist menerapkan transformasi Box-Cox pada variabel 'luas lahan (m²)' yang sangat menceng ke kanan dan memperoleh lambda optimal 0,3. Karena nilai lambda ini relatif dekat dengan 0, transformasi yang secara konseptual paling mendekati efek dari lambda tersebut adalah…

A. transformasi logaritma natural…
B. transformasi akar kuadrat…
C. transformasi kuadrat…
D. transformasi kebalikan…

Jawaban: A
Transformasi Box-Cox adalah keluarga transformasi pangkat yang dikendalikan oleh parameter lambda. Ketika lambda optimal mendekati 0, bentuk transformasi akan mendekati transformasi logaritma natural. Ini karena limit dari (y^λ – 1)/λ saat λ mendekati 0 adalah ln(y). Oleh karena itu, untuk λ = 0,3 yang relatif dekat dengan 0, efek peredaman kemencengannya akan paling menyerupai transformasi logaritma natural, bukan akar kuadrat (λ = 0,5), kuadrat (λ = 2), atau kebalikan (λ = -1).

Banyak yang mengira visualisasi data cuma soal grafik cantik. Sampai ketemu Modul 3. Data hilang itu lebih menyebalkan dari yang kamu bayangkan. Modul 4 juga gak kalah, regresi sederhana bisa bikin kamu ngecek ulang asumsi tiap lima menit. Serius.

Di STSI4204 Analisis dan Visualisasi Data, soal UAS biasanya campur UTM dan UO. Bagian visualisasi teks sama dashboard interaktif jarang absen. Sering muncul versi UO yang minta kamu baca konteks dulu sebelum milih grafik. Kalau sudah pede, coba tengok soal UAS UT STIK4245 yang logikanya senada. Siapa tahu nemu pola soal yang mirip.

Soal UAS UT STSI4204 Analisis dan Visualisasi Data Beserta Kunci Jawaban

Soal UT STSI4204 Analisis dan Visualisasi Data

Baca juga

Soal UAS UT STPL4211 Sistem Informasi Perencanaan dan Kunci Jawaban

Soal UAS UT STSI4404 Keamanan Jaringan dan Kunci Jawaban

Soal UAS UT STDA4301 Solusi TI untuk Masyarakat dan Kunci Jawaban

Soal UAS UT STDA4401 Pengantar Teknologi Blockchain dan Kunci Jawaban

Soalut.com

Soal UAS UT STSI4204 Analisis dan Visualisasi Data Beserta Kunci Jawaban

Soal UT STSI4204 Analisis dan Visualisasi Data

Baca juga

Soal UAS UT STPL4211 Sistem Informasi Perencanaan dan Kunci Jawaban

Soal UAS UT STSI4404 Keamanan Jaringan dan Kunci Jawaban

Soal UAS UT STDA4301 Solusi TI untuk Masyarakat dan Kunci Jawaban

Soal UAS UT STDA4401 Pengantar Teknologi Blockchain dan Kunci Jawaban

Soalut.com

🔥 Post Terbaru