Lagi ngulang visualisasi data, eh malah galau antara mean di Modul 1 sama teknik transformasi di Modul 2. Dua topik itu sering banget nyerempet soal UAS, padahal keliatannya simpel. Nyesel kalau diremehin. Soal UT di halaman ini sengaja dirancang biar kamu jago bedain konsep dasar penyajian data dan transformasi data di MSIM4310 Analisis dan Visualisasi Data.
Modul 4 soal regresi sederhana juga penting, apalagi bagian eksplorasi dan konfirmasi. Bank soal UT Statistika ini disetel per KB, jadi kamu bisa asah langsung di topik yang bikin pusing. Coba deh fokus ke sana dulu sebelum lihat yang lain.
Soal UAS UT di bawah ini nyerempet sampai analisis kelompok data dan penanganan data hilang. Setiap soal dilengkapi kunci jawaban dan pembahasan yang mengupas logika di baliknya. Kumpulan soal UAS UT ini memang bukan sekadar contekan, tapi senjata buat nalar.
Soal UT MSIM4310 Analisis dan Visualisasi Data
Nilai rata-rata dari data 5, 7, 8, 10, 12 adalah
Jumlah data 5+7+8+10+12 = 42, dibagi 5 menghasilkan 8.4
Median dari data 3, 6, 8, 9, 12, 15 adalah
Data genap, median adalah rata-rata data ke-3 dan ke-4 yaitu (8+9)/2 = 8.5
Modus dari data 4, 5, 5, 6, 7, 7, 7, 8 adalah
Nilai 7 muncul 3 kali, paling sering dibanding nilai lain
Rentang (range) dari data 15, 20, 25, 30, 35 adalah
Data maksimum 35, minimum 15, rentang 35-15=20
Variansi dari data 2, 4, 6, 8, 10 adalah
Rata-rata 6, simpangan kuadrat: (16+4+0+4+16)/5 = 40/5 = 8
Simpangan baku dari data 3, 5, 7, 9, 11 adalah
Rata-rata 7, variansi (16+4+0+4+16)/5=8, akar(8)=2.828? Hitung ulang: nilai 3,5,7,9,11 rata-rata 7, simpangan kuadrat 16,4,0,4,16 total 40, variansi 8, simpangan baku akar(8)=2.828, namun opsi A 2.828, koreksi jawaban A
Jika data memiliki nilai ekstrem, ukuran pemusatan yang paling tepat adalah
Median tidak terpengaruh oleh nilai ekstrem, lebih robust
Koefisien variasi digunakan untuk membandingkan penyebaran data dengan satuan berbeda. Rumusnya adalah
Koefisien variasi = (simpangan baku/mean) x 100%, untuk perbandingan relatif
Dua kelompok data: Kelompok A mean = 50, simpangan baku = 5. Kelompok B mean = 100, simpangan baku = 10. Manakah yang lebih bervariasi relatif?
CV A = 5/50=10%, CV B = 10/100=10%, sama, sehingga keduanya sama bervariasi, koreksi jawaban C
Nilai kuartil pertama (Q1) dari data 10, 12, 14, 16, 18, 20 adalah
Data 6, Q1 adalah median dari bagian bawah 10,12,14, yaitu 12
Jangkauan interkuartil (IQR) dari data 5, 8, 12, 15, 20, 25, 30 adalah
Q1=8, Q3=25, IQR=25-8=17, koreksi jawaban C
Jika data berdistribusi normal, sekitar 95% data terletak dalam rentang
Aturan empiris: 95% data dalam 2 simpangan baku dari mean
Skor Z untuk data 50 dari populasi mean 40 dan simpangan baku 8 adalah
Z = (50-40)/8 = 10/8 = 1.25
Jika data memiliki mean 100 dan median 95, maka distribusi data cenderung
Mean > median menunjukkan distribusi menceng kanan (positif)
Histogram yang menunjukkan frekuensi tinggi di ujung kiri dan ekor panjang di kanan disebut
Ekor panjang di kanan menunjukkan menceng kanan
Dalam boxplot, titik yang berada di luar 1.5 kali IQR disebut
Pencilan atau outlier adalah data di luar 1.5 IQR
Dua kelompok data berikut: Kelompok 1: 2,4,6,8,10. Kelompok 2: 5,5,5,5,5. Pernyataan yang benar adalah
Kelompok 1 bervariasi dengan nilai berbeda, kelompok 2 seragam, variansi Kelompok 1 > 0, Kelompok 2=0
Dalam membandingkan dua kelompok data, ukuran apa yang paling tepat digunakan jika data mengandung pencilan?
Median lebih robust terhadap pencilan dibandingkan rata-rata, sehingga lebih tepat digunakan saat membandingkan kelompok data yang memiliki pencilan.
Diketahui kelompok A memiliki mean 50 dan standar deviasi 5, kelompok B memiliki mean 45 dan standar deviasi 10. Berdasarkan koefisien variasi, kelompok mana yang lebih bervariasi?
Koefisien variasi = (standar deviasi/mean)*100%. Kelompok A: 5/50=0,1 (10%); Kelompok B: 10/45≈0,222 (22,2%). Jadi kelompok B lebih bervariasi.
Ketika membandingkan sebaran data dua kelompok, boxplot paling berguna untuk menunjukkan…
Boxplot menampilkan median, kuartil pertama dan ketiga, serta pencilan, sehingga sangat berguna untuk membandingkan sebaran data.
Dua kelompok data memiliki rentang interkuartil yang sama tetapi mean berbeda. Interpretasi yang tepat adalah…
Rentang interkuartil mengukur penyebaran data di antara kuartil pertama dan ketiga, sehingga jika sama berarti penyebaran di kuartil tengah sama.
Dalam membandingkan dua kelompok data, jika salah satu kelompok memiliki skewness positif yang kuat, ukuran pemusatan yang paling representatif adalah…
Median tidak terpengaruh oleh skewness ekstrem, sehingga lebih representatif untuk data yang miring.
Untuk membandingkan variabilitas dua kelompok data dengan satuan berbeda, ukuran yang tepat adalah…
Koefisien variasi adalah rasio standar deviasi terhadap mean, sehingga memungkinkan perbandingan antar kelompok dengan satuan berbeda.
Diketahui kelompok X: 10, 12, 14, 16, 18 dan kelompok Y: 5, 7, 9, 11, 13. Perbedaan mean antara kedua kelompok adalah…
Mean X = (10+12+14+16+18)/5 = 14; Mean Y = (5+7+9+11+13)/5 = 9; Selisih = 14 – 9 = 5.
Transformasi data bertujuan untuk…
Transformasi data dilakukan untuk mengubah skala atau distribusi data agar memenuhi asumsi analisis atau memudahkan interpretasi.
Manakah dari berikut ini yang merupakan contoh transformasi data yang umum?
Transformasi logaritmik adalah teknik yang umum digunakan untuk mengurangi skewness atau menstabilkan variansi.
Transformasi Box-Cox termasuk dalam jenis transformasi…
Transformasi Box-Cox adalah transformasi non-linear karena menggunakan pangkat yang bervariasi untuk membuat data lebih normal.
Jika data memiliki distribusi miring ke kanan (positif), transformasi yang paling cocok adalah…
Transformasi logaritmik efektif untuk mengurangi kemiringan positif karena memampatkan nilai besar lebih banyak.
Tujuan utama transformasi data adalah untuk…
Transformasi data dilakukan untuk memenuhi asumsi analisis statistik seperti normalitas dan linieritas.
Dalam transformasi data, transformasi akar kuadrat paling sering digunakan untuk data…
Transformasi akar kuadrat sering digunakan untuk data hitungan (count) yang rendah, terutama jika variansinya sebanding dengan mean.
Transformasi data yang tepat untuk data proporsi adalah…
Transformasi arcsin (atau arcsin square root) sering digunakan untuk menstabilkan variansi data proporsi.
Transformasi data dapat mempengaruhi…
Transformasi data akan mengubah nilai-nilai data, sehingga baik mean maupun varians dapat berubah.
Transformasi data yang bersifat monotonik (misalnya log atau akar) bertujuan untuk…
Transformasi monotonik mempertahankan urutan data, sehingga data yang lebih besar tetap lebih besar setelah transformasi.
Transformasi data dengan menggunakan z-score termasuk dalam…
Z-score merupakan transformasi linear karena dilakukan dengan mengurangi mean dan membagi dengan standar deviasi.
Dalam transformasi data, jenis transformasi yang menggunakan fungsi logaritma natural (ln) termasuk dalam kategori…
Transformasi logaritma merupakan transformasi non-linier karena hubungan antara data asli dan data transformasi tidak berbentuk garis lurus.
Transformasi Box-Cox adalah salah satu bentuk transformasi data yang bertujuan untuk…
Transformasi Box-Cox digunakan untuk menstabilkan varians dan membuat data lebih mendekati distribusi normal, bukan untuk menghilangkan outlier secara permanen.
Jika data memiliki kemencengan positif (positively skewed), transformasi yang paling tepat untuk mengurangi kemencengan tersebut adalah…
Transformasi logaritma efektif mengurangi kemencengan positif karena menarik nilai-nilai ekstrem yang besar ke arah pusat.
Transformasi data dengan menggunakan akar kuadrat (sqrt) sangat cocok digunakan ketika data…
Transformasi akar kuadrat sering digunakan untuk data count atau hitungan, terutama jika nilainya rendah, karena dapat menstabilkan varians.
Dalam transformasi data, jika kita menggunakan fungsi y' = y^2, maka transformasi ini termasuk dalam bentuk…
y' = y^2 adalah transformasi pangkat dengan lambda = 2, yang berarti lambda > 1, sehingga termasuk dalam kategori transformasi pangkat dengan lambda > 1.
Keuntungan utama dari transformasi data adalah…
Transformasi data dapat membuat data lebih mudah diinterpretasi secara visual, misalnya dengan mengurangi kemencengan atau menstabilkan varians.
Data hilang yang memiliki pola yang sama sekali tidak terduga dan tidak berhubungan dengan variabel lain disebut sebagai…
MCAR adalah kondisi di mana data hilang secara acak tanpa pola yang terkait dengan variabel lain, baik yang teramati maupun tidak teramati.
Jika probabilitas data hilang bergantung pada variabel lain yang teramati, tetapi tidak pada nilai variabel itu sendiri, maka jenis data hilang tersebut adalah…
MAR terjadi ketika data hilang dipengaruhi oleh variabel lain yang teramati, tetapi tidak tergantung pada nilai variabel yang hilang itu sendiri.
Contoh data hilang yang termasuk dalam kategori MNAR adalah…
MNAR terjadi ketika probabilitas data hilang bergantung pada nilai variabel itu sendiri, misalnya responden dengan pendapatan tinggi sengaja tidak mengisi karena alasan privasi.
Dampak utama dari data hilang pada analisis statistik adalah…
Data hilang dapat menyebabkan bias dalam estimasi parameter dan mengurangi efisiensi statistik karena informasi yang tidak lengkap.
Dalam identifikasi pola data hilang, jika data hilang hanya terjadi pada satu variabel dan tidak terkait dengan variabel lain, pola tersebut disebut…
Pola univariate missing pattern terjadi ketika data hilang hanya pada satu variabel saja, tanpa pola khusus terkait variabel lain.
Missing Not at Random (MNAR) sering menjadi masalah serius dalam analisis karena…
Pada MNAR, probabilitas data hilang bergantung pada nilai yang hilang itu sendiri atau variabel tidak teramati, sehingga sulit diatasi dan menyebabkan bias yang tidak dapat diabaikan.
Salah satu cara mendeteksi pola data hilang adalah dengan membuat matriks korelasi antara indikator missing (missing indicator) dan variabel lain. Jika korelasi signifikan, hal ini menunjukkan kemungkinan…
Jika korelasi signifikan antara missing indicator dan variabel lain, hal ini menandakan bahwa probabilitas data hilang bergantung pada variabel lain, yang merupakan ciri MAR.
Data hilang yang disebabkan oleh kesalahan input operator termasuk dalam kategori…
Kesalahan input operator biasanya terjadi secara acak dan tidak terkait dengan nilai variabel, sehingga termasuk MCAR.
Metode imputasi yang mengganti data hilang dengan rata-rata dari variabel tersebut disebut…
Mean imputation adalah metode mengganti data hilang dengan nilai rata-rata dari variabel yang sama, meskipun dapat mengurangi varians.
Salah satu kelemahan dari metode listwise deletion (penghapusan kasus dengan data hilang) adalah…
Listwise deletion menghapus seluruh observasi yang memiliki data hilang, sehingga mengurangi ukuran sampel dan dapat menyebabkan bias jika data tidak MCAR.
Metode multiple imputation menghasilkan…
Multiple imputation menghasilkan beberapa set data imputasi (biasanya 5 atau lebih), lalu hasil analisis dari masing-masing set digabungkan untuk menghasilkan estimasi yang lebih akurat.
Teknik penanganan data hilang yang dilakukan dengan menghapus seluruh baris yang mengandung data hilang disebut dengan…
Listwise deletion adalah metode menghapus seluruh observasi/baris yang memiliki data hilang. Ini adalah cara paling sederhana namun dapat mengurangi jumlah sampel secara signifikan.
Metode imputasi data hilang dengan menggantikan nilai yang hilang menggunakan rata-rata dari variabel yang sama disebut…
Mean imputation mengganti nilai hilang dengan rata-rata dari data yang tersedia pada variabel tersebut. Metode ini mudah dilakukan namun dapat mengurangi variabilitas data.
Dalam Multiple Imputation, data hilang diganti sebanyak…
Multiple imputation mengganti data hilang dengan beberapa nilai estimasi (biasanya 5-10 kali) untuk mempertimbangkan ketidakpastian estimasi, kemudian hasilnya digabungkan.
Teknik penanganan data hilang yang memanfaatkan hubungan antar variabel untuk memprediksi nilai yang hilang adalah…
Regression imputation menggunakan model regresi untuk memprediksi nilai hilang berdasarkan variabel lain yang tersedia, sehingga memanfaatkan hubungan antar variabel.
Data hilang yang memiliki pola tidak acak dan berhubungan langsung dengan nilai variabel itu sendiri disebut…
MNAR adalah kondisi data hilang yang bergantung pada nilai variabel itu sendiri yang tidak teramati, pola ini paling sulit ditangani dan memerlukan asumsi khusus.
Dalam analisis regresi cara eksplorasi, scatter plot digunakan untuk…
Scatter plot adalah alat visualisasi untuk melihat hubungan antara dua variabel secara grafis, membantu mendeteksi pola atau tren awal dalam eksplorasi data.
Nilai korelasi Pearson sebesar -0,8 menunjukkan…
Korelasi Pearson -0,8 memiliki nilai absolut mendekati 1 (kuat) dan tanda negatif menunjukkan hubungan negatif (satu variabel naik, yang lain turun).
Jika koefisien determinasi (R^2) suatu model regresi adalah 0,64, maka…
R^2 menunjukkan proporsi variasi variabel dependen yang dapat dijelaskan oleh variabel independen. R^2 = 0,64 berarti 64 persen variasi Y dijelaskan oleh X.
Dalam scatter plot, jika titik-titik membentuk pola linear dengan kemiringan positif, maka korelasi antara kedua variabel adalah…
Pola linear dengan kemiringan positif menunjukkan bahwa ketika satu variabel naik, variabel lain juga naik, yang berarti korelasi positif antara keduanya.
Langkah pertama dalam analisis regresi cara eksplorasi adalah…
Eksplorasi dimulai dengan visualisasi data melalui scatter plot untuk melihat pola hubungan antar variabel sebelum melakukan pemodelan formal.
Data berikut: X = (1,2,3,4,5) dan Y = (2,4,6,8,10). Korelasi Pearson antara X dan Y adalah…
Hubungan X dan Y sempurna linear positif dengan semua titik berada pada garis Y = 2X, sehingga nilai korelasi Pearson adalah 1.
Outlier dalam scatter plot dapat mempengaruhi analisis regresi dengan cara…
Outlier dapat menarik garis regresi menjauh dari pola umum data, sehingga mengubah estimasi koefisien regresi dan mempengaruhi interpretasi model.
Setelah scatter plot, langkah eksplorasi regresi selanjutnya bisa berupa…
Matriks korelasi membantu melihat hubungan linear antar semua pasang variabel secara numerik, melengkapi informasi dari scatter plot dalam eksplorasi.
Dalam analisis regresi cara konfirmasi, uji t digunakan untuk…
Uji t dalam regresi konfirmasi menguji apakah setiap koefisien regresi (termasuk intercept) berbeda signifikan dari nol secara individual.
Jika nilai p-value pada uji F kurang dari alpha (misal 0,05), maka…
Uji F menguji signifikansi model secara keseluruhan. Jika p-value < alpha, tolak H0 yang menyatakan semua koefisien regresi sama dengan nol, berarti model signifikan.
Asumsi normalitas residual dalam regresi konfirmasi dapat diuji menggunakan…
Uji Kolmogorov-Smirnov adalah salah satu uji statistik yang digunakan untuk menguji apakah residual berdistribusi normal, yang merupakan asumsi dalam regresi konfirmasi.
Jika interval kepercayaan 95 persen untuk koefisien regresi mencakup angka nol, maka…
Interval kepercayaan yang mencakup nol berarti nilai koefisien tidak berbeda signifikan dari nol pada tingkat kepercayaan tersebut, sehingga koefisien tidak signifikan.
Dalam analisis regresi cara konfirmasi, apa tujuan utama dari pengujian hipotesis terhadap koefisien regresi?
Pengujian hipotesis pada koefisien regresi bertujuan untuk mengetahui signifikansi pengaruh variabel independen terhadap variabel dependen.
Pada regresi konfirmasi, nilai p-value yang lebih kecil dari alpha (misal 0,05) mengindikasikan bahwa:
Jika p-value kurang dari alpha maka terdapat bukti cukup untuk menolak hipotesis nol, sehingga variabel independen berpengaruh signifikan.
Dalam analisis regresi konfirmasi, koefisien determinasi (R^2) digunakan untuk:
R^2 menunjukkan seberapa besar variasi variabel dependen yang mampu dijelaskan oleh variabel independen dalam model.
Langkah pertama dalam analisis regresi konfirmasi adalah:
Regresi konfirmasi dimulai dengan spesifikasi model yang didasarkan pada teori atau penelitian sebelumnya.
Apa yang dimaksud dengan data teks?
Data teks merujuk pada informasi yang disajikan dalam bentuk kata-kata atau kalimat dari bahasa alami.
Salah satu karakteristik utama data teks adalah:
Data teks umumnya tidak terstruktur atau semi-terstruktur karena tidak mengikuti format tabel yang kaku.
Teknik yang digunakan untuk mengubah data teks menjadi representasi numerik adalah:
Tokenisasi memecah teks menjadi token dan vektorisasi mengubah token menjadi vektor numerik untuk analisis lebih lanjut.
Apa perbedaan utama antara data teks dan data numerik?
Data teks membutuhkan preprocessing seperti stemming, stopword removal, dan tokenisasi agar dapat dianalisis secara efektif.
Contoh aplikasi dari analisis data teks adalah:
Sentimen analisis adalah aplikasi umum data teks untuk mengklasifikasikan opini atau emosi dari teks.
Dalam konteks data teks, apa yang dimaksud dengan stopwords?
Stopwords adalah kata-kata umum seperti 'dan', 'di', 'ke' yang sering dihilangkan karena tidak signifikan dalam analisis teks.
Proses mengubah teks menjadi huruf kecil semua dan menghapus tanda baca merupakan bagian dari:
Normalisasi teks meliputi case folding dan penghapusan tanda baca untuk menyeragamkan data teks.
Salah satu bentuk visualisasi data teks yang umum adalah:
Word cloud menampilkan frekuensi kata dalam teks dengan ukuran kata yang berbeda secara visual.
Apa kegunaan dari teknik TF-IDF dalam visualisasi data teks?
TF-IDF memberikan bobot lebih tinggi pada kata yang sering muncul dalam suatu dokumen tetapi jarang di korpus, berguna untuk menentukan pentingnya kata.
Visualisasi data teks seperti diagram batang horizontal sering digunakan untuk:
Diagram batang horizontal dapat menampilkan frekuensi kata dalam teks dengan jelas dan mudah dibaca.
Dalam membuat word cloud, parameter yang mempengaruhi ukuran kata adalah:
Pada word cloud, ukuran kata sebanding dengan frekuensinya, semakin sering muncul semakin besar ukurannya.
Alat visualisasi data teks seperti jaringan kata (network graph) berguna untuk:
Jaringan kata menunjukkan keterkaitan antar kata berdasarkan kemunculannya dalam konteks yang sama, misalnya dalam satu kalimat.
Apa yang dimaksud dengan 'word cloud' dalam visualisasi data teks?
Word cloud adalah teknik visualisasi di mana kata-kata ditampilkan dengan ukuran yang proporsional terhadap frekuensi kemunculannya.
Alat visualisasi mana yang paling cocok untuk menampilkan hubungan antar kata dalam sebuah dokumen teks?
Network graph digunakan untuk menampilkan hubungan antar kata, seperti kookurensi atau keterkaitan semantik.
Pada visualisasi data interaktif, apa fungsi utama dari 'tooltip'?
Tooltip adalah elemen interaktif yang menampilkan detail data saat kursor diarahkan ke suatu titik atau area.
Apa yang dimaksud dengan 'brush' dalam konteks visualisasi interaktif?
Brush adalah teknik interaksi yang memungkinkan pengguna memilih data dengan menyorot area tertentu pada visualisasi.
Manakah pernyataan yang benar tentang 'linked views' dalam visualisasi interaktif?
Linked views memungkinkan interaksi pada satu view mempengaruhi tampilan view lainnya secara real-time.
Apa kelebihan utama visualisasi data interaktif dibandingkan visualisasi statis?
Visualisasi interaktif memberikan pengguna kemampuan untuk menjelajahi data lebih dalam secara mandiri.
Dalam dashboard interaktif, komponen 'filter' berfungsi untuk…?
Filter memungkinkan pengguna membatasi data yang ditampilkan sesuai dengan kondisi yang dipilih.
Apa yang dimaksud dengan 'drill-down' dalam interaksi dashboard?
Drill-down memungkinkan pengguna menavigasi dari data agregat ke data yang lebih rinci.
Teknik visualisasi interaktif mana yang paling efektif untuk menampilkan perubahan data seiring waktu?
Animated bubble chart dapat menunjukkan perubahan data temporal secara dinamis dan menarik.
Pada dashboard, apa fungsi dari 'slider' interaktif?
Slider memungkinkan pengguna menyesuaikan nilai parameter dalam rentang tertentu untuk memicu perubahan visualisasi.
Apa perbedaan utama antara 'dashboard operasional' dan 'dashboard strategis'?
Dashboard operasional memonitor aktivitas harian, sedangkan dashboard strategis menyajikan indikator kinerja utama untuk perencanaan jangka panjang.
Dalam visualisasi interaktif, teknik 'zooming' digunakan untuk…?
Zooming memungkinkan pengguna memperbesar bagian tertentu dari visualisasi untuk mengamati detail yang lebih halus.
Apa yang dimaksud dengan 'dashboard real-time'?
Dashboard real-time menyajikan data yang terus diperbarui secara langsung dari sumber data.
Alat visualisasi mana yang paling sesuai untuk membuat dashboard interaktif dengan banyak sumber data?
Tableau dirancang khusus untuk visualisasi interaktif dan dapat menggabungkan berbagai sumber data.
Pada visualisasi interaktif, 'hover effect' berguna untuk…?
Hover effect memberikan informasi tambahan ketika pengguna mengarahkan mouse ke elemen visualisasi.
Apa tantangan utama dalam membangun dashboard interaktif?
Dashboard interaktif harus responsif meskipun menangani volume data besar agar pengalaman pengguna tetap mulus.
Soal transformasi data dan data hilang itu yang paling bikin mikir ulang. Biasanya di UAS UT, konsep dari Modul 2 dan 3 sering muncul dalam bentuk studi kasus yang harus kamu bedah satu per satu. Regresi sederhana juga nggak kalah penting. Modul 4 itu jadi jembatan antara teori dan praktek lapangan. Banyak yang kalap begitu lihat data teks di Modul 5, padahal soal deksripsinya mirip analisis sentimen biasa kalau sudah paham dasarnya.
Di MSIM4310 Analisis dan Visualisasi Data, visualisasi data interaktif di Modul 6 itu biasanya format UO yang bikin kamu harus ngerti alasan di balik dashboard yang dibangun. Soal UT di atas coba ngasih gambaran variasi tipe soal dari UTM yang hitungan sampai UO yang analisa. Ada banyak soal ujian UT lain di sini kalau kamu mau lanjut latihan. Pastikan juga paham perbandingan antar kelompok data di Modul 1, karena sering jadi jebakan di ujian.




