Statistika

RapidMiner vs SPSS: Uji Regresi

Saat ini untuk analisa data, ada banyak software yang bisa digunakan. Untuk olah statistika, SPSS adalah software yang paling banyak digunakan. Namun, untuk analisa data dengan machine learning, RapidMiner adalah software yang paling banyak digunakan.

RapidMiner disamping tersedia banyak algoritma machine learning, juga ada banyak metode/uji statistik, seperti: Uji T, Uji F (Anova) dan Uji Regresi.

Baiklah, kita coba bandingkan hasil perhitungan antara RapidMiner dengan SPSS untuk kasus Uji Regresi. Pada kasus ini saya menggunakan dataset concrete compressive strength (bisa didownload di UCI Machine Learning Repository).

Pertama, kita test under RapidMiner. Berikut process-nya:

rapid-regresi-1

berikut parameter di operator Performance, untuk kita bandingkan dengan uji regresi di SPSS:

rapid-regresi-2

rapid-regresi-3

Setelah di-run, berikut outputnya:

rapid-regresi-4

rapid-regresi-5

Hasilnya:

  • RMSE = 0.103
  • R-square = 0.615

Mari kita bandingkan dengan SPSS.

rapid-regresi-6

Ternyata hasilnya sama:

  • R-Square = 0.615
  • RMSE = 0.103653 (Std. Error of the Estimate)

Jadi baik RapidMiner dan SPSS identik hasilnya.

Demikian, semoga membantu…

Advertisements
Categories: RapidMiner, Statistika | Tags: , | Leave a comment

Statistika: Uji T sampel independen

Untuk analisa data dengan tujuan uji beda, salah satu alat uji statistiknya adalah uji t. Uji t dalam olah statistik terdiri dari 3 variasi. Untuk detilnya bisa dilihat disini.

Salah satu variasi uji t adalah uji t sampel independen (independent-sample t test). Pada uji ini, sering saya jumpai banyak kawan mahasiswa yang bingung terkait interpretasinya. Hal ini karena di uji t sampel independen ada 2 alat uji yang ditampilkan (berdasarkan hasil uji dari aplikasi SPSS), yaitu:

  • Levene’s test
  • 2 baris uji t sampel independen (disinilah bingungnya, pilih yang mana, kenapa, dst…)

Baiklah, melalui tutorial singkat ini, semoga bisa membantu. Mari kita mulai….

Misalkan saya punya 2 variabel, yaitu:

  • nilai, tipe data interval
  • kelompok, tipe data nominal

kasus-uji-t-sampel-independen

total kasus adalah 20 kasus, sehingga masing-masing kelompok ada 10 kasus.

Tujuannya adalah: melihat apakah ada perbedaan rata-rata nilai ujian antara kelompok 1 dengan kelompok 2.

Null Hypothesis, Ho:Tidak ada perbedaan rata-rata nilai antara kelompok 1 dan kelompok 2“.

Karena kedua kelompok berbeda satu sama lain, maka kita gunakan uji t sampel independen. Berikut langkah-langkahnya di SPSS:

langkah-uji-t-sampel-independen

dari menu utama SPSS, pilih Analize, pilih Compare Means, pilih Independent-Samples T Test

tampil:

tampilan-awal-uji-t-sampel-independen

lakukan langkah berikut:

langkah-2-uji-t-sampel-independen

  1. klik var: nilai
  2. klik tombol (->) disamping text “Test Variable(s):
  3. klik var: kelompok
  4. klik tombol (->) disamping text “Grouping Variable:

hasilnya:

langkah-3-uji-t-sampel-independen

seperti yang terlihat digambar diatas, di text “Grouping Variable:” terlihat kelompok(? ?), artinya perlu langkah berikutnya yaitu menentukan nilai untuk melambangkan kelompok yang ada di data (dalam hal ini 1 untuk kelompok 1 dan 2 untuk kelompok 2).

Berikut langkahnya:

langkah-4-uji-t-sampel-independen

  1. klik Define Groups…
  2. ketik 1 di text Group 1: (karena 1 untuk kelompok 1, sesuai di data)
  3. ketik 2 di text Group 1: (karena 2 untuk kelompok 2, sesuai di data)
  4. klik Continue

hasilnya:

langkah-5-uji-t-sampel-independen

Sebagai langkah terakhir adalah klik tombol OK (samping tombol Paste).

Berikut hasil/output SPSS-nya:

hasil-uji-t-sampel-independen

Di output uji t, ada 2 baris hasil uji t dengan masing-masing memiliki nilai p-value (sig, (2-tailed)) yang berbeda yaitu 0.014 dan 0.015. Nah, disinilah yang membingungkan, pilih yang mana.

Perlu diperhatikan pada kolom kiri ada tulisan Equal variances assumed dan Equal variances not assumed. Artinya, baris pertama dipilih jika varians antara kelompok 1 dan 2 itu adalah identik (equal) dan pilih baris kedua jika varians antara kelompok 1 dan 2 itu tidak identik (not equal). Terus, dari mana nentuinnya?

Nah, di uji t sampel independen memberikan kita hasil uji Levene’s test yang bertujuan untuk menentukan kesamaan varians diantara kedua kelompok. Alat uji inilah yang digunakan untuk menentukan baris mana yang dipilih.

Uji Levene (Levene’s test) adalah sejatinya uji beda.

Berikut Ho untuk uji Levene (Levene’s test): “Tidak ada perbedaan varians antara kelompok 1 dan 2“.

Karena p-value = 0.460 (>0.05) maka Ho GAGAL di-TOLAK! Sehingga kesimpulannya adalah “Tidak Ada perbedaan varians antara kelompok 1 dan 2“. Karenanya maka uji t yang dipilih adalah baris 1 yaitu di baris Equal variance assumed (varians nya dianggap sama/identik/equal).

Sehingga p-value uji t yang dipilih adalah yang 0.014.

Berikut Ho untuk uji t-nya: “Tidak ada perbedaan rata-rata nilai antara kelompok 1 dan 2”

Karena p-value = 0.014 (< 0.05), maka Ho di-TOLAK!

Kesimpulannya adalah “Ada perbedaan rata-rata nilai antara kelmpok 1 dan 2

Terus siapa yang lebih baik nilainya? Untuk menjawab ini lihat data pada kolom Mean Difference. Ternayta nilainya = 1.600.

Artinya nilai kelompok 1 > nilai kelompok 2. Kok bisa, ya karena hasil pengurangan nilai kelompok 1 dengan kelompok 2 adalah positif (1.600) sehingga mengindikasikan bahwa nilai kelompok 1 > nilai kelompok 2.

Demikian, semoga membantu…

Categories: Statistika | Tags: , , | Leave a comment

Statistika: Uji Normalitas Distribusi Data

Sebelum kita melakukan pengujian statistik dengan alat uji statistik tertentu, ada kalanya variabel yang akan di uji tersebut harus di uji apakah datanya berdistribusi normal atau tidak. Persyaratan ini harus dipenuhi jika alat uji statistik yang akan dipakai adalah termasuk statistika parametrik.

Alat uji statistik yang termasuk kelompok statistika parametrik antara lain:

  • Korelasi Pearson
  • Regresi
  • Uji t
  • Uji F.

Jadi, sebelum menggunakan alat uji tersebut, maka variabel (yang bertype: interval/rasio) harus dilakukan uji apakah datanya berdistribusi normal atau tidak. Pengujian ini sering disebut uji normalitas distribusi data.

Alat uji yang sering digunakan adalah One-Sample K-S (Kolmogorov-Smirnov). Berikut langkah demi langkahnya di software SPSS:

Dari Menu, pilih Analyze, Non Parametric Tests, Legacy Dialogs, 1-Sample K-S

menu one-sample ks

tampil…

var-at-one-sample-ks

misalkan saya punya 2 variabel, yaitu “sebelum” dan “sesudah“.

Langkah berikutnya adalah memasukkan kedua variabel tersebut ke kolom “Test variabel List:” dengan cara mengklik tombol panah.

pilih-var-at-one-sample-ks

sehingga menjadi….

akhir-var-at-one-sample-ks

Langkah terakhir adalah, klik tombol “OK” (pastikan di box “Test Distribution” pilihan yg ter-ceklis adalah “Normal”)

Hasil uji One-Sample K-S:

output-one-sample-ks

Catatan: Sejatinya uji one-sample K-S adalah uji beda, dia membandingkan antara distribusi data normal dengan distribusi data yang di-test.

Interpretasinya:

Ho (untuk var “sebelum”):

Tidak ada perbedaan antara distribusi data normal dengan distribusi data variabel sebelum

Untuk menjawab Ho, maka kita lihat nilai p-value nya (Asymp. Sig) yaitu 0.019.

Karena p-value < 0.05, maka Ho di-TOLAK!

Kesimpulannya: “Ada perbedaan antara distribusi data normal dengan distribusi data variabel sebelum” dengan kata lain: variabel sebelum memiliki data yang tidak berdistribusi normal.

Ho (untuk var “sesudah”):

Tidak ada perbedaan antara distribusi data normal dengan distribusi data variabel sesudah

Untuk menjawab Ho, maka kita lihat nilai p-value nya (Asymp. Sig) yaitu 0.444.

Karena p-value > 0.05, maka Ho GAGAL di-TOLAK!

Kesimpulannya: “Tidak Ada perbedaan antara distribusi data normal dengan distribusi data variabel sesudah” dengan kata lain: variabel sesudah memiliki data yang berdistribusi normal.

———–

Dari contoh ini dapat disarikan bahwa:

  1. uji one-sample k-s adalah uji beda, sehingga Ho-nya bergaya uji beda
  2. agar kesimpulan yang didapat adalah data berdistribusi normal, maka p-value harus > 0.05.

Demikian, semoga membantu…

Categories: Statistika | Tags: , , , , | Leave a comment

Statistika: Uji t … seperti apa sih?

Dalam Statitika, uji t adalah salah satu alat uji yang termasuk uji beda, karena uji t ini digunakan untuk mencari ada/tidaknya perbedaan antara dua means dari dua sample/kelompok/kategori data.

Uji t termasuk kelompok uji parametrik, yaitu kelompok uji statistika yang memerlukan persyaratan tertentu agar memberikan hasil yang baik, dalam hal ini terkait asumsi distribusi data. Uji parametrik mensyaratkan distribusi data yang diuji berdistribusi normal. Oleh karenanya, ketika kita ingin menggunakan uji t, maka sebelumnya variabel yang diujikan (yang bertipe interval/rasio) harus berdistribusi normal (biasanya menggunakan alat uji one sample kolmogorov-smirnov).

Berikut merupakan jenis-jenis uji t:

  1. one-sample t-test (uji t satu sampel)
  2. paired-sample t test (uji t sampel berpasangan)
  3. independent-sample t test (uji t sampel independen).

1) one-sample t test (uji t satu sampel)

  • Digunakan untuk membandingkan antara sekelompok data yang berasal dari 1 sampel/kelompok dengan 1 nilai acuan/referensi/dugaan. Jadi data sampel dibandingkan dengan 1 angka (makanya satu sampel).
  • Cukup 1 variabel bertipe interval/rasio karena 1 lagi berupa angka acuan.
  • Contoh: ingin menguji apakah rata-rata nilai mata kuliah fisika dasar mahasiswa semester 1 lebih besar atau sama dengan 70. (variabel: nilai MK fisika dasar, nilai acuan: 70).

2) paired-sample t test (uji t sampel berpasangan)

  • Digunakan untuk membandingkan rata-rata (mean) dari dua kumpulan data yang ada dimana kedua kumpulan data tersebut berasal dari 1 kelompok obyek/responden yang sama. Hal ini dimungkinkan karena misalnya pengukuran dilakukan pada waktu yag berbeda namun obyek/respondennya tetap sama, sehingga memiliki 2 kelompok data; atau dilakukan pengukuran yang berbeda karena adanya perlakuan pada obyek/responden tersebut.
  • Akan ada kumpulan data sebelum dan sesudah perlakuan/waktu yang berbeda.
  • Variabel: ada 2 variabel (keduanya interval/rasio), variabel 1 (sebelum perlakuan atau waktu pengukuran ke-1) dan variabel 2 (setelah perlakuan/waktu pengukuran ke-2)
  • Contoh: sebuah perusahaan pupuk ingin menguji apakah pupuk yang dibuat mampu meningkatkan produksi buah cabai. (untuk riset ini diperlukan pengukuran produksi buah cabai sebelum diberi pupuk dan produksi buah cabai setelah diberi pupuk, kemudian kedua data ini dibandingkan; kedua data tentu diambil atau diukur pada waktu yang berbeda, karena kelompok pohon cabai yang diukur adalah kelompok pohon cabai yang sama).

3) independent-sample t test (uji t sampel independen)

  • Digunakan untuk membandingkan rata-rata (mean) dari dua kelompok data yang berbeda satu sama lain. Jadi benar-benar memiliki 2 sampel/kelompok obyek/responden.
  • Variabel: ada 2 variabel (1 bertipe interval/rasio dan 1 lagi bertipe nominal). Variabel bertipe interval/rasio untuk menampung data yang akan dibandingkan, sedang variabel bertipe nominal untuk menampung jenis/kelompok sampelnya.
  • Contoh: seorang walikota menanggap pembangunan ekonomi masyarakatnya lebih baik daripada masyrakat kota lain disekitarnya. Maka diukurlah sekelompok masyarakat kota tersebut dan sekelompok masyarakat kota tetangga sebagai pembanding. Maka akan ada 2 data yang bersumber dari masyarakat yang berbeda; akan ada 2 variabel, variabel #1: income masyarakat, variabel #2: jenis kota (1->kota ybs, 2-> kota tetangga)).

Demikian, semoga membantu…

Categories: Statistika | Tags: , , , , | 2 Comments

Riset: Jika skala ukur bisa tinggi tipe-nya, maka tinggi-lah!

Di beberapa (kalau tidak mau disebut banyak) rancangan penelitian mahasiswa, banyak saya jumpai mahasiswa memilih nominal sebagai skala ukur suatu variabel.

Ketika saya tanya, kenapa Anda memilih nominal, ternyata jawabannya karena (sebagian besar) alasan sebagai berikut:

  1. di beberapa buku variabel tersebut penyajiannya kategorik
  2. mereka melihat banyak di hasil karya ilmiah mahasiswa sebelumnya menggunakan teknik yg sama
  3. (hanya) ingin melihat uji hubungan (which is using chi-square as its statistics test).

Nah, dari jawaban tersebut, saya bisa memahami bahwasanya kawan-kawan mahasiswa tersebut lack of understanding (gagal faham, meminjam istilah kawan saya) terkait: tipe data, alat uji statistika, tujuan/kedalaman analisa data statistik.

Kok gitu, bagaimana penjelasannya?

1) Tipe Data

Di statistika, tipe data ada 4, berikut datanya, dari yang terrendah hingga tertinggi derajatnya

  1. Nominal, hanya label (ini tipe data paling rendah)
  2. Ordinal, label + ada tingkatan, namun tidak jelas jarak antar tingkatan
  3. Interval, sudah ada tingkatan dan jelas jarak antar tingkatan, tapi tidak punya nol mutlak
  4. Rasio, jarak antar tingkatan jelas dan punya nol mutlak (rajanya tipe data)

Nah, kok ada tipe data lebih tinggi dan lebih rendah, semacem hierarki? Alasannya, terkait dengan kedalaman analisa data yang bisa diberikan oleh data/variabel dengan tipe tsb (see point 3). Kemudian yang kedua adalah, variabel dengan tipe data yang lebih tinggi dapat dengan mudah diubah menjadi variabel dengan tipe data yang lebih rendah. Contoh variabel usia, tipe nya rasio (misal: 10 tahun, 15 tahun, 35 tahun, dst), dapat dengan mudah dibuat menjadi nominal (misal: muda dan tua). Tetapi variabel dengan tipe data yang lebih rendah tidak bisa di”naikkan” menjadi variabel dengan tipe data yang lebih tinggi. (contoh, usia: muda dan tua, bagaimana ubahnya jadi angka tahun usia?). (ini adalah alasan #1 dari judul tulisan ini)

2) Alat uji statistika

Variabel dengan tipe data yang rendah terbatas alat uji statistika yang bisa digunakan.

  • Nominal: uji hubungan (chi-square)
  • Ordinal: uji hubungan (korelasi rank-spearman atau korelasi kendall)
  • Interval/rasio: uji hubungan (korelasi pearson), uji pengaruh (regresi linier), uji beda (uji t, uji f)

dari alat uji statistika yang bisa digunakan, terlihat bahwa variabel dengan tipe data yang lebih tinggi dapat menggunakan alat uji statistika yang lebih banyak pilihannya. (ini alasan #2 dari judul tulisan ini)

3) Tujuan/kedalaman analisa data statistik

Sejalan dengan point 2 diatas, variabel dengan tipe data yang rendah terbatas alat uji statistika yang bisa digunakan, berujung pada analisa data yang terbatas pula. (ini alasan #3 dari judul tulisan ini)

Ambil contoh di uji hubungan:

  • Nominal: uji hubungan (chi-square), hanya sebatas ada tidaknya hubungan; tidak dapat memberikan analisa lebih dalam lagi.
  • Ordinal: uji hubungan (korelasi rank-spearman atau korelasi kendall), sudah dapat memberikan analisa lebih dalam, yaitu sejauh/seerat apa hubungan yang terjadi dan arah hubungannya (+ atau -)
  • Interval/rasio: uji hubungan (korelasi pearson),  sudah dapayt memberikan analisa lebih dalam, yaitu sejauh/seerat apa hubungan yang terjadi dan arah hubungannya (+ atau -).

Dari point 1, 2 dan 3 diatas, maka penting untuk mempertimbangkan tipe data yang akan dipilih. Maka, jika bisa tipe datanya lebih tinggi, maka lebih tinggi lah!

Demikian, semoga bisa membantu.

Categories: metodologi riset, Statistika | Tags: , , , , , , | Leave a comment

NOL MUTLAK…apa maksudnya?

Di dalam olah statistika kita mengenal istilah NOL MUTLAK.

Apa maknanya?

NOL MUTLAK berarti tidak ada, tidak dimiliki, kosong, tidak terdapat.

Contoh: JUMLAH KURSI=0, nah 0 disini adalah NOL MUTLAK [tidak ada kursi sama sekali].

 

Adanya istilah NOL MUTLAK meng-isyaratkan ke kita bahwa ada NOL BUKAN MUTLAK (relatif).

Apa artinya NOL BUKAN MUTLAK?…

Artinya, walaupun NOL…dia tetap memiliki nilai, nilainya tetap sah.

Contoh: NILAI UJIAN MATEMATIKA=0, nah 0 disini maknanya tetap memiliki nilai…bisa jadi salah semua sehingga nilainya 0.

Contoh lain: SUHU = 0 derajat celcius, nah 0 disini bukan berarti tidak ada suhu sama sekali; disana tetap ada suhu…dan suhu 0 derajat celcius itu lebih tinggi dari suhu -10 derajat celcius…

 

Demikian, senoga bermanfaat…

adivb

Categories: Statistika | Tags: , , | Leave a comment

Variasi Uji F

Uji F dalam olah statistika sering digunakan.

Penggunaan Uji F adalah dalam rangka uji beda atau mencari perbedaan rata-rata mean/varians  pada kelompok sampel yang lebih dari 2 kelompok/grup.

Berikut variasi/jenis Uji F:

  • Anova (Analysis of Variance)

var independent = 1 var nominal

var dependent = 1 var interval/rasio

  • Ancova (Analysis of  Covariance)

var independent = 1 var nominal + 1/lebih var interval/rasio [var ini yg disebut covariance]

var dependent = 1 var interval/rasio

  • Manova (Multivariate Analysis of Variance, Multivariate ANOVA)

var independent = 1 var nominal

var dependent > 1 var interval/rasio

  • Mancova (Multivariate Analysis of Covariance, Multivariate ANCOVA)

var independent = 1 var nominal + 1/lebih var interval/rasio [var ini yg disebut covariance]

var dependent > 1 var interval/rasio

 

Demikian, semoga bisa membantu…

adivb

 

Categories: Statistika | Tags: , , , , | Leave a comment

Akurasi vs Presisi [Validitas vs Reliabilitas]

Dalam pengukuran yang umum dilakukan akan menghasilkan 2 terminologi yaitu: AKURASI dan PRESISI.

AKURASI menunjukkan kedekatan hasil pengukuran dengan nilai sesungguhnya…

PRESISI menunjukkan seberapa dekat perbedaan nilai pada saat dilakukan pengulangan pengukuran.

Jika kita bandingkan dengan istilah di STATISTIKA,  maka keduanya akan sama dengan VALIDITAS dan RELIABILITAS.

VALIDITAS adalah kemampuan alat ukur mengukur apa yang ingin diukur [=AKURASI]

RELIABILITAS adalah kemampuan alat ukur menghasilkan nilai yang sama jika pengukuran dilakukan berulang-ulang [=PRESISI]

Demikian…

adivb

Categories: Statistika | Tags: , , , | Leave a comment

Parameter vs Statistik

Parameter vs Statistik….apa ini?

Dalam penelitian, kita meng-observe obyek penelitian kita. Semua obyek penelitian kita itu disebut populasi.

Dibanyak penelitian, adalah sulit untuk meng-observe populasi karena keterbatasan peneliti itu sendiri.

Oleh karena itu, di ambillah sebagian dari populasi itu yang kemudian disebut sampel.

Nah, maka akan ada 2 terminologi disini yaitu populasi dan sampel.

Hasil perhitungan atau karakteristik dari populasi disebut PARAMETER.

sedangkan hasil perhitungan atau karakteristik dari sampel disebut STATISTIK.

Jadi jika disederhanakan, PARAMETER = POPULASI;  STATISTIK = SAMPEL.

Demikian…

adivb

Categories: Statistika | Tags: , , , | Leave a comment

signifikan…makhluk apa ini?

kata signifikan sering kita dengar atau baca pada laporan atau tulisan ilmiah terkait hasil pengolahan data dengan metode statistika tertentu….

nah, signifikan ini apa sih maknanya?…

to be continue…

adivb

Categories: Statistika | Tags: | Leave a comment

Create a free website or blog at WordPress.com.