RSS

Korelasi, Regresi dan Regresi logistik

09 Okt

Topic ini paling sangat menarik untuk dibahas. Apalagi yang lagi sedang menyusun karya ilmiah. Kalau nggak ada regresinya kayaknya nggak manteb gitu.. yah ini lebih ke catatan untuk orang awam sih.

Ok deh.. berikut merupakan catatan kuliah dari Mas Althaf untuk mahasiswa S1.

Regersi linier

Seringkali, orang salah pilih, antara regresi linier dan regresi logsitik.

Berikut contoh kasus:

• Greene and Touchstone melakukan studi mengenai hubungan antara berat lahir dan tingkat estradiol pada wanita hamil.

Untuk regresi linier ini, yang jelas, harus melibatkan 2 variable. Dalam kasus di atas, kadar estradiol dan berat lahir. Bagaimana hubungannya?

clip_image002
contoh hasil:

Kalau dilihat dari datanya akan terlihat titik-titik sebagai berikut di atas, maka dibutuhkan bantuan regresi untuk mendapatkan persamaan garisnya.

Beberapa istilah umum yang digunakan dalam regresi:

· X = variable bebas/ independent

· Y= variable terikat/ dependent

· Alfa = intercept

· Koefisien Beta = Slope

o Slope = 0 = Tidak ada hubungannya antara tanggal lahir dan berat badan lahir

o Slope > 0 = semakin tinggi estradiol semakin berat badan lahir

o Slope <0 = semakin tinggi umur semakin rendah denyut nadi

· Error = angka error

Contoh hasil:

Uji F

Untuk melihat apakah suatu regresi baik atau tidak bias dilihat melalui uji F

SS Regesi ~ semakin besar semakin baik, SS residu~ semakin kecil semakin baik = hasil regresi dikatakan good fit

Namun terkadang kita sulit menentukan SS regresi yang besar yang besar dan SS residu yang kecil sejauh apa? Oleh karena itu digunakan F test dengan melihat rasio mean SS regresi dan mean SS residu

Nah lihat aja tuh signifikansinya..

dengan nilai F yang signifikan, belum tentu nilai slopenya signifikan semua. Tapi kalau F nya tidak signifikan, maka pasti seluruh slopenya tidak signifikan.

Kekuatan hubungan = R2

Karena kuadrat maka hasilnya pasti positif. Dan angka paling kecil 0 dan paling besar 1. Semakin mendekati 1 semakin baik.

Uji-T = Menguji tiap-tiap variable bebas.

Dalam koreasi, 5 variabel bebas yang menentuakn berat bayi, harus di cek dulu korelasinya. Namun sebaiknya hanya korelasi yang kuat saja yang dimasukkan.

Korelasi koefisien

Dilakukan sebelum melakukan regresi linier. Nilai korelasi, paling kecil -1 dan paling beesar 1. Angka caniknya =0. Mendekati 0 hubungannya tidak ada, sedangkan mendekati 1 atau -1 memiliki hubungan yang kuat. Tanda negatif atau positif ditunjukkan dalam slope.

Exercise 1

Melihat hubungan antara masa otot dan umur

Lihat dulu grafiknya:

Teknis:

Grafik:

Graphs – Legacy dialog – Scatter/ Dot

– Y= masa otot

– X= umur

Regresi:

Analyze –> regression –>f linier

Statistic –> klik “confidence intervals”

Alfa = 148.051

Beta = -1.024

Y(masa otot) = 148.051 – 1.024*age

Kalau ada orang yang memiliki umur 60 tahun, jadi masa ototnya adalah 148-1.02*60-86.7grams

Hasil regresi nya baik nggak? Lihat SS (Sum of squares) dan lihat F = rasio dari SS regresi/ df : SS residual/ df

F memiliki nilai semakin besar semakin bagus. Semakin mendekati 0 semakin buruk – good fit or not

LIhat sig. nya.

Uji T yang perlu dilihat adalah yang slope. P value nya signifikan. Atau bias dilihat confidence interval, apakah ada angka 0, jika tidak ada, maka signifikan.

Koefisien determinasi = R2 =67.9%. = kedekatan observasi titik dengan garis yang dihasilkan.

Kalau 100%, semua titik menempel pada garis, sebaliknya jika 0%.

Untuk memilih hasil regresi yang bagus pilih yang=

  • R2 paling tinggi,
  • F nya paling besar,
  • nilai T nya signifikan

Untuk melihat apakah koefisiennya signifikan atau tidak, bisa dilihat dari angka CI nya, apakah melewati angka 0 atau tidak.

REGRESI LOGISTIK

Paling sering disuruh menghitung p.pada ujian.. untuk melihat Probability sebuah kejadian

Membaca hasil: arti dari koefisin (dalam bentuk log). Hasil koefsiisennya dapat dibaca dengan mengeksponensialkan terlebih dahulu.

Contoh:

Variable bebas

  • – age (age)
  • – cholesterol (chol)
  • – systolic (sbp)
  • – BMI (bmi)
  • – Smoke (smoke)

Koding: smoker (1)

Variabel dependent (harus kategori)

  • – Kejadian CHD (coronary heart disease)

Nama variable: CHD69= Ketika umur 69 terkena serangan jantung atau tidak.

Koding = outcome positive = 1

               Outcome negative = 0

Karena Cuma dua kemungkinan hasilnya maka pilih binary logstik

Teknis:

Anlyze –>regression-> binary logsitic

Options – klik CI for exp(B)

Persamaan

Log = -12.336 + 0.64 umur + 0.19 sbp ……

Untuk melihat bagus atau nggaknya, melihat omnibus tests – Chi-square`(kalau di linier regresi itu F test)

T- test di linier regresi kita lihat di sini dari “Wald”. Lihat yang signifikan. Dalam kasus ini semua signifikan. Berarti semuanya berpengaruh terhadap kejadian CHD. Untuk melihat mana yang paling berpengaruh. Bisa dilihat OR/ Exp ( b ) jika semua independent variable adalah kategorikal.

Kita tidak bisa mengintepretasikan B secara langsung. Harus di exponensialkan. Lihat Exp(B) = Odds ratio. = untuk dua orang yang berbeda dengan tiap satuan. dan jangan lupa lihat CI nya untuk melihat sigifikansinya.

Pertanyaan: kalau kedua orang memiliki perbedaan umur 10 thaun berapa OR nya?

Jawab: B*10 tahun. Lalu baru di exponensialkan.

Pertanyaan: mana yang paling berpengaruh?

Jawab: lihat wald nya. Waldnya yang paling besar adalah yagn paling berpengaruh. Dalam hal ini kolesterol. Dan yang paling kecil BMI. Tapi semuanya signifikan

Kalau di regresi linier ada R2, kalau di regresi lgositik, diganti classification table. Sensitifity nya 91.9%. kemiripan observasi dengan model memiliki kemiripan 91.9%. semakin besar atau mendekati 100% semakin baik.

Berapa proporsi risiko jantung jika ada orang memiliki umur 60 tahun, peokok, 253 mg/dl, sistolik =136 dan BMI 25.

Maka hasilnya

image

image

Hasil dari 0.24 artinya adalah probabilitas orang tersebut untuk terkena CHD. kalau 1 berarti orang tersebut sudah pasti terkena CHD, sebaliknya jika nilainya 0

Stepwise

Kita memiliki 5 variable bebas, secara otomatis, akan diseleksi dari 5 variable tersebut, jika ada yang tidak berkolerasi/ bermakna, maka akan dikeluarkan/ exclude sampai mendapat step terakhir yang benar-benar masuk ke dalam model karena variable-variable tersbut yang berpangruh terhadap outcome.

Teknis:

Analyze –> regressionà binary –> Metode : backward conditional

Interkorelasi

Antar variable bebas juga tidak boleh berkorelasi (interkorelasi).

Analyze—> correlate –> bivariate

Ok.. segini dulu deh.. semoga nggak tambah bingung.. yang jelas ini saya buat untuk teknis dan untuk orang awam yang sedang pakai SPSS. Meskipun sebenarnya nggak semudah ini untuk melakukan regresi.. karena harus banyak uji yang dilakukan terlebih dahulu.

 
Tinggalkan komentar

Ditulis oleh pada 09/10/2012 in Kuliah

 

Tag:

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

 
%d blogger menyukai ini: