🐋 Korelasyon Ve Regresyon Analizi Örnekleri
BankacılıkSektöründe R Kullanımı ve Örnekleri. Veri Analizinde Farklı Veri Türlerinin Kullanılması. R’ın Temel Kavramlara Giriş (Değisken, Matriks, Vektör ve Fonksiyonlar) Betimsel İstatistik Analizleri (Histogram, Korelasyon ve Dağılımlar) R ile Verinin Görselleştirilmesi. Modelleme Örnekleri: Karar Ağaçları ve
rap5Nid.
Korelasyon ve Regresyon Analizi Kavramlarını İnceleyelimKorelasyon ve regresyon analizi, istatistiksel analiz raporlarımızda ilişkileri sınamak ve bağımlı değişkenimizi modellemek için kullandığımız tekniklerin başında geliyor. Her iki tekniğin birbirine yakın yönlerinin olması, araştırmacılarda zihin karışıklığı yazımızda korelasyon ve regresyon analizi arasındaki farklılıkları ve benzerlikleri ele tekniklerin en temelinden başlayalım. Esasen geçmiş yazılarımızda her iki tekniğin üzerinde fazlası ile durduk; ama farklı ve benzer olguları şimdi analizi dediğimizde ilk aklımıza gelecek olan şey, araştırma değişkenlerimizin arasındaki ilişkilerin sınanmak ve bu ilişkilerin anlamlılıklarını test etmek sayısal, ister kategorik olsun. Her tür veri için korelasyon analizini uygulayabiliyoruz. Yeter ki doğru değişken tipi için doğru korelasyon katsayısını kullanalım. Korelasyon analizi ile birlikte kimi durumlar için değişkenler arasındaki ilişkilerimizin yönünü ve ilişkilerin gücünü analizinde ise durum biraz daha farklı. Regresyon analizinde de değişkenler arası ilişkilere yönelik çıkarımlarda bulunabiliyoruz. Yani bağımlı değişkenimizi etkileyen bağımsız değişkenlerin etkilerini test korelasyon ve regresyon analizi arasındaki farklar nelerdir?En temel farkların başında ilişkilerin nedensellik durumu analizinde değişkenler arasındaki ilişkilerin nedensellik durumları ile ilgilenmiyoruz. İlgilendiğimiz konular değişkenler arası ilişkilerin anlamlılığı, yönü ve derecesi. Dolayısı ile bağımlı-bağımsız değişken gibi tanımlamalar korelasyon analizi için yapılmıyor. Nedensellik olgusunu korelasyon analizi için dikkate alamıyoruz. Korelasyon analizi bize yalnızca değişkenler arasındaki ilişkinin yönünü ve derecesini verebilir. Hangi değişkenin hangi değişken üzerinde etkisi olabileceğine, alan deneyimlerimize göre ancak biz araştırmacılar karar bir beslenme uzmanı, vücut kitle indeksinin kandaki lipit değerleri üzerinde etkisi olduğunu baştan analizinde durum biraz daha farklı. Artık bağımlı-bağımsız değişken kavramları devreye giriyor ve amacımız bizim için önemli rol oynayan bir bağımlı değişken ile onun üzerinde etkisi olduğu düşündüğümüz bağımsız değişkenleri bir arada modellemek haline dönüşüyor!Yani ilişkilerin nedensel açıdan yönünü, regresyon analizinde dikkate almamız analizini uygularken bağımlı değişkenimiz ile bağımsız değişkenlerimiz arasında nedensellik bağının olması da şart değil. Amacımız, bağımlı değişkenimizi bağımsız değişkenlerimizden hareketle tahmin edecek bir model teknik gibi gözükse de ayrım oldukça basit. Korelasyon analizinde değişkenlerin yönüne bakmaksızın salt ilişkilere bakarız, regresyon analizinde ise ilişkilerin yönü çoğunlukla bellidir. Nedensellik olmasa bile, bağımsız değişkenlerimizi kullanarak bağımlı değişkenimizi tahmin olguyu şöyle örneklendirelimBabası akciğer kanseri olmuş bir yetişkinin akciğer kanseri olma olasılığı, kuşkusuz genetik faktörlerden etkilenir. Biz de bu gözlemlerimizden hareketler annesi ya da babası akciğer kanseri olan bir yetişkinin de akciğer kanseri olabileceğini nedensellik anne ya da babadan çocuğa akciğer kanseri olması anne ya da babanın akciğer kanseri olmasını etkiler mi? Elbette etkilemez!Peki çocuğun akciğer kanseri olmasından hareketle annesi ya da babasını görmeden akciğer kanseri olabilecekleri hakkında bir fikir yürütebilir miyiz? Tabi ki gibi, nedensellik olmasa bile tahmin ekonomilerine yönelik faiz ve enflasyon arasındaki ilişkiyi modellemek için şöyle bir regresyon modeli kurduğumuzu düşünelimENFLASYON = + x FAİZBu modelden hareketle faiz oranı belli olduğu durumlar için enflasyon oranını tahmin edebiliriz. Mesela faiz oranı %10 olan bir ülkenin enflasyon oranı da % olarak kolayca tahmin analizinde tahmin yapmak gibi bir amacımız yoktur. Yaptığımız tek şey, ilişkiler hakkında genel bir değerlendirmede regresyon analizinde değişken seçimi, modelin lineer-nonlineerliği gibi pek çok farklı olguyu dikkate almamız gerekirken, korelasyon analizinde böyle bir zorunluluğumuz da korelasyon ve regresyon analizinin benzer yönleri yok mu? Tabi ki ilişkilerin anlamlılığı noktasında bu iki analiz korelasyon, hem de regresyon analizinde de değişkenler arası ilişkilerin anlamlılığını test edebiliriz. Regresyon analizinde bağımsız değişkenlerin bağımlı değişkenler üzerinde anlamlı etkisinin olup olmadığı incelenirken, korelasyon analizinde tüm değişkenler için ilişkilerin anlamlılığına bir nüans farkı olmasına rağmen, her iki analiz de bu noktada birbirine hizmet analizi sayesinde bağımsız değişkenler arasındaki ilişkileri inceleyerek çoklu bağlantı probleminin varlığını araştırabiliyoruz. Ayrıca değişken seçimi için de bir ön adım olarak korelasyon analizini ve regresyon katsayılarının işaretleri konusunda da iki analiz ortak bir noktada analizinde negatif çıkan katsayılar, regresyon analizinde elde edilen beta katsayıları için de negatif çıkar. Benzer şekilde pozitif olan korelasyon katsayıları için de regresyon katsayıları pozitif durum her zaman sağlanmayabilir ve bunun ilk sebeplerinin başında da yine çoklu bağlantı belası gelir!Ancak korelasyon ve regresyon analizinin bu birlikteliği sayesinde yine potansiyel problemleri teşhis ve regresyon analizi hem paket programlarda, hem de ücretsiz açık kaynak kodlu yazılımlarda da uygulanabilir. Örneğin; SPSS programında farklı korelasyon ve regresyon analizi teknikleri uygulanabilmektedir. R yazılımında da, Minitab programında da, Stata yazılımında da her iki tekniğe yönelik çözümler analizlerin uygulama menüleri ve kodlamaları birbirlerinden oldukça farklıdır. Bu olgu hem menü, hem de kod tabanlı istatistiksel programlar için regresyon analizi için Analyze -> Regression adımlarını seçerken, korelasyon analizi için Analyze -> Correlate adımlarını yazılımında da lineer regresyon analizi için lm fonksiyonunu kullanırken, korelasyon analizi için de cor fonksiyonunu ve regresyon analizinin kullandığı teknikler de oldukça farklıdır. Mesela iki ordinal kategorik değişken arası ilişkiler korelasyon için Spearman korelasyon katsayısı ile değerlendirilebilirken, regresyon için de ordinal lojistik regresyon analizi ile nedensellik, tahmin ve modelleme açısından korelasyon ve regresyon analizi arasında ciddi farklılıklar varken; değişkenler arası ilişkilerinin sınanması noktasında ortak yönler bulunmaktadır.
Bu eğitimde doğrusal regresyon gerçekleştirmek için SPSS nasıl kullanılacağını göstereceğim. Bu doğrusal regresyon denklemi belirlemek için SPSS kullanacağız. Bu örnek, sizin Spssye sahip olduğunuzı var sayar Ait SPSS Başlat tıklayın Programlar Windows için SPSS SPSS Windows için Doğrusal regresyon Doğrusal regresyon iki değişken arasındaki ilişkinin doğası belirtmek için kullanılır. Bakarak bir başka yolu da, tek değişkenli SPSS bağımsız değişken olarak adlandırılır değeri verilir, nasıl SPSS bağımlı değişken olarak adlandırılır başka bir değişkenin değerini tahmin edebilirsiniz? Bir gerçekleştirmek istediğiniz unutmayın saçılım ve korelasyon Eğer lineer regresyon gerçekleştirmeden önce varsayımlar yerine getirildiğini görmek için. Lineer regresyon komut analiz de bulunur Regresyon Çizgisel bu pencerenin üstündeki analiz menü öğesi tıklayarak, ve sonra menü açılır menüden Regresyon tıklayarak, ve menü pop Doğrusal için kısaltmadır. Doğrusal regresyon iletişim kutusu görüntülenir Eğer Doğrusal regresyon iletişim kutusunun sol bölmesinde üzerine tıklayarak tahmin etmek istediğiniz değişkeni seçin. Sonra Bağımlı kutusuna değişken taşımak için üst ok düğmesini tıklayın Bunu tıklayarak dayalı tahmini Doğrusal regresyon iletişim kutusunun sol bölmesinde olduğu istediğiniz tek bir değişken seçin. Eğer Bağımsız kutusuna birden fazla değişken taşırsanız, o zaman çoklu regresyon seslendirecek. Bu çok yararlı bir istatistiksel işlem olsa da, genellikle yüksek lisans dersleri için ayrılmıştır. Daha sonra Bağımsız yanındaki ok düğmesini tıklayın s kutusu Bu örnekte, dışa dönük değişkenin değerini verilen "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" değişkenin değerini tahmin ediyorlar. Sen İstatistikler butonuna tıklayarak bağımsız ve bağımlı değişkenlerin tanımlayıcı istatistikleri yazdırmak için SPSS talep edebilirsiniz. Bu İstatistik iletişim kutusu görüntülenmesine neden olur Seçmek için Veriler tanımlayıcı yanındaki kutusunu tıklatın. Devam butonuna tıklayın. Doğrusal regresyon iletişim kutusunda, regresyon gerçekleştirmek için Tamam'a tıklayın. SPSS Çıktı Görüntüleyici çıktı görüntülenir Çıkış Tanımlayıcı İstatistik bölümü ortalama, standart sapma ve bağımlı ve bağımsız değişkenlerin her biri için gözlem sayısı N verir. Örneğin, "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" değişken ortalama değeri vardır. Çıkışının korelasyonlar kısmı korelasyon gösterir. Bu çıkış korelasyon prosedürü çıktı daha farklı bir şekilde organize edilmiştir. Ilk satırı bağımsız ve bağımlı değişkenler arasındaki korelasyon verir. Daha önce olduğu gibi, arasındaki korelasyon ve kendisi ve dışa dönük ve dışa dönük arasında "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" olması gerektiği gibi, 1'dir. Ve dışa dönük "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" arasındaki korelasyon - .310, biz korelasyon prosedürden bulunan aynı değeri olan. Bir sonraki satır korelasyon katsayılarının önemini verir. Bu yorumlamak için korelasyon öğretici tartışma bakın. Daha önce olduğu gibi, daha çok evde kalmak ve dışa dönük arasında doğrusal ilişki olsaydı biz korelasyon katsayıları bu büyük gözlemlemek olası değildir. Son satırın değişkenlerin her biri için gözlem sayısı ve tüm bağımsız ve bağımlı değişkenler için değerleri gözlem sayısını verir. Değişkenler Giren / çıkış sadece hangi bağımsız değişkenler denklemin bir parçasıdır bu örnekte dışa dönük ve ne bağımlı değişkendir bu örnekte "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" devletlerin bir parçası kaldırıldı . bu size tahmin etmek istediğiniz, size istediğiniz ne olduğundan emin olmak için bu kontrol edin "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" dışa dönük puan verilecektir skor. Eğer çoklu regresyon gerçekleştirirken çıktı Modeli Özet kısmı çok yararlıdır yaptığımızı değil hangi. Sermaye R birden fazla bağımsız değişkenlerin bağımlı değişken ile ilgili ne kadar güçlü söyler çoklu korelasyon iki değişkenli durumda biz ne yaptığını R = r çoklu korelasyon iki değişkenli korelasyon mutlak değerine eşittir. R kare bize belirleme katsayısı verir gibi yararlıdır. Çıktının ANOVA kısmı bizim için çok yararlı değildir. Temelde regresyon denklemi bağımsız değişkenler değişkenlik gelen bağımlı değişken olarak değişkenlik istatistiksel olarak önemli bir bölümünü açıklayan olup olmadığını söyler. Çıkış Katsayıları kısmı bize regresyon denklemi yazmak için gereken değerleri verir. Regresyon denklemi şeklinde olacaktır Öngörülen değişken bağımlı değişken = eğim * bağımsız değişken + kesişim Eğim hat regresyon çizgisi ne kadar dik. 0 bir eğimi yatay bir çizgi, 1 bir eğim alt soldan üst sağa diyagonal bir çizgi ve bir dikey çizgi sonsuz bir eğime sahiptir. Bağımsız değişken 0 değeri olduğunda regresyon hattı Y ekseni grev nerede kesmek olduğunu. Tahmin değişken kutulu tablo altında verilen bağımlı değişkendir. Bu durumda "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum." Dir. Eğimi bağımsız değişken dışa dönük bu durumda ve bu örnekte B. etiketli sütun ile etiketli hattının kesiştiği noktada bulunan, eğimi -0,277 eşittir. Bağımsız değişken dışa dönük kesişim etiketli hattı Sabit kesiştiği ve bu örnekte B. etiketli sütun bulunur biz regresyon kurarken. Belirtildi idi, kesişim olduğunu. Hepsini bir araya getirirsek, regresyon denklemi = -0,277 Dışa dönük X değeri + "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" tahmin edilen değeri Bu bir kişinin 2 bir dışa dönük puan varsa, biz tahmin ediyorum, yani kendi -0,277 olurdu puan "Ben daha çok arkadaşlarımla dışarı çıkmak daha evde kalmak istiyorum" X 2 + = Böylece, onlar 2 dışa dönük soru üzerine dışadönük olduğu deyimi ile kabul eder bir kişi muhtemelen onlar yerine evde kalmak ve 4 [~ arkadaşlarıyla birlikte dışarı çıkmak daha okurdum ifadeye katılmıyorum olacağını tahmin olur ] üzerinde "Ben yerine evde kalmak ..." soru. r küçük değeri göz önüne alındığında, bizim tahmin, genel olarak, çok doğru olmayacaktır.
Korelasyon ve Regresyon İki Değişkenli Analizler Bu bölümde sayısal olarak kodlanmış iki veya daha fazla değişken arasındaki ilişkileri anlamaya çalışacağız. İstatistiki modellerde çoğunlukla çıktı değerini ifade eden bir bağımlı değişken ve bu çıktı değerini etkileyen bir veya daha fazla girdi değişkeni bağımsız değişkenler/açıklayıcı değişkenler bulunur. Bağımlı değişken “y” harfi ile gösterilirken bağımsız değişkenler ise “x” harfi ile gösterilir. İlk aşamada sadece bir bağımlı ve bir bağımsız değişken ile örneklerimizi oluşturacağız. İki nümerik değişken arasındaki ilişkiyi en hızlı ve etkili şekilde anlamak için çoğunlukla “saçınım grafikleri/scatter plots” kullanılır. Saçınım grafikleri x ve y boyutlarının eksenlere işlendiği ve her bir noktanın ilgili değişken değerine denk geldiği grafik tipidir. İlke olarak saçınım grafiklerinde bağımlı değişken y ekseninde, bağımsız değişken ise x ekseninde gösterilir. Bu bölümde 2018 Haziran ve 2015 Kasım seçim sonuçlarını il bazında barındıran “dat” isimli veri tabanı kullanacağız. Öncelikle bu veri tabanını yükleyelim. dat % filter mhp2018 > 45 %>% dplyrselect NAME_TR NAME_TR 1 HARRAN Korelasyon Yukarıdaki örneklerde ilişkilerin yapısını gözlemledik ama kuvvetlerini sayısal hale dönüştürmedik. İlişkilerin kuvvetini belirten sayısal değeri ortaya koyan istatistiğe korelasyon denir. Korelasyon değeri/katsayısı -1 ve +1 değerleri arasında yer alır. Buradaki - ve + değerleri ilişkinin yönünü pozitif/aynı yönde ve negatif/ters yönde olmak üzere tanımlar. Korelasyon katsayısının büyüklüğü ise ilişkinin kuvvetini betimler. Bu değer “+1”e yaklaştıkça kuvvetli aynı yönde ilişki ve “-1”e yaklaştıkça ise ters yönde kuvvetli ilişki saptanmış olur. “± e yakın değerler orta seviye ilişkiyi, “± yakın değerler zayıf ilişkileri ifade eder. Lineer bir ilişkinin olmadığı durumlarda korelasyon katsayısı “0” değerine yakın olur. Korelasyon katsayısı hakkında unutulmaması gereken bir nokta bu katsayının lineer ilişkiler için kuvveti hesaplıyor olmasıdır. Dolayısıyla korelasyon katsayısının bir anlam ifade etmesi için ilişkinin lineerliği kontrol edilmelidir. Aşağıdaki grafikte gösterilen karesel ilişkinin korelasyon katsayısı hesaplandığında “0” değerine yakın çıkacaktır ama bu değişkenler arasında ilişki olmadığı anlamına gelmez. Karesel ilişki İstatistik bilimi içerisinde korelasyon değeri çeşitli yöntemler ile tanımlansa da en sık kullanılanı kısaca “r” değeri olarak bilenen “Pearson product-moment correlation” adıyla bilenen hesaplama yöntemidir. Teknik notasyonunu aşağıda görebilirsiniz. Korelasyon Formülü corx,y fonksiyonu x ve y değişkenleri arasındaki korelasyon katsayısını hesaplar. Aşağıdaki kod CHP parti adayı ve parti oyu arasındaki korelasyonu hesaplıyor. Son kısımda bulunan use= argümanı veride bulunabilecek NA değerlerini yani kayıp veriyi hesaba katmadan bu işlemi gerçekleştirmek için kullanılır. kor_chp % summarizeN = n, r = corchp2018, mi, use = " kor_chp N r 1 970 Görüldüğü üzere Muharrem İnce ve CHP oyları arasında aynı yönde ve kuvvetli bir ilişki bulunuyor. Korelasyon analizlerinde asla unutulmaması gereken bir konuya dikkat çekmek gerekir. Korelasyon değişkenler arasındaki bağlantıya işaret eder ama değişkenler arasında nedensellik kurmaz. Yani bir korelasyon testinde yüksek çıkan r katsayısı, x değişkenindeki değişime y değişkenindeki değişkenliğin neden olduğu anlamına gelmez. Bu kullanım hatasına, sıkça, gazetelerde yayınlanan bilimsel araştırma haberlerinde rastlayabilirsiniz. Özetle KORELASYON NEDENSELLİK GÖSTERMEZ! Basit Lineer Regresyon Regresyon bir bağımlı değişken ile bir veya birden fazla bağımsız değişken arasındaki ilişkinin incelenmesi için kullanılan istatistiki yönteme verilen isimdir. Regresyon testleri iki amaç için kullanılır tahmin ve nedenselliğin incelenmesi Buradaki amaç bağımlı değişkeni tahmin etmek için bağımsız değişkenlerin gözlemlenmiş değerlerini kullanarak bir formül üretmektir. Örn Salıverilmiş bir suçlunun tekrar tutuklanması ihtimalinin kestirimi için, işlediği suç, yaşı, daha önce işlediği suç miktarı gibi değişkenlerin kullanımı Nedensellik Bu analizde bağımsız değişkenler bağımlı değişkenin “nedenleri” olarak varsayılır. Amaç varsayılan bağımsız değişkenlerin gerçekten bağımlı değişken ile bağlantısı olup olmadığını ve varsa bu bağlantının boyutunu anlamaktır. Lineer regresyona bu isimin verilmesinin nedeni doğrusal olması yani doğrusal bir denklem kullanmasından kaynaklanır. Doğrusal denklem ise adını grafik olarak çizildiğinde bir doğru üretmesi nedeniyle alır. Doğrusal denklem bağımlı değişken üzerinde tek bir bağımsız değişken incelendiğinde net olarak görünür. Bu denklemde “y” bağımlı değişken, “a” kesen, “b” eğimkatsayı ve “x” ise bağımsız değişkeni ifade eder. Regresyon analizinde çoğunlukla birden fazla bağımsız değişken kullanılır. Böylece bir bağımsız değişkenin etkisine bakılırken diğer bağımsız değişken kontrol edilmiş olur. Bir önceki örneğe “yaş” değişkenini de katalım. GELİR = 6000 + 800 x Eğitim Yılı +400 x Yaş 14 yıl eğitim almış 40 yaşında birisinin gelirini hesapladığımızda GELİR = 6000 + 800 x 14 +400 x 40 = 33200 Bu hesaplamanın yazımı ise aşağıdaki gibidir. Regresyon analizlerinde nümerik değerler veya kategorik değişkenlerin nümerik halleri kullanılır. Rastlantısal çekilmiş örneklemin ürettiği gözlemler ve vaka sayısının artması analizin kuvvetini arttırır. Eğer değişkenin sadece iki kategorisi varsa örn evet - hayır değişkenlere sayı değerleri verilerek regresyon analizi için kullanılır hale getirilebilir. Bu değişkenlere “göstermelik değişken” veya “kukla değişken” denir. Regresyon formülünde bulunan katsayıların a ve b1, b2, … ler hesaplanması için başvurulan yöntemlerin en popüleri OLSOrdinary Least Squares/En Küçük Kareler yöntemidir. Regresyon katsayıları bilindiğinde doğrusal denklemi kullanarak bağımlı değişkeni tahmin edebiliriz. Kesen değeri 0 x, eğitim katsayısı b1 1000 ve yaş katsayısı b2 500 olarak tanımlanmış lineer denklemi sınayan aşağıdaki örneğe bir göz atalım Şekilden de görüldüğü üzere bu katsayıları kullanarak yapılan 3 hesaplamada 1. ve 3. hesaplamalarda belli bir hata payı oluştu. 2. hesaplama tamamen şans eseri bir hata üretmedi!. Hiç hatasız bir tahmin yapmak sosyal bilimlerde mümkün olmadığından amaçlanan şey en az hatadır ve en küçük kareler kriteri de bu kullanılan katsayıları en az hata ile saptamak için kullanılır tahminde gerçekleşen hataların kareleri alınıp toplandığında en ufak değerin oluşması hedeflenir. Örnekte oluşan hatalar 9000’ın karesi 81000 0’ın karesi 0 9000’ın karesi 81000 ….. ….. Toplam 12,296,499,985 Acaba bu değer olası en küçük değer midir? Bu hesabı bilgisayara yaptırttığımızda oluşan regresyon katsayıları ve formülü GELİR = - 25965 + 2057 x Eğitim Yılı + 600 x Yaş Kareler toplamı 9,364,695,694 bizim tahminimizden %24 daha küçük Bu denklemden şunu anlıyoruz gelir geçirilen her bir yıl fazla eğitim için 2057 lira ve fazladan her yaş için 600 lira artmaktadır. Regresyon ile tahmin geliştirebiliriz ama bu tahminin ne kadar güçlü olduğunu anlamak için belirleme katsayısı R2 Coefficient of determination isimli başka bir teste daha ihtiyaç duyulur. Bu denklem için R2 değeri olarak hesaplandı. Buradan şu anlaşılmaktadır Eğitimde geçirilen yıl ve yaş gelirdeki değişikliğin yüzde 28’ini açıklar. Son olarak katsayıların kuvvetinin yorumlanması konusuna değinelim. Regresyon analizi sonucunda oluşan katsayıların kuvvetini anlamak için hipotez testi kullanılır. Bir bağımsız değişkenin bağımlı değişken üzerinde etkisi yoksa katsayısı sıfır olacaktır. Hipotez testi ile sıfır değerinden farklı bir katsayı üretildiğinde bu katsayının hata sonucu oluşup oluşmadığını anlamak mümkün olur. Hipotez testi ile sorumuza Katsayı sıfırdan farklı ama bu durum gerçekten böyle mi? basit “evet hatalı” veya “hayır hatasız” cevabı vermez. Hipotez testi ile bu duruma ait hatalı olma veya olmama bir olasılık hesabı yapılır. Bu hesaptan çıkan değer “p” değeri olarak adlandırılır. p değeri katsayıların standart hatalarına bölünmesi ile bulunan “t” değeri ile saptanır. p değerinin düşük çıkması katsayının sıfırdan farklı olduğunun kanıtı olarak değerlendirilir. Örneğimizde yaş için katsayı olan 600 standart hata olan 210 a bölündüğünde, t değeri olarak elde edilir. t değeri olan p değeri .005 civarındadır. Bu sonuçtan şu yorum yapılır Eğer yaş için gerçek katsayı sıfır olsaydı yani bu bağımsız değişkenin bağımlı değişken üzerinde hiçbir etkisi bulunmasaydı, bu OLS ile hesapladığımız regresyon katsayısını bulma olasılığımız, .005, binde 5, iki yüzde bir olacaktı. Yani katsayının sıfırdan farklı olma olasılığı gayet yüksektir. İlkesel olarak düşük p değerleri katsayıların sıfırdan farklılığının ve dolayısıyla katsayıların gücünün ispatı olarak yorumlanır. Sosyal bilimler analizlerinde regresyon katsayılarına ait p değerlerinin .05 veya düşük olması genel bir beklentidir. Lineer Regresyonun Görselleştirilmesi Lineer regresyon modelleri saçınım grafiği üzerinde düz bir çizgi ile görselleştirilir. Bu düz çizgi tüm noktalara uzaklığı en aza indirgeyerek saçınım grafiğinde bulunan noktaların arasından geçer. ggplot2 paketinde bulunan geom_smooth fonksiyonu saçınım grafikleri üzerine regresyon modelini çizmek için kullanılır. Bu fonksiyon eğer lineer regresyon modelini çizmek için kullanılıyorsa “lm” argümanı le beraber kullanılmalıdır. Şimdi 2018 seçim verimizi kullanarak İyi Parti oyları ile Meral Akşener oylarını saçınım grafiğine yerleştirelim. libraryggplot2 ggplotdata = dat, aesx = iyi2018, y = ma + geom_point Şimdi aynı grafiğe regresyon modeline ait çizgiyi ekleyelim. ggplotdata = dat, aesx = iyi2018, y = ma + geom_point + geom_smoothmethod = "lm", se = FALSE Bu modelin çizginin ne anlama geldiğini anlamak regresyon analizi için son derece önemlidir. İstatistiki modeller bağımlı değişkeni bağımsız değişkenin bir fonksiyonu olarak tanımamakla beraber işin içine açıklanamayan ve rastlantısal olduğu varsayılan bir bileşke ekler. Modellerde bu bileşke noise/gürültü olarak adlandırılır ve hem sabit bir standart sapmaya sahip olduğu hem de rastlantısal olarak dağıldığı varsayılır. Anlatılanı notasyona dökersek Y bağımlı değişken, beta 0 kesen, beta bir eğim/katsayı, epsilon ise gürültüyü temsil etmektedir. Eğer denklemden epsilonu çıkarırsak bu fonksiyon gözlemler üzerinden hesaplanmış değerleri ortaya koyan bir fonksiyon haline gelir. Bu tip fonksiyonlar ise “şapka”lı olarak yazılır Y ve şapkalı Y arasındaki fark ise Y’nin gerçekte gözlemlenen değeri, şapkalı Y’nin ise modelin hesapladığı bağımsız değişken değerini ifade etmesinden kaynaklanır. Y ve şapkalı Y arasındaki fark ise residual/artık değer olarak adlandırılır. Dolayısıyla şapkalı Y’yi elimizdeki bağımsız değişken x’i kullanarak yapabildiğimiz en iyi tahmin olarak düşünebiliriz. Regresyon Modellerinin Yorumlanması Şimdi openintro paketinde bulunan bdims verisi ile bazı modeller oluşturalım. Bu veri tabanında bulunan wgt değişkeni deneklerin kilosunu, hgt değişkeni ise boylarını ifade ediyor. libraryopenintro databdims headbdims 1 2 3 4 5 6 1 2 3 4 5 6 age wgt hgt sex 1 21 1 2 23 1 3 28 1 4 23 1 5 22 1 6 21 1 Deneklerin kilolarını boylarının bir fonksiyonu olarak tanımlayan model için kod aşağıdaki gibi yazılır lmwgt ~ hgt, data = bdims Call lmformula = wgt ~ hgt, data = bdims Coefficients Intercept hgt Yukarıdaki hesaplamayı notasyon olarak aşağıdaki gibi yazılır Bu notasyona göre lineer modelimiz deneklerin boylarında hgt gerçekleşen bir birimlik artışın ki buradaki birim cm olarak kaydedilmiş, deneklerin kilolarında wgt birimlik ki burada kilo cinsinden kaydedilmiş bir artışa denk geldiği tahmin etmektedir. Tahmin etmektedir diyoruz zira wgt şapka altında ifade edilmiş. Daha düz bir Türkçe ile fazladan her bir cm kabaca bir kiloya denk gelmektedir. Regresyon modellerini R nesnesi olarak sakladığımızda modelin içinde bulunan birçok bilgiye de erişme şansımız olur. Yukarıdaki modeli “mod” adı ile kaydedelim ve model ile ilgili bilgilere summary fonksiyonu ile erişelim. mod t Intercept 62.... $ hgt 18... $ .fitted 7... $ . $ .resid -... $ .hat $ .sigma 9... $ .cooksd $ . Regresyon modellerinin en önemli özelliklerinden biri modelde tahmin edilen değerleri fitted values modelin kullandığı değerlerden başka değerler üzerinde kullanarak tahmin üretmesidir. Buna “örneklem dışı tahmin/out-of-sample prediction” adı verilir. Yukarıdaki regresyon işlemi kişilerin kilolarını boylarının bir fonksiyonu olarak modellemişti. Ağırlığı kg ve boyu olan bir deneğe ait olan tek gözlemli bir veri tabanı yaratalım ve modelimizi bu veri tabanı üzerinde predict fonksiyonu ve newdata argümanı kullanarak çalıştıralım. Bu işlem için yeni veri tabanının kullandığı bağımlı ve bağımsız değişken isimlerinin aynı olması gerekir. yeni veri tabanı wgt 150377422259, 260483376854, 320432342985, 280405224... $ duration 3, 7, 3, 3, 1, 3, 1, 1, 3, 7, 1, 1, 1, 1, 7, 7, 3, ... $ nBids 20, 13, 16, 18, 20, 19, 13, 15, 29, 8, 15, 15, 13, ... $ cond new, used, new, new, new, new, used, new, used, use... $ startPr $ shipPr $ totalPr 53... $ shipSp standard, firstClass, firstClass, standard, media, ... $ sellerRate 1580, 365, 998, 7, 820, 270144, 7284, 4858, 27, 201... $ stockPhoto yes, yes, no, yes, yes, yes, yes, yes, yes, no, yes... $ wheels 1, 1, 1, 1, 2, 0, 0, 2, 1, 1, 2, 2, 2, 2, 1, 0, 1, ... $ title ~~ Wii MARIO KART & WHEEL ~ NINTENDO Wii ~ BRAN... Buradaki modelde amacımız tek bir değişken ile değil, birden fazla değişken kullanarak oyunun fiyatınıtotalPr modellemek olacak. Bunun için oyunun kullanılmış veya sıfır olduğunu içeren cond değişkenini, oyun paketi ile beraber verilen direksiyon adedini gösteren wheels değişkeni ile beraber kullanacağız. Bu tipteki yani bir nümerik direksiyon sayısı bir de kategorik değişken kullanılmış/used veya sıfır durumda/new içeren modellere “paralel eğimler modeli/parallel slopes model” adı verilir. Aşağıdaki kod bu işlemi gerçekleştiriyor. mario_model t Intercept 53... $ wheels 1, 1, 1, 1, 2, 0, 0, 2, 1, 1, 2, 2, 2, 2, 1, 0, 1, ... $ cond new, used, new, new, new, new, used, new, used, use... $ .fitted 4... $ . $ .resid $ .hat $ .sigma 4... $ .cooksd $ . ... Grupları kullanılmış veya sıfır durumda renk ile ayrıştıran saçınım grafiği mario_grafik t Intercept % mutatenoise = rnormnrowmarioKart yeni model oluşturalım mario_model2 t Intercept 1 1 new 2 1 used 3 1 new 4 44 1 new 5 71 2 new 6 45 0 new 7 0 used 8 2 new 9 47 1 used 10 50 1 used ... with 131 more rows, and 1 more variable . Etkileşim terimleri Regresyon modellerinde kullandığımız bağımsız değişkenler bağımlı değişkenler üzerinde kimi zaman beraberce etki üretebilirler. Oyun konsolu örneğini düşünelim bir oyun konsolunun fiyatını ebay’de açık arttırmada durduğu süre ve kullanılmış olup olmadığına göre modelleyebiliriz, zira bu her iki özellik de bağımsız olarak oyun konsolunun fiyatını belirler. Ancak eğer bir konsol hem kullanılmış hem de uzun süre açık arttırmada duruyorsa, yani uzun süredir satılmadıysa, fiyatının daha düşük olması gerektiğini de düşünebiliriz. Bu gibi durumlarda düşündüğümüz değişkenleri modelimize etkileşim değişkeni interaction term olarak ekleyebiliriz. Bu iş için aşağıdaki kod şablonu kullanılır. lmy ~ x + z + xz, data = veritabanı Yukarıdaki örnekte x ve z değişkenlerinin etkileşimi modele “” işareti kullanılarak üçüncü bir değişken olarak eklenmiş. Şimdi oyun konsolu ile ilgili yukarıdaki örneği modelleyelim. Modelde kullanılan “totalPr” konsolun fiyatını, “duration” konsolun açık arttırmada kaldığı süreyi ve “cond” ise konsolun kullanılmış olup olmadığını ifade eden değişkenlerdir. lmtotalPr ~ duration + cond + condduration, data = marioKart Call lmformula = totalPr ~ duration + cond + condduration, data = marioKart Coefficients Intercept duration condused durationcondused Etkileşim modellerdeki eğimlerin birbirine paralel olmaktan çıkartır. Yukarıdaki model için bu cümleyi uygularsak; konsolun fiyatı ile açık arttırmada durduğu süre arasındaki ilişki, konsolun kullanılmış olup olmadığı tarafından şekillendirilmektedir moderated. Yukarıdaki modeli ggplot ile grafiklediğimizde, “cond” değişkeni için birbirine paralel olmayan iki ayrı regresyon çizgisi oluştuğunu görürüz. etkileşim grafiği ggplotmarioKart, aesy = totalPr, x = duration, color = cond + geom_point + geom_smoothmethod = "lm", se = FALSE Yukarıdaki grafikten de anlaşılacağı üzere bir konsolun fiyatı açık arttırmada geçirdiği süre dikkate alınarak değerlendirildiğinde o konsolun kullanılmış olup olmaması fiyat üzerinde farklı bir etki yaratmaktadır. Bu duruma yani iki değişken arasındaki ilişkinin, bağımsız değişkenin alt gruplara/kategorilere bölündüğünde yön değiştirmesine Simpson Tezatı adı verilir. Bir oyun konsolunun açık arttırmada geçirdiği süre arttıkça fiyatının düşmesini bekleyebiliriz. Satıcıların ürünleri satılmadıkça fiyatları düşürme eğilimine girmesi gayet doğaldır. Aşağıdaki grafik bu ilişkiyi regresyon modeli ile anlatmaktadır. slr z Intercept *** GPA *** - Signif. codes 0 '***' '**' '*' '.' ' ' 1 Dispersion parameter for binomial family taken to be 1 Null deviance on 54 degrees of freedom Residual deviance on 53 degrees of freedom AIC Number of Fisher Scoring iterations 4 Oluşan modeli grafikleyelim ac_model2 1 0 2 1 3 1 4 1 5 1 6 1 7 1 8 0 9 1 10 1 ... with 45 more rows Ouluşan tablodaki “.fitted” sütunu modele göre her bir öğrencinin üniversiteye kabul edilme ihtimalini olasılık olarak ifade ediyor. Örneğin modelimiz 7. satırda bulunan ve ortalamaya sahip öğrencinin üniversiteye kabul edilme olasılığını yüzde 88 olarak hesaplıyor. Yukarıdaki tabloda aslında bu öğrencinin gerçekten üniversiteye kabul edilip edilmediğini de “Acceptance” sütunundan görebiliyoruz. Bu açıdan bakıldığında olasılık cinsinden tahmin yerine ikili tahmin, kabul veya red, yapma şansımız ortaya çıkar. Böylece modelimizin ne kadar başarılı olduğunu anlayabiliriz. Aşağıdaki kod bu işlemi gerçekleştiriyor. Modelimizin olasılık tahminini içeren sütuna " ve gerçekten kabul edilme durumunu belirtilen sütununa "gerçek durum "adını verelim ve veri tabanını yaratalım ac_model3_t % mutate = round.fitted %>% mutate = Acceptance confusion matrix ac_model3_t%>% select %>% table 0 1 0 16 9 1 6 24 “Confusion matrix” adı verilen bu tablodan şunu anlıyoruz modelimiz 22 öğrencinin red, 33 öğrencinin kabul alacağını tahmin ederken yukarıdan aşağıya okuma, gerçekte 25 öğrenci red 30 öğrenci kabul almış sağdan sola okuma. Hem modelin hem de gerçek durumun kesiştiği diyagonaldeki 16 ve 24 sayılarını toplayıp toplam gözleme böldüğümüzde modelin başarısını hesaplamış oluruz 40/55 =
korelasyon ve regresyon analizi örnekleri