Basit Lineer Regresyon

Basit Lineer Regresyon Nedir ?

Basit Lineer Regresyon, 2 değişken arasındaki ilişkiyi hesaplamayı sağlayan istatistiksel bir metottur.Tanım sizi korkutmasın,bu ortaokuldan itibaren gördüğümüz
lineer doğru denkleminden başka bir şey değil.Yani elimizde bir bağımsız değişken x olsun, ve buna bağlı olarak değerler alan y değeri olsun.Modelimizi gösterecek formul şöyle olacak:

Y = B*(x) + A + ε(bu epsilon değeri bias yani sapma değeridir.)

Nasıl Çalışır ?

Öncelikle elimizdeki verileri 2 boyutlu (boyut sayısı istediğimiz kadar artabilir fakat basit lineer regresyonda buna girmeyeceğiz.) bir uzayda göstermek isteriz.
Aşağıdaki tabloda veriler kırmızı noktalarla işaretlenmiş :

Modelimizin amacı uzayda işaretli verilerin arasından en az hatayla geçen doğruyu bulup sonraki verileri bu doğruya göre tahmin etmek.Doğrunun denklemi başta verdiğimiz genel denklemin verilen doğrulara göre en az sapma(bias) değerine sahip olan denklemin bulunmasıyla elde edilir.Bu hesaplama, değerlerin birden fazla doğruda yerine konularak hatanın en az olanının seçilmesi yöntemine dayanır.Bu hata hesabı yöntemi RSS(R-Square) olarak tanımlanır.Bir nokta için hata oranı :

(Noktanın tahmin edilen değeri - Noktanın asıl değeri)^2 formülüyle bulunur.

Bu formülün her noktaya uygulanmasıyla modelin toplam hata oranı tespit edilebilir.

Paylaş Yorumlar

Confussion Matrix(Karmaşıklık Matrisi)

Karmaşıklık Matrisi Nedir ?

Karmaşıklık matrisi tahminlerin doğruluğu hakkında bilgi veren bir ölçüm aracıdır.
Arkasında yatan mantık aslında basit, ama ölçümün doğruluğu hakkında anlaşılması kolay bilgiler sağladığı için özellikle sınıflandırma algoritmalarında sıklıkla kullanılıyor.

Nasıl Çalışır ?

Örnek vererek anlatmak sanırım daha anlaşılır olur.Diyelim ki elimizde 2 duruma sahip bir olay var.Mesela 165 tane insana “evinizde bilgisayar bulunuyor mu ?” diye soralım.Bu durumun çıktısını tahmin eden de bir algoritmamız olsun.Durumun karmaşıklık matrisi:

Bekleyeceğiniz gibi matris 2’ye 2 bir matris.2 sütunu algoritmamızın tahmin ettiği durumlar, satırları ise aslında olan durumlar temsil ediyor.Hücrelerdeki kısaltmaların anlamı da:

-True Positive : Algoritma evet çıktısı verdi,asıl durum da evet.
-False Positive : Algoritma evet çıktısı verdi ama asıl durum hayır.
-False Negative : Algoritma hayır çıktısı verdi ama asıl durum evet.
-True Negative : Algoritma hayır çıktısı verdi,asıl durum da hayır.

Şimdi bu matrisimizin bize gösterdiği başlıca özellikler şöyle :

Accuracy:Algoritmamız ne kadar doğru sonuç veriyor? (TP + TN) / Total Number = (100+50)/165 = 0.91

Precision:Algoritmamız asıl durum evet olduğunda ne kadar doğru tahmin ediyor? TP / Total Number = 50/60 = 0.83

Specifity:Algoritmamız asıl durum hayır olduğunda ne kadar doğru tahmin ediyor? TN / Total Number = 100/110 = 0.91

Bunlara ek olarak daha spesifik birkaç özellik daha bulunuyor karmaşıklık matrisinin gösterdiği fakat onlara girmeye pek gerek olmadığını düşünüyorum.İsterseniz algoritmayla ilgili Wikipedia sayfasına giderek bu bilgilere ulaşabilirsiniz.

Ben videodan daha iyi anlıyorum,ne bu böyle yazı kalabalığı diyenler de şurdan Data Science kanalının konuyla ilgili videosunu izleyebilir.

Paylaş Yorumlar