Tidyverse’e giris

Tidyverse, data analizine yardimci olan bir grup R paketidir. Cekirdek Tidyverse paketleri:

  • ggplot2: data goruntuleme icin
  • tidyr: datayi temizlemek icin
  • readr: datayi okumak icin
  • dplyr: datayi manipule etmek icin
  • tibble: ufak degisiklikler yaratilmis data.frame objelerini icerir
  • purrr: fonksiyonel programlama araclari

Temiz data konsepti

Ayni veri, birden fazla sekilde gosterilebilir. Oysa, (genellikle) calismasi en kolay olani temiz verisetidir. Bunun en buyuk sebebi bu ‘tidyverse’ paketini kullanarak R’da data temizleme / hazirlama islemlerini cok daha az zaman ve efor sarfederek gerceklestirebilmemiz ve analize daha fazla zaman ayirabilmemiz.

Temiz datanin karakteristigi olan 3 iliskili kural tanimlayabiliriz:

  1. Her degiskenin kendi sutunu olmali
  2. Her gozlemin kendi satiri olmali
  3. Her degerin kendi hucresi olmali

Simdi tidyverse paketinin icinde olan orneklerden birisini inceleyerek temiz data konseptini daha iyi anlamaya calisalim.

‘table1’; 1999 ile 2000 yillari arasinda Dunya Saglik Orgutu tarafindan Afganistan, Brazilya ve Cin’de gorulen tuberkuloz vakalarinin sayisini ve o yillarde bu ulkelerdeki populasyona dair bilgi iceren bir tablo.

# blog'da tablolarin goruntulenmesini daha iyi yapabilmek icin kable() fonksiyonunu kullanacagiz
# kable() fonksiyonu, knitr paketinin icinde oldugundan onu cagiriyoruz oncelikle. 
> library(knitr) 
> library(tidyverse) 
> kable(table1)
|country     | year|  cases| population|
|:-----------|----:|------:|----------:|
|Afghanistan | 1999|    745|   19987071|
|Afghanistan | 2000|   2666|   20595360|
|Brazil      | 1999|  37737|  172006362|
|Brazil      | 2000|  80488|  174504898|
|China       | 1999| 212258| 1272915272|
|China       | 2000| 213766| 1280428583|

Burada yil basina ulke gozlemsel birimimiz oluyor, tuberkuloz vakasi sayisi ve populasyon ise bu gozlemsel birim basina olan degiskenlerimiz. Bu datanin temiz data konseptine uygun oldugunu goruyoruz, cunku her gozlemsel birimin kendi satiri var, her degiskenin kendi sutunu var ve her degerin kendi hucresi var.

Bir sonraki yazida ayni veri farkli formatlarda verildiginde bunlari kolayca nasil temiz formata donusturebiliriz bundan bahsedecegim.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s