探索資料分析 R


以下的語法都是參考 「輕鬆學習R語言 從基礎到應用,掌握資料科學的關鍵能力」 這本書所作的筆記

iris 是R內建的dataset

nrow(iris) #顯示有幾個觀測值
ncol(iris) #顯示有幾個變數
dim(iris) #顯示有幾個觀測值幾個變數
head(iris)#列出前六個觀測值
tail(iris)#列出後六個觀測值
names(iris)#列出變數名稱
summary(iris)#印出每個變數的描述性統計
str(iris) #顯示資料結構
  • 探索數值與日期(時間)的關係
    x<- seq(from= as.Date(2018-07-01), to= as.Date(2018-07-31), by =1) #建立31天
    set.seed(1) #解釋https://blog.csdn.net/vencent_cy/article/details/50350020 ()為編號,用意為每次隨機抽樣都相等
    y<- sample(1:100, size = 31, replace = T) #隨機從100抽31個數值(可重複)
    plot(x,y, type = l) #type=l表示以線條繪製
  • 探索兩變數關係
    plot(cars$speed, cars$dist)
    plot(iris)
  • 探索類別:建立一個dataset紀錄100個人最喜歡的冰淇淋口味
icecream_favor<- rep(NA, times= 100) #先建立重複100個missing value的vector

for (i in 1:100){
 icecream_favor[i]<- sample(c(vanilla,chocolate, mango, strawberry), size=1)
} #以迴圈隨機填入喜愛口味
icecream_favor
table(icecream_favor) #整理每個口味各有多少個
  • 繪製長條圖探索類別分布

    barplot(table(icecream_favor), horiz = T,las=1,cex.names = 0.7,cex.axis = 1.2)
    #調整為水平方向(horiz = T),文字與坐標軸垂直(las=1),調整Y軸刻度文字大小(cex.names = 0.5),調整X軸文字大小(cex.axis = 1.2)
  • 繪畫函數

    curve(cos, from = -pi, to= pi)
    curve(sin, from = -pi, to= pi)
    curve(tan, from = -pi, to= pi)
  • 自訂函數並繪製出來

my_curve<- function(x){
 return(x^3)
}
curve(my_curve, from = -3, to= 3)
grid()#加上格線
  • 在直方圖上加密度曲線
    myrnorm<- rnorm(1200)
    hist(myrnorm, freq = F) #freq =F 不以頻率表示改成密度
    lines(density(myrnorm))#加上密度曲線

Author: Hung-Lin, Chen
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source Hung-Lin, Chen !
 Previous
在中興大學外使用學校網路 在中興大學外使用學校網路
—>除了校內使用wifi連上興大的網路以外 也可以在家連上,不過要使用一種叫虛擬伺服器的服務 其實學校也有使用教學,可以直接點擊下方連結
2018-07-22
Next 
freeBSD 安裝更新檔(portupgrade&portmaster) freeBSD 安裝更新檔(portupgrade&portmaster)
直接進入主題,freebsd增加了可以自動安裝更新版本的功能後方便了許多 輸入 cd /usr/ports/ports-mgmt/portupgrade 到達這個位置
2018-05-25
  TOC