跳到主要內容區塊

R軟體資料分析應用—模擬樞紐分析資訊室

  發刊期數:第0508期/ 發布日期:111/10/07

R軟體是一套免費的統計計算及繪圖軟體,可以在廣泛的作業系統上運行,包含UNIX、Windows或MacOS,本文將以Windows為例,介紹如何使用R軟體,分為下載軟體、資料匯入、資料篩選、樞紐分析及資料視覺化。

一、下載R軟體

首先可以到R軟體官方網站(網址:https://www.r-project.org/),點選CRAN後,選擇台灣鏡像站,選擇所需要的作業系統種類(本文係以Windows作業系統為範例),最後,選取base並下載安裝檔,安裝完成後,點選R軟體程式,即可看到使用者介面如圖 1。

二、設定工作目錄及資料匯入

(一)資料來源說明

本文範例係下載政府資料開放平台「自來水用水量」的CSV檔案(資料來源:https://data.gov.tw/dataset/16932),下載的檔案放置於C槽的rawdata資料夾。

(二)使用getwd查詢預設工作目錄,setwd設定工作目錄

使用getwd(),可以查詢得知預設工作目錄是在我的文件,使用setwd()將工作目錄設定至範例檔案放置的C槽rawdata資料夾,需要注意的是windows作業系統檔案位置所使用\,無法被辨識,必須統一修改為/。

(三)使用read.table將資料匯入R

使用read.table指令把檔案讀入,括號的第一個欄位是放資料的檔案路徑;第二個欄位所寫header=TRUE,表示資料的第一列是否為變數名稱(預設值是沒有標題列),因為本次範例所使用的開放資料有標題列,所以參數設定為TRUE;第三個欄位所寫的sep=",",表示區隔符號,本次範例是用逗號來區隔資料(預設值是空白字元);第四個欄位所寫fileEncoding="UTF-8",表示檔案編碼格式,本次範例是UTF-8,如圖 2。

三、資料篩選

(一)使用subset篩選資料   

參考本文範例的資料資源欄位,得知欄位有County(縣市)、Month(月份)、TheDailyDomesticConsumptionOfWaterPerPerson(每人每日生活用水量,單位為公升)、Town(鄉鎮)、Year(年份),經過初步資料處理後,我們可以使用subset篩選資料的子集如某縣市、特定的月份年分等,使用方法為subset(資料表, 篩選邏輯),以下將篩選104年度資料為例。

(二)使用summary摘要資料

之後使用summary功能可以探索範例資料的摘要,可以提供最小值(Min.)、第一四分位數(1st Qu.)、中位數(Median)、平均數(Mean)、第三四分位數(3rd Qu.)、最大值(Max.),如圖 3,不用一一去計算統計值,十分方便唷!

四、樞紐分析及資料視覺化

應用aggregate做樞紐分析,使用方法為aggregate(y ~ x, 資料來源, 計算函數),其中y變數係依據x變數做分組,所以範例是使用104年每人每日生活用水量欄位做出月份分組,計算104年各月的平均值如圖 4,最後亦可以使用plot繪製直線圖如圖 5,想要知道plot的細部功能,可以使用help(“plot”)做查詢。