Category Archives: 資料處理

什麼是tidy data?

原始資料(Raw data)可以有不同程度的「原始」

Tidy data 資料指的是「整理過的資料」

這種「整理過的資料有一些特徵:

  1. Each variable should be in a separate column 每個變數存在個別的欄(column)
  2. Each different observation should be in different rows. 每一筆觀測數據(observation)在不同的列(row)
  3. 不同的表(table)存不同組的變數

應該要有辦法可是連接不同的表

表的上方應該要有變數名稱

描述資料用的變數的類型

概略的區分,可分為兩大類:

Qualitative:像性別,國家等

Quantitative:身高,體重,血壓等

什麼是資料(Data)?

對從事統計以及資料科學的人來說,資料指的是用來描述一些東西(a set of objects)所用的變數(variable)的值(value)。

這裡所說的變數,就是可以用來描述東西的特徵或特色。像要描述一個人,可以用年齡,性別,出生地,身高,個性等。

資料處理

資料處理(Data Process)是形容處理資料的過程。

輸入資料    →     資料處理   →     輸出資訊

我記得以前大學有上資料處理課。資處課是教電腦(計算機)怎麼用的課。

這裡講的「資料處理」指的是用電腦來處理資料。

更狹義的解釋,Data Process的Process可以是一個Computer Program。

我覺得英文Data Process已經很少當做專有名詞來用。

Process一詞每天都在用。

當我們講Process時,有兩個意義。

1. Data Process

2. Business Process

資料和資訊的不同

資料(Data)可以是一堆整理或未整理過的文字、數字、檔案。

資訊(Information)則是處理過的,而且是有用的的資料。

最大的差別不在是否處理過,而在於是否「有意義」。
但處理的過程會讓資料變得有意義。

資料的處理往往包括分類、歸納,以及分析、解釋等過程。

 

瞭解資料和資訊的不同是有意義的。