Monthly Archives: 三月 2015

數據挖掘:分類和聚類的分別

我們不知道特徵,通過模型去塑造出來。

聚類可以幫助我們發現去發現這些特徵。

分類則是已經知道特徵,分類是判斷的過程。

甲骨文的數據挖掘

ODMR = Oracle Data Miner Repository 是一個資料庫的一個選項

企業應用軟件有大量的行業數據

SQL Developer就是他的集成開發環境

數據挖掘的過程

1. 定義問題

你的目標是什麼

例如銀行,我想找出有問題的賬戶

例如業務員想要知道,從表單找出,要發郵件給誰

2. 數據源的選擇,選擇算法

數據準備,可能占百分之六十的工作

可能是來自數據倉庫,當然也可以從業務的系統,不過可能衝擊太大

模型中的那個算法好,是專業的知識。

噪音太大,算出的結果就不精準

數據倉庫可能要先數據整合,來自不同的系統

可能還要先匯總

3. 構建模型

把數據源連結,可以採摘(explore),可以建模型

最後是一個流程workflow。

Oracle提供一個集成開發環境(IDE)

進行測試

模型和算法各人去探索

Oracle提供工具,將工具放在數據庫系統當中,融合進入軟件當中

4. 發佈結果

可以是報表

監督型和非監督性的數據挖掘

非監督型的數據挖掘,對要去挖掘的東西,完全不知道。

要把關係找出來。用或然率來解釋。

例如,這個地方的人有錢人可能比較多

反偵測(anomaly detection),找出異常狀況,反洗錢,偷電,偷水,查逃漏稅。

關聯規則(association rules)

聚類(clustering),用數據的特征,來分類,例如用中心點算法,用距離來看。

監督型對關係的模型進行驗證,找出比較精準的關係。

監督性的過程

1. 訓練(training)

用實驗數據來建立模型

2. 測試模型(testing)

3. 評判(scoring)

不同的模型解決不同的問題

– 分類(classification)

對客戶進行分類

猜測性別

支持向量機()?

– 回歸(regression)

對歷史數據,來判斷哪些客戶會買

-屬性分析(attribute importance)

排列重要性

數據挖掘

這是相當新的領域。

數據挖掘是一種信息提煉的過程,是一種隱含的信息的認知。

一般人看到數字本身本來不知道這些信息,但是通過工具以及方法,可以把這些信息挖掘出來。

把未知轉化成已知。

用算法來驗證模型。

利用統計學和數據的模型來預測和分類。

算法很專業,是大學和研究生學習和研究的範圍。

但是工具的學習不難。

報表和統計不是數據挖掘。

簡單的數據分析不是數據挖掘。

對異常的偵測(Anomaly detection),像洗錢的犯罪行為的偵查

購物籃的分析(market basket analysis)-啤酒和尿布的經典案例

用戶忠誠度,要做精準營銷,不要散彈槍打鳥,不要打擾客戶。