Monthly Archives: 八月 2015

數據挖掘:Supported Vector Machine 分類算法

把Supported Vector Machine(SVM)翻成支持向量機,翻了等於沒翻,只是創造另一專有名詞。

分類算法很多種,這些算法的主要目的是透過已經知道的分類過的資料中找出分類的規則。

有新的資料來了以後,可以通過分類規則來進行分類。

SVM的算法,是要找出分隔的線。演算法的目的是要分隔線不會偏一邊。也就是找出距離兩邊的點最遠的線。

什麼是relational algebra?

其實學過的也不一定講的出來。

會的人也不知道自己會。

工作做了這麼久,好像從來沒用到。

Relational algebra 是一個比較學術上的東西。

它指的是對relation的資料的運算(operation)

就像在數學裡,我們有四則運算,用在代數中,我們可以對變數x,y,a,b,等加減乘除,而寫出算式。

我們可以定義 y=3*x+4 ,其中的x在經過運算之後,可以變成另外一個值y。

在relational algebra裡,被運算的東西,不是數字,而是relation,運算符合不是加減乘除,而是下面幾個:

1.Restrict: 其實就是filter,經過restrict運算之後的relation是原來的subset

2. Project:其實是SQL的SELECT 中所選取的 columns

懂了SQL以後覺得relational algebra很容易

不過懂了SQL以後,不知道為什麼要學relational algebra?

其實從學術上來說,是先有了relational algebra之後,才有SQL的。

從某種角度來說應該是用relational algebra來學SQL。

Projection 這個term我們在業界也會用到。

3. Product: 指的是all possible combinations。

實用性其實不大,但我們會用這個term.

更常用的字眼是Cartesian Product

4. Union

5. Intersect

6. Difference: 也就是SQL的minus

7. Join

8. Divide : 比較容易理解的方式是Product的反向的operator

R語言

R是發展成熟的腳本式語言。

R語言可免費下載

R語言有許多的Library

R語言在學術界廣為流行

R語言可以和Oracle連結

R有很好的開發環境