2012/09/04

Mining 人生

Text Mining (張德明)

Text  Mining  <==> 雷同於 Data Mining

data 很難取得,所以改用 text 做 mining
Text Preprocess -- text 文字事先處理

knowledge discovery process
data -> targetd data --> data preprocess --> data transformation --> modules --> knowledge

買a也會買b 的關聯,通常資料不會記載需要透過分析才能取得

重點在 text mining :
1. 我針對我收集的文件來做處理
2. IR(information retrieval)
3. Corpus-based computational linguistics
4.很接近 data-mining

http://blue.lins.fju.edu.tw/~tseng/ResearchResults/index.htm

機器學習 --> data mining --> text mining

Preproces 把文字處理得到特徵值(text mining 和 data  mining 不一樣)

Text Preprocessing:
1.POS Tagging (Part-1.of-Speech Tagging) 詞性分析
http://en.wikipedia.org/wiki/Part-of-speech_tagging
對於自然語言要處理,尤其左右的字詞猜測他的字義
http://search.cpan.org/dist/Lingua-EN-Tagger/Tagger.pm  英文斷詞處理
http://ckipsvr.iis.sinica.edu.tw/ 中文斷詞處理

2.Stemming: 把字根還原為最初的狀態
www.cis.scu.edu.tw/oproom/95projm.ppt
http://tartarus.org/martin/PorterStemmer/

3.Terms (Features):
選出重要的字

4.Feature Selection: 選擇重要的字
依據功能選擇所需要的詞性列表,並決定字詞的極性(正向或負向)
反諷字的處理很困難,很難用電腦判斷。
Too many of then:(篩選法則)
TF-IDF:
Entropy(熵) : 對於一個語言的所有詞彙集合 (詞集) 而言,整個詞集平均的詞彙編碼長度,稱為該詞集的『熵』或亂度,定義為如下公式。簡單來說就是「亂度」
http://ccckmit.wikidot.com/st:maximumentropy
Mutual information:
X^2 test statistic:

TF-IDF: Term Weighting scheme
http://ccckmit.wikidot.com/st:maximumentropy
Term frequency : 「the」出現頻率很高,但不重要
Inverse document frequency:idfi = log(N/ni) 要取 log 比較接近正確
TF-IDF:fij * idfi

Term-Document Matrix

Applications: IR Indexing

Vector Space Model
cosine-based measure
向量的內積與外積
searching 如果兩個很不像則是 0 , 很像則趨近 1
Ranking

Applications: Text Categorization (文字分類)

Classifiers:
1.Collected data
2.Overfitting problem
分類器在到達一個臨界點,error 就不會在繼續下講反而會上升

Common classifiers
KNN
Naive Bayes
Support vector machine

KNN classifier
不用訓練,但是靠近誰類別就會越像
但是得到答案會需要更多的時間

Support Vector Machine
1.SVM 簡單的只到線性的分割,有條線可以做到最佳分割 OSH

Applications: Text Summarization
Abstraction --> Extraction

Extraction Approach

Agglomerative Clustering
Dendrogram




----

concepts, techniques and applications

Moneyball 的故事
找出特定的組合,或有趣的知識。

Gordon Moore 定律:每 12 個月,同面積電晶體數量會提升一倍。

有 data mining 的工具,即使資料輸入後也不一定能夠找到特定的結果。
所以想要有好的結果,一定要經過特別的設計才會出現。

費式數列
http://home.educities.edu.tw/mario123/problems/fibonacci.htm

資料探勘常用於市場的分析、信用卡詐欺、書籍推薦

A KDD process 流程
Data Cleaning --> Data Warehouse --> task-relevant data --> Data Mining --> Pattern Evaluation --> Knowledge

將資料定義屬性,將資料量化才可以分析
資料探勘的工具可以做自動化
的處理,但是無法了解資料意義。

1.Data Cleaning
這階段很不起眼,但是很重要。

將舊的資料分類是為了將新的資料做預測,每個屬性就是一個維度.....
透過分析顧客具有的屬性,推測新進客戶是否是好客戶或是不好的客戶

找出因物品最接近的類別,透過資料分類後的結果。就是資料中間的距離,,,,,,
資料的距離和屬性的數量有關係,所以核定一的屬性有很大的關係。

Nearest Neighbor Classification
K= 5 ~ 7 選用奇數避免平手

找出一個模型替代 500 萬筆的資料,用一個函式表現。
資料回歸-為資料建立模型,以便於快速分析出資料。

建立模型的幾種方法:
Model: Decision Tree
類神經網路Biolgical Neural Network
SVM: 支撐向量:找到一條線可以把不同的類別分開,直線如果往兩邊撐開舊會成為一個帶掌區域。帶狀區域最大的優先選擇。

第二種:Cluster Analysis

找出關連的法則,不是數據明顯舊可以。

字根還原

語意處理會有盲點,在自動分類中處理語意。用自然語言的處理方式。
















張貼留言