八克里: Mining 人生

Text Mining (張德明)

Text Mining <==> 雷同於 Data Mining

data 很難取得,所以改用 text 做 mining
Text Preprocess -- text 文字事先處理

knowledge discovery process
data -> targetd data --> data preprocess --> data transformation --> modules --> knowledge

買a也會買b 的關聯，通常資料不會記載需要透過分析才能取得

重點在 text mining :
1. 我針對我收集的文件來做處理
2. IR(information retrieval)
3. Corpus-based computational linguistics
4.很接近 data-mining

http://blue.lins.fju.edu.tw/~tseng/ResearchResults/index.htm

機器學習 --> data mining --> text mining

Preproces 把文字處理得到特徵值(text mining 和 data mining 不一樣)

Text Preprocessing:
1.POS Tagging (Part-1.of-Speech Tagging) 詞性分析

http://en.wikipedia.org/wiki/Part-of-speech_tagging
對於自然語言要處理，尤其左右的字詞猜測他的字義
http://search.cpan.org/dist/Lingua-EN-Tagger/Tagger.pm 英文斷詞處理
http://ckipsvr.iis.sinica.edu.tw/ 中文斷詞處理

2.Stemming: 把字根還原為最初的狀態
www.cis.scu.edu.tw/oproom/95projm.ppt
http://tartarus.org/martin/PorterStemmer/

3.Terms (Features):
選出重要的字

4.Feature Selection: 選擇重要的字
依據功能選擇所需要的詞性列表，並決定字詞的極性(正向或負向)
反諷字的處理很困難，很難用電腦判斷。
Too many of then:(篩選法則)
TF-IDF:
Entropy(熵) : 對於一個語言的所有詞彙集合 (詞集) 而言，整個詞集平均的詞彙編碼長度，稱為該詞集的『熵』或亂度，定義為如下公式。簡單來說就是「亂度」
http://ccckmit.wikidot.com/st:maximumentropy
Mutual information:
X^2 test statistic:

TF-IDF: Term Weighting scheme
http://ccckmit.wikidot.com/st:maximumentropy
Term frequency : 「the」出現頻率很高，但不重要
Inverse document frequency：idfi = log(N/ni) 要取 log 比較接近正確
TF-IDF：fij * idfi

Term-Document Matrix

Applications: IR Indexing

Vector Space Model
cosine-based measure
向量的內積與外積
searching 如果兩個很不像則是 0 , 很像則趨近 1
Ranking

Applications: Text Categorization (文字分類)

Classifiers:
1.Collected data
2.Overfitting problem
分類器在到達一個臨界點，error 就不會在繼續下講反而會上升

Common classifiers
KNN
Naive Bayes
Support vector machine

KNN classifier
不用訓練,但是靠近誰類別就會越像
但是得到答案會需要更多的時間

Support Vector Machine
1.SVM 簡單的只到線性的分割，有條線可以做到最佳分割 OSH

Applications: Text Summarization
Abstraction --> Extraction

Extraction Approach

Agglomerative Clustering
Dendrogram

----

concepts, techniques and applications

Moneyball 的故事
找出特定的組合，或有趣的知識。

Gordon Moore 定律：每 12 個月，同面積電晶體數量會提升一倍。

有 data mining 的工具，即使資料輸入後也不一定能夠找到特定的結果。
所以想要有好的結果，一定要經過特別的設計才會出現。

費式數列
http://home.educities.edu.tw/mario123/problems/fibonacci.htm

資料探勘常用於市場的分析、信用卡詐欺、書籍推薦

A KDD process 流程
Data Cleaning --> Data Warehouse --> task-relevant data --> Data Mining --> Pattern Evaluation --> Knowledge

將資料定義屬性，將資料量化才可以分析
資料探勘的工具可以做自動化
的處理，但是無法了解資料意義。

1.Data Cleaning
這階段很不起眼，但是很重要。

將舊的資料分類是為了將新的資料做預測，每個屬性就是一個維度.....
透過分析顧客具有的屬性，推測新進客戶是否是好客戶或是不好的客戶

找出因物品最接近的類別，透過資料分類後的結果。就是資料中間的距離,,,,,,
資料的距離和屬性的數量有關係，所以核定一的屬性有很大的關係。

Nearest Neighbor Classification
K= 5 ~ 7 選用奇數避免平手

找出一個模型替代 500 萬筆的資料，用一個函式表現。
資料回歸-為資料建立模型，以便於快速分析出資料。

建立模型的幾種方法：
Model: Decision Tree
類神經網路Biolgical Neural Network
SVM: 支撐向量：找到一條線可以把不同的類別分開，直線如果往兩邊撐開舊會成為一個帶掌區域。帶狀區域最大的優先選擇。

第二種：Cluster Analysis

找出關連的法則，不是數據明顯舊可以。

字根還原

語意處理會有盲點，在自動分類中處理語意。用自然語言的處理方式。

八克里

2012/09/04

Mining 人生

1 則留言:

高雄空拍圖(高雄市都市發展局--空中看大高雄)