Text Mining <==> 雷同於 Data Mining
data 很難取得,所以改用 text 做 mining
Text Preprocess -- text 文字事先處理
knowledge discovery process
data -> targetd data --> data preprocess --> data transformation --> modules --> knowledge
買a也會買b 的關聯,通常資料不會記載需要透過分析才能取得
重點在 text mining :
1. 我針對我收集的文件來做處理
2. IR(information retrieval)
3. Corpus-based computational linguistics
4.很接近 data-mining
http://blue.lins.fju.edu.tw/~tseng/ResearchResults/index.htm
機器學習 --> data mining --> text mining
Preproces 把文字處理得到特徵值(text mining 和 data mining 不一樣)
1.POS Tagging (Part-1.of-Speech Tagging) 詞性分析
http://en.wikipedia.org/wiki/Part-of-speech_tagging
對於自然語言要處理,尤其左右的字詞猜測他的字義
http://search.cpan.org/dist/Lingua-EN-Tagger/Tagger.pm 英文斷詞處理
http://ckipsvr.iis.sinica.edu.tw/ 中文斷詞處理
2.Stemming: 把字根還原為最初的狀態
www.cis.scu.edu.tw/oproom/95projm.ppt
http://tartarus.org/martin/PorterStemmer/
3.Terms (Features):
選出重要的字
4.Feature Selection: 選擇重要的字
依據功能選擇所需要的詞性列表,並決定字詞的極性(正向或負向)
反諷字的處理很困難,很難用電腦判斷。
Too many of then:(篩選法則)
TF-IDF:
Entropy(熵) : 對於一個語言的所有詞彙集合 (詞集) 而言,整個詞集平均的詞彙編碼長度,稱為該詞集的『熵』或亂度,定義為如下公式。簡單來說就是「亂度」
http://ccckmit.wikidot.com/st:maximumentropy
Mutual information:
X^2 test statistic:
TF-IDF: Term Weighting scheme
http://ccckmit.wikidot.com/st:maximumentropy
Term frequency : 「the」出現頻率很高,但不重要
Inverse document frequency:idfi = log(N/ni) 要取 log 比較接近正確
TF-IDF:fij * idfi
Term-Document Matrix
Applications: IR Indexing
Vector Space Model
cosine-based measure
向量的內積與外積
searching 如果兩個很不像則是 0 , 很像則趨近 1
Ranking
Applications: Text Categorization (文字分類)
Classifiers:
1.Collected data
2.Overfitting problem
分類器在到達一個臨界點,error 就不會在繼續下講反而會上升
Common classifiers
KNN
Naive Bayes
Support vector machine
KNN classifier
不用訓練,但是靠近誰類別就會越像
但是得到答案會需要更多的時間
Support Vector Machine
1.SVM 簡單的只到線性的分割,有條線可以做到最佳分割 OSH
Applications: Text Summarization
Abstraction --> Extraction
Extraction Approach
Agglomerative Clustering
Dendrogram
----
concepts, techniques and applications
Moneyball 的故事
找出特定的組合,或有趣的知識。
Gordon Moore 定律:每 12 個月,同面積電晶體數量會提升一倍。
有 data mining 的工具,即使資料輸入後也不一定能夠找到特定的結果。
所以想要有好的結果,一定要經過特別的設計才會出現。
費式數列
http://home.educities.edu.tw/mario123/problems/fibonacci.htm
資料探勘常用於市場的分析、信用卡詐欺、書籍推薦
A KDD process 流程
Data Cleaning --> Data Warehouse --> task-relevant data --> Data Mining --> Pattern Evaluation --> Knowledge
將資料定義屬性,將資料量化才可以分析
資料探勘的工具可以做自動化
的處理,但是無法了解資料意義。
1.Data Cleaning
這階段很不起眼,但是很重要。
將舊的資料分類是為了將新的資料做預測,每個屬性就是一個維度.....
透過分析顧客具有的屬性,推測新進客戶是否是好客戶或是不好的客戶
找出因物品最接近的類別,透過資料分類後的結果。就是資料中間的距離,,,,,,
資料的距離和屬性的數量有關係,所以核定一的屬性有很大的關係。
Nearest Neighbor Classification
K= 5 ~ 7 選用奇數避免平手
找出一個模型替代 500 萬筆的資料,用一個函式表現。
資料回歸-為資料建立模型,以便於快速分析出資料。
建立模型的幾種方法:
Model: Decision Tree
類神經網路Biolgical Neural Network
SVM: 支撐向量:找到一條線可以把不同的類別分開,直線如果往兩邊撐開舊會成為一個帶掌區域。帶狀區域最大的優先選擇。
第二種:Cluster Analysis
找出關連的法則,不是數據明顯舊可以。
字根還原
語意處理會有盲點,在自動分類中處理語意。用自然語言的處理方式。
對於自然語言要處理,尤其左右的字詞猜測他的字義
http://search.cpan.org/dist/Lingua-EN-Tagger/Tagger.pm 英文斷詞處理
http://ckipsvr.iis.sinica.edu.tw/ 中文斷詞處理
2.Stemming: 把字根還原為最初的狀態
www.cis.scu.edu.tw/oproom/95projm.ppt
http://tartarus.org/martin/PorterStemmer/
3.Terms (Features):
選出重要的字
4.Feature Selection: 選擇重要的字
依據功能選擇所需要的詞性列表,並決定字詞的極性(正向或負向)
反諷字的處理很困難,很難用電腦判斷。
Too many of then:(篩選法則)
TF-IDF:
Entropy(熵) : 對於一個語言的所有詞彙集合 (詞集) 而言,整個詞集平均的詞彙編碼長度,稱為該詞集的『熵』或亂度,定義為如下公式。簡單來說就是「亂度」
http://ccckmit.wikidot.com/st:maximumentropy
Mutual information:
X^2 test statistic:
TF-IDF: Term Weighting scheme
http://ccckmit.wikidot.com/st:maximumentropy
Term frequency : 「the」出現頻率很高,但不重要
Inverse document frequency:idfi = log(N/ni) 要取 log 比較接近正確
TF-IDF:fij * idfi
Term-Document Matrix
Applications: IR Indexing
Vector Space Model
cosine-based measure
向量的內積與外積
searching 如果兩個很不像則是 0 , 很像則趨近 1
Ranking
Applications: Text Categorization (文字分類)
Classifiers:
1.Collected data
2.Overfitting problem
分類器在到達一個臨界點,error 就不會在繼續下講反而會上升
Common classifiers
KNN
Naive Bayes
Support vector machine
KNN classifier
不用訓練,但是靠近誰類別就會越像
但是得到答案會需要更多的時間
Support Vector Machine
1.SVM 簡單的只到線性的分割,有條線可以做到最佳分割 OSH
Applications: Text Summarization
Abstraction --> Extraction
Extraction Approach
Agglomerative Clustering
Dendrogram
----
concepts, techniques and applications
Moneyball 的故事
找出特定的組合,或有趣的知識。
Gordon Moore 定律:每 12 個月,同面積電晶體數量會提升一倍。
有 data mining 的工具,即使資料輸入後也不一定能夠找到特定的結果。
所以想要有好的結果,一定要經過特別的設計才會出現。
費式數列
http://home.educities.edu.tw/mario123/problems/fibonacci.htm
資料探勘常用於市場的分析、信用卡詐欺、書籍推薦
A KDD process 流程
Data Cleaning --> Data Warehouse --> task-relevant data --> Data Mining --> Pattern Evaluation --> Knowledge
將資料定義屬性,將資料量化才可以分析
資料探勘的工具可以做自動化
的處理,但是無法了解資料意義。
1.Data Cleaning
這階段很不起眼,但是很重要。
將舊的資料分類是為了將新的資料做預測,每個屬性就是一個維度.....
透過分析顧客具有的屬性,推測新進客戶是否是好客戶或是不好的客戶
找出因物品最接近的類別,透過資料分類後的結果。就是資料中間的距離,,,,,,
資料的距離和屬性的數量有關係,所以核定一的屬性有很大的關係。
Nearest Neighbor Classification
K= 5 ~ 7 選用奇數避免平手
找出一個模型替代 500 萬筆的資料,用一個函式表現。
資料回歸-為資料建立模型,以便於快速分析出資料。
建立模型的幾種方法:
Model: Decision Tree
類神經網路Biolgical Neural Network
SVM: 支撐向量:找到一條線可以把不同的類別分開,直線如果往兩邊撐開舊會成為一個帶掌區域。帶狀區域最大的優先選擇。
第二種:Cluster Analysis
找出關連的法則,不是數據明顯舊可以。
字根還原
語意處理會有盲點,在自動分類中處理語意。用自然語言的處理方式。
1 則留言:
本來我看到前幾遍文章,深感版主的功力偉大,結果看到最後一章,竟然是寫馬達的處理過程,看完後,真是令我開懷大笑,版主肯定是一位資深的軟件工程師呀!!我只是覺得很好笑,沒有一點惡意的意思哦!!如果今天是換成我這個大老租來處理的話,就是換個馬達,最多再弄個大肚浮動來控制就好了,我真是沒想到,換一個馬達也能寫到這麼精華,實在令我笑開懷。
張貼留言