Apache Spark 測試 FPGrowth(傳統C語言與Spark 的簡易測試)

因為剛剛把 Apache 的 Spark 設定好,順便驗證測試看看效能如何? 剛好發現 Spark 的 MLLIB 內有內建的 FPGrowth 演算法 ,剛好跟它有點熟所以就用這個演算法加上網路上的資料來測試看看。 先講結論:資料量小,不利於使用巨量資料工具。 關於 fpgrowth 演算法請先參考這篇: http://blog.jangmt.com/2015/10/fpgrowth-algorithm.html 底下紀錄測試的過程,及使用的參數。 測試運算資料來源: http://fimi.ua.ac.be/data/ Frequent Itemset Mining Dataset Repository--- LAB (1) Christian Borgelt 寫的 C 語言程式 FPGrowth 對上 Spark scala fpgrowth 程式 --- # FPGrowth 先把 -m1 同時出現的SET設為1個,支持度 5 ,信任度為 80%(default) # 這個案例花費了 0.09s 運算了 0.01s [hadoop@hnamenode FrequentItemset]$ ./fpgrowth -m1 -s5 T10I4D100K.dat T10I4D100K.out.txt ./fpgrowth - find frequent item sets with the fpgrowth algorithm version 6.7 (2015.08.18) (c) 2004-2015 Christian Borgelt reading T10I4D100K.dat ... [870 item(s), 100000 transaction(s)] done [0.09s]. filtering, sorting and recoding items ... [10 item(s)] done [0.00s]. sorting and reducing transactions ... [281/100000 transaction(s)] done [0.01s]. writing T10I4D100K.out.txt .....