2014年7月19日 星期六

[Python] 自製N-Gram Analyst 文字探勘(text mining)軟體

       
        做質性調查的時候常需要從受訪者的文句中,挑出重要且關鍵的概念,這些重要概念可能是受訪者查掛在嘴邊,或是無意識間透露出的字句。資料處理上,我們會將受訪者的受訪內容透過文字,以逐字稿的方式呈現,研究者再從中觀察、解析重要的觀念。


        除了質性調查逐字稿之外,文字也是人類社會在紀錄、表達上的重要資料。現在有許多研究方法,都試圖想要處理這些數量龐大的文字資料。其中一種方法就是最近很熱門的文字探勘(或稱文本分析、text mining等)。目前市面上做文字探勘的軟體很多,但是一般價格不斐,因此才開發這個小軟體來做一些簡單的分析。

        這個軟體延續之前[Python] 土炮自製文字探勘(TEXT MINING) N-GRAM演算法

[Python] 土砲N-GRAM(文字探勘、文本分析工具)演算法大升級! 加入長詞優先法與斷句系統,的核心要素,N-GRAM+長詞優先演算法來做的,只是做成執行檔比較方便一般人使用。話不多說直接讓大家下載:

       


  • 下載連結

https://drive.google.com/file/d/0B04hqU30ytQMQU9WZzRkQ3QxSnM/edit?usp=sharing
要按左上角才能下載喔~~下載後找個資料夾解壓縮,執行"NGramAnalyst.exe"




  • 這是主畫面,因為是一天趕出來的程式,當然沒有太多功能囉,哈哈





  • 使用方式很簡單,Help>How to use有使用說明:


1. 把檔案(目前限制.txt  編碼必須是utf-8)拖到File Name裡面
2. Max String Lengthz選擇最大字串的長度(比如說兩個字、三個字、還是五個字),做為長詞優先法的最長詞
3. 選擇最小出現頻次,字詞要高於多少次數才會列入結果


  • 就這樣拖曳檔案就可以了~夠簡單了吧 ~




  • 檔案拖好後,按Confirm就可以執行囉~結果會顯是在右手邊的表格裡。




  • 還可以按File>Save把檔案儲存起來,會自動存在C槽,不能指定路徑和檔名喔XD