做質性調查的時候常需要從受訪者的文句中,挑出重要且關鍵的概念,這些重要概念可能是受訪者查掛在嘴邊,或是無意識間透露出的字句。資料處理上,我們會將受訪者的受訪內容透過文字,以逐字稿的方式呈現,研究者再從中觀察、解析重要的觀念。
除了質性調查逐字稿之外,文字也是人類社會在紀錄、表達上的重要資料。現在有許多研究方法,都試圖想要處理這些數量龐大的文字資料。其中一種方法就是最近很熱門的文字探勘(或稱文本分析、text mining等)。目前市面上做文字探勘的軟體很多,但是一般價格不斐,因此才開發這個小軟體來做一些簡單的分析。
這個軟體延續之前[Python] 土炮自製文字探勘(TEXT MINING) N-GRAM演算法、
[Python] 土砲N-GRAM(文字探勘、文本分析工具)演算法大升級! 加入長詞優先法與斷句系統,的核心要素,N-GRAM+長詞優先演算法來做的,只是做成執行檔比較方便一般人使用。話不多說直接讓大家下載:
- 下載連結
https://drive.google.com/file/d/0B04hqU30ytQMQU9WZzRkQ3QxSnM/edit?usp=sharing
要按左上角才能下載喔~~下載後找個資料夾解壓縮,執行"NGramAnalyst.exe"
- 這是主畫面,因為是一天趕出來的程式,當然沒有太多功能囉,哈哈
- 使用方式很簡單,Help>How to use有使用說明:
1. 把檔案(目前限制.txt 編碼必須是utf-8)拖到File Name裡面
2. Max String Lengthz選擇最大字串的長度(比如說兩個字、三個字、還是五個字),做為長詞優先法的最長詞
3. 選擇最小出現頻次,字詞要高於多少次數才會列入結果
- 就這樣拖曳檔案就可以了~夠簡單了吧 ~
- 檔案拖好後,按Confirm就可以執行囉~結果會顯是在右手邊的表格裡。
- 還可以按File>Save把檔案儲存起來,會自動存在C槽,不能指定路徑和檔名喔XD
請問你是怎麼轉換成exe檔的呢@@? 是pthon3嗎?
回覆刪除我當時是用GUI2EXE https://code.google.com/p/gui2exe/
刪除或是你也可以選擇 PY2EXE http://www.py2exe.org/
我之後會再發另外一篇轉檔教學文~
第二個方法好像只能用python2@@? 後來試了很久,
刪除GUI2EXE我試試看,謝謝你
你可以看一下是不是http://www.py2exe.org/index.cgi/Tutorial 下面有介紹到的"MSVCR90.dll"的問題,而且需要先安裝"Microsoft Visual C++ 2008 Redistributable Package(http://www.microsoft.com/en-us/download/details.aspx?id=29)" 才能正確編譯成.exe檔案
刪除作者已經移除這則留言。
回覆刪除冒昧請問
回覆刪除方便寫一篇實做文嗎~
例如從一個簡單的python code到exe檔之類的!
非常感謝!
哈囉~您是說compile方面的文章嗎?
刪除我不太確定所謂"compile"方面的文章的意思XD
刪除因為我本身是統計背景
所以一直很想做一個執行檔
是可以執行我寫出來的統計方法
並且不需要下載python!
所以想說
如果不麻煩的話
可以示範一個很簡單的python code(處理很簡單的問題)
然後從python code到製作成一個exe檔
一整個過程的教學文
謝謝回覆!
了解了解~收到!
刪除哈囉 新年快樂,由於我目前的開發環境都移到mac上,所以沒辦法實測exe的過程,這裡是我以前參考的文章,寫得很清楚,也給您參考看看
刪除http://mf99coding.logdown.com/posts/206237-package-your-python-script-into-exe-executable
有什麼問題隨時討論,謝謝~:)
謝謝:)
刪除:) 歡迎多交流交流
刪除您好,我在雲端下載有問題,一直失敗,不知道有沒有其他提供下載的聯結呢?
回覆刪除我自己下載可以耶,請問你是用什瀏覽器下載的?
刪除有推薦的雲端空間可以放檔案嗎?
謝謝你,我想應該是學校網路的問題,
刪除我[本是使用chrome下載的,但是一直讀不到,後來改用firefox
我個人習慣是用百度雲,不過蠻多人怕他有毒,
朋友推薦box,因為他可以跟google結合
感謝分享,可能是我的檔案來源不明吧xd
刪除請問這個也適用於英文的文字探勘嗎?
回覆刪除最近苦於找尋英文的文字探勘,需要用長詞優先,不知道作者有沒有什麼推薦的?(我是使用r)
我只能做出 單詞 跟 n-gram 但就是找不到長詞優先的相關應用套件。
就我所知英文的分詞都是以英文單字為一個單位,跟中文是由字組成詞的概念不同,所以沒有長詞優先的概念。不過如果沒有現成套件就自己刻一個吧:)
刪除