2014年7月19日 星期六

[Python] 自製N-Gram Analyst 文字探勘(text mining)軟體

       
        做質性調查的時候常需要從受訪者的文句中,挑出重要且關鍵的概念,這些重要概念可能是受訪者查掛在嘴邊,或是無意識間透露出的字句。資料處理上,我們會將受訪者的受訪內容透過文字,以逐字稿的方式呈現,研究者再從中觀察、解析重要的觀念。


        除了質性調查逐字稿之外,文字也是人類社會在紀錄、表達上的重要資料。現在有許多研究方法,都試圖想要處理這些數量龐大的文字資料。其中一種方法就是最近很熱門的文字探勘(或稱文本分析、text mining等)。目前市面上做文字探勘的軟體很多,但是一般價格不斐,因此才開發這個小軟體來做一些簡單的分析。

        這個軟體延續之前[Python] 土炮自製文字探勘(TEXT MINING) N-GRAM演算法

[Python] 土砲N-GRAM(文字探勘、文本分析工具)演算法大升級! 加入長詞優先法與斷句系統,的核心要素,N-GRAM+長詞優先演算法來做的,只是做成執行檔比較方便一般人使用。話不多說直接讓大家下載:

       


  • 下載連結

https://drive.google.com/file/d/0B04hqU30ytQMQU9WZzRkQ3QxSnM/edit?usp=sharing
要按左上角才能下載喔~~下載後找個資料夾解壓縮,執行"NGramAnalyst.exe"




  • 這是主畫面,因為是一天趕出來的程式,當然沒有太多功能囉,哈哈





  • 使用方式很簡單,Help>How to use有使用說明:


1. 把檔案(目前限制.txt  編碼必須是utf-8)拖到File Name裡面
2. Max String Lengthz選擇最大字串的長度(比如說兩個字、三個字、還是五個字),做為長詞優先法的最長詞
3. 選擇最小出現頻次,字詞要高於多少次數才會列入結果


  • 就這樣拖曳檔案就可以了~夠簡單了吧 ~




  • 檔案拖好後,按Confirm就可以執行囉~結果會顯是在右手邊的表格裡。




  • 還可以按File>Save把檔案儲存起來,會自動存在C槽,不能指定路徑和檔名喔XD







18 則留言:

  1. 請問你是怎麼轉換成exe檔的呢@@? 是pthon3嗎?

    回覆刪除
    回覆
    1. 我當時是用GUI2EXE https://code.google.com/p/gui2exe/
      或是你也可以選擇 PY2EXE http://www.py2exe.org/
      我之後會再發另外一篇轉檔教學文~

      刪除
    2. 第二個方法好像只能用python2@@? 後來試了很久,
      GUI2EXE我試試看,謝謝你

      刪除
    3. 你可以看一下是不是http://www.py2exe.org/index.cgi/Tutorial 下面有介紹到的"MSVCR90.dll"的問題,而且需要先安裝"Microsoft Visual C++ 2008 Redistributable Package(http://www.microsoft.com/en-us/download/details.aspx?id=29)" 才能正確編譯成.exe檔案

      刪除
  2. 作者已經移除這則留言。

    回覆刪除
  3. 冒昧請問
    方便寫一篇實做文嗎~
    例如從一個簡單的python code到exe檔之類的!
    非常感謝!

    回覆刪除
    回覆
    1. 哈囉~您是說compile方面的文章嗎?

      刪除
    2. 我不太確定所謂"compile"方面的文章的意思XD

      因為我本身是統計背景
      所以一直很想做一個執行檔
      是可以執行我寫出來的統計方法
      並且不需要下載python!

      所以想說
      如果不麻煩的話
      可以示範一個很簡單的python code(處理很簡單的問題)
      然後從python code到製作成一個exe檔
      一整個過程的教學文

      謝謝回覆!

      刪除
    3. 哈囉 新年快樂,由於我目前的開發環境都移到mac上,所以沒辦法實測exe的過程,這裡是我以前參考的文章,寫得很清楚,也給您參考看看
      http://mf99coding.logdown.com/posts/206237-package-your-python-script-into-exe-executable
      有什麼問題隨時討論,謝謝~:)

      刪除
  4. 您好,我在雲端下載有問題,一直失敗,不知道有沒有其他提供下載的聯結呢?

    回覆刪除
    回覆
    1. 我自己下載可以耶,請問你是用什瀏覽器下載的?
      有推薦的雲端空間可以放檔案嗎?

      刪除
    2. 謝謝你,我想應該是學校網路的問題,
      我[本是使用chrome下載的,但是一直讀不到,後來改用firefox

      我個人習慣是用百度雲,不過蠻多人怕他有毒,
      朋友推薦box,因為他可以跟google結合

      刪除
    3. 感謝分享,可能是我的檔案來源不明吧xd

      刪除
  5. 請問這個也適用於英文的文字探勘嗎?
    最近苦於找尋英文的文字探勘,需要用長詞優先,不知道作者有沒有什麼推薦的?(我是使用r)
    我只能做出 單詞 跟 n-gram 但就是找不到長詞優先的相關應用套件。

    回覆刪除
    回覆
    1. 就我所知英文的分詞都是以英文單字為一個單位,跟中文是由字組成詞的概念不同,所以沒有長詞優先的概念。不過如果沒有現成套件就自己刻一個吧:)

      刪除