Bryan's Notes for Big Data & Career: [Python] 土炮自製文字探勘(TEXT MINING) N-GRAM演算法

2014年7月13日星期日

[Python] 土炮自製文字探勘(TEXT MINING) N-GRAM演算法

先前在做文字探勘的時候([R] TEXT MINING(文字探勘練習))，主要會用到tmcn以及Rwordseg這兩個套件，這兩個套件主要是運用字典檔的方式將字詞切開，然後再對於切出來的字詞作次數分配，這樣的作法雖然可以清楚切出常用的詞彙，但是也礙於字典檔的限制，無法一些新的、或特別的術語(例如PTT中的詞彙、或是一些講話的口頭禪)。

因此有人提出了N-GRAM的演算法，這個演算法其實就是一種馬可夫模型，主要用來計算同樣類型的事件依序發生的機率，例如昨天與今天、後天天氣的關係(引自：Google 搜尋預測、拼字檢查、與即時翻譯背後的統計模型：N-Gram) 那運用在文字上，我們就可以觀察不同單字前後的關係。

中文字是方塊字，一個字有獨立的意思，但是基本上我們講話的時候還是以兩個字以上組合的"詞彙"作為單位，N-GRAM模型主要特點可以用來觀察兩個字一組、三個字一組、或四個字、五個字一組的詞彙出現的機率。我們根據這個想法來設計演算法。選擇PYTHON而不用R的原因在於PYTHON對於字串的處理相對簡單，而且程式碼看起來也會比R直覺。

這個演算法中間遇到最大困難在我搞不定unicode的轉換...演算法本身所花時間可能一小時不到吧，但是unicode轉換就花了3小時up...。然後目前還沒有去除標點符號，未來也會將這功能加上去(但是我覺得加上標點符號是必要的，因為中文適用標點斷句，通常標點前後的文字不會形成字詞關係) 另外台灣的文章內容常常中英混打，也是未來要努力的項目。

未來更新重點：
1. 將標點符號視為句子間的分格符號，每一句獨立分析字詞頻次。
2. 將中文英文分開來辨識，中文是用一個"字"作為基本單位，英文是用一個"單字"

參考資料：