2014年6月22日 星期日

[Python][教學] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例

圖片來源:http://www.417marketing.com/how-do-web-crawlers-work/

        之前有透過R抓取網路資料([R]用R抓網頁資料),也透過R來進行文字探勘([R] TEXT MINING(文字探勘練習)),一直想結合這兩個東西來做些有趣的事情,例如分析我的BLOG,看看我平常到底最常用哪些字詞,或到底使用了哪些核心字彙。但是這件事一直拖著沒有做,因為BLOGGER的文章內容並不是那麼好爬,用R來寫可能相對困難。直到有一天,看到了這個資料科學計畫 資料爬理析 Python 實戰班 2 馬上二話不說報名參加,趁著今天剛上完課記憶火熱的時候,來寫的抓自己BLOG的爬蟲。

        用的語言是PYTHON,PYTHON的學習資源可以參考codecademy,我也是從這邊學的。

http://nbviewer.ipython.org/gist/bryanyang0528/8bf8a31e6ef67c3118fa

下一步就是用TEXT MINING來分析部落格文章內容了!
DSP的這個課程真的非常的棒,對於整個資料抓取以及爬蟲的細節都非常詳細的展示與演練,外行人絕對也可以兩天就上手,是非常優質的課程,強烈推薦!