Bryan's Notes for Big Data & Career: [Python][教學] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例

2014年6月22日星期日

[Python][教學] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例

圖片來源：http://www.417marketing.com/how-do-web-crawlers-work/

之前有透過R抓取網路資料([R]用R抓網頁資料)，也透過R來進行文字探勘([R] TEXT MINING(文字探勘練習))，一直想結合這兩個東西來做些有趣的事情，例如分析我的BLOG，看看我平常到底最常用哪些字詞，或到底使用了哪些核心字彙。但是這件事一直拖著沒有做，因為BLOGGER的文章內容並不是那麼好爬，用R來寫可能相對困難。直到有一天，看到了這個資料科學計畫資料爬理析 Python 實戰班 2 馬上二話不說報名參加，趁著今天剛上完課記憶火熱的時候，來寫的抓自己BLOG的爬蟲。

用的語言是PYTHON，PYTHON的學習資源可以參考codecademy，我也是從這邊學的。

http://nbviewer.ipython.org/gist/bryanyang0528/8bf8a31e6ef67c3118fa

下一步就是用TEXT MINING來分析部落格文章內容了!
DSP的這個課程真的非常的棒，對於整個資料抓取以及爬蟲的細節都非常詳細的展示與演練，外行人絕對也可以兩天就上手，是非常優質的課程，強烈推薦!

最近寫了利用Scrapy這個在Python上實作的爬網架構的說明，有興趣的讀者可以參考：[Python] Scrapy(Web Crawler) to PostgreSQL（一）簡介＆網路爬蟲基本設定
與資料庫連結的設定：[Python] Scrapy(Web Crawler) to PostgreSQL（二）postgreSQL資料庫連接設定
對解析網頁元件不熟悉或有興趣的可以參考：[Python][教學] 網路爬蟲（crawler）實務（上）--網頁元件解析
更複雜的爬網方式可以參考：[Python][教學] 網路爬蟲（crawler）實務（下）--爬蟲策略以及設定

Bryan's Notes for Big Data & Career

2014年6月22日星期日

[Python][教學] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例

沒有留言:

張貼留言

2014年6月22日 星期日

[Python][教學] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例

沒有留言:

張貼留言

2014年6月22日星期日