2014年6月30日 星期一

[Python] 基礎篇:流程控制、物件與方法、List & Dictionary

        教學文第二篇來了! 主要在介紹:
        1. 用if、elif、else: 控制程式流程
        2. 定義物件與方法
        3. List 和 Dictionary的操作

        程式碼和結果一樣是用iPython nbviwer來呈現:   

2014年6月29日 星期日

[Python] 基本語法介紹、教學與簡單範例

        整理一下最近學習python的心得,寫了這樣簡單的教學,內容是有關基本的語法與變項、以及字串的操作。
        
        這次的語法介紹,是用iPython Notebook的NBViwer來展示給各位看,好處是可以看到語法和執行的結果,實驗一下這種呈現方式看好不好閱讀:

2014年6月25日 星期三

[Python] python入門使用心得

        要說寫Python入門心裡其實很心虛XD,畢竟我的python都是從codecademy學到的,當成做為紀錄學習過程的筆記可能會比較恰當。在此之前我的編程基礎只有Java(半年)、Android(半年)、SAS(三年),背景知識相當貧乏。

2014年6月22日 星期日

[Python][教學] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例

圖片來源:http://www.417marketing.com/how-do-web-crawlers-work/

        之前有透過R抓取網路資料([R]用R抓網頁資料),也透過R來進行文字探勘([R] TEXT MINING(文字探勘練習)),一直想結合這兩個東西來做些有趣的事情,例如分析我的BLOG,看看我平常到底最常用哪些字詞,或到底使用了哪些核心字彙。但是這件事一直拖著沒有做,因為BLOGGER的文章內容並不是那麼好爬,用R來寫可能相對困難。直到有一天,看到了這個資料科學計畫 資料爬理析 Python 實戰班 2 馬上二話不說報名參加,趁著今天剛上完課記憶火熱的時候,來寫的抓自己BLOG的爬蟲。

2014年6月19日 星期四

[R][翻譯]Reshape(transpose)! 資料的變形金剛

 

        今天的文章來自這裡
Reshape Package in R: Long Data format, to Wide, back to Long again 
        我們在做資料的時候,為了配合不同的演算法、公式、統計套件、或整理報表需求,我們常常需要將資料轉來轉去。最簡單的轉法就是行列交換(又稱轉置、transpose),但是實務上,這種轉置用途太小了,我們需要更複雜的變形。

2014年6月17日 星期二

[翻譯]讓你的DATA更人性 (Six Ways to Make Your Data More Human)

原文出處:Six Ways to Make Your Data More Human

        這篇文章是我最近看到在談Big Data文章的非技術文章中最有感觸的一篇,跟大家分享。這篇文章副標下得很好:"Big Data Is Great, But Marketing Still Needs the Human Touch"
        當不管業界還是學術界對BIG DATA一頭熱的時候,還是要適時停下來想想DATA本身對我們的意義,畢竟分析資料的資料來源是人,演算法的邏輯設定也是人,解釋的對象是人,未來應用的對象也是人,當然要讓資料"人性化"一點。這篇文章提供了六個讓DATA更人性的方法:

2014年6月12日 星期四

[R][翻譯] apply、sapply、lapply之區別

原文:Using apply, sapply, lapply in R
        R和一般程式語言或統計軟體的不同在於進行迴圈運算時,可以使用向量的方式來處理,也就是本文主要要介紹的apply、sapply和lapply。這三個功能相似,卻有一點不同,今天無意中發現一篇好文章在比較這三者,因此將原文翻譯並摘要後與大家分享。

2014年6月11日 星期三

[轉貼] 資料科學家與凡人的溝通利器:30 個把資料視覺化的簡單工具-科技報橘

        資料科學家與凡人的溝通利器:30 個把資料視覺化的簡單工具
        這篇文章太棒了,蒐集了很多好用的資料視覺化工具,提供各位格友參考!! 因為完全不是原創,就只貼連結了!

        過去在行銷研究公司,資料視覺化的工具只有PPT (超慚愧) ,因為我對美工完全不行,所以本部落格應該完全不會介紹有關資料視覺化的東西XD 但是如果要將資料介紹給觀眾的話,資料視覺化絕對是最棒的橋樑,可以讓聽眾更直觀的方式了解資料內容和Insight!

資料脈絡與詮釋

        數字會說話?錯,說話的永遠是人,這是最近很紅的一本書"精準預測"中的名言。如果只會看數字講話,那很容易跌入陷阱。別忘記,蒐集資料的是人,解讀資料的是人,使用資料的也是人,就算是演算法的設計,也是跟人有關,所以解讀數字時千萬不能脫離資料的脈絡。

2014年6月7日 星期六

傳統市場分析人員的未來

        我這邊說得傳統是指,依照一般商學或傳播的背景成長,所學專長可能是行銷、應用統計,對於程式設計或資料庫管理幾乎是零的人。BIG DATA為什麼吸引那麼多人進入,是因為這個領域除了傳統行銷或統計分析背景之外,也大量依賴資訊科技(甚至以資訊科技為主導)。


        BIG DATA時代有幾個資料分析特色是傳統市場分析人員需要適應的:

[R] TEXT MINING(文字探勘、文本分析練習)

        BIG DATA時代要說跟一般資料庫分析有什麼不一樣的地方,除了更多資料外,就是更多對於非結構化資料的蒐集了。網路媒體有別於傳統媒體,每個使用者都可以製造、生產訊息,網路上的訊息量比美國國會圖書館還多了N^N倍,這些資料都不是整理好的資料,甚至大多不是是數值資料,為了蒐集並且分析這些資料,TEXT MINING(文字探勘)成了近幾年的主流。

      一般文字探勘軟體都很貴...而且不支援中文文字探勘,因此在華人世界,R成為文字探勘者最主要的工具(畢竟免費),而且有大神在開發中文文字探勘R套件,讓R成為中文文字探勘神器。

2014年6月5日 星期四

資料的切與不切,is a critical choice

        為了瞭解雨量和業績之間的關係,先前以用R抓網頁資料抓到了台灣的雨量資料,觀察三年來每一天雨量和業績的關係,我們去觀察是否雨量越大,業績會越好(或越不好),但是結果是相當不顯著的。直到有一天與同事聊天,同事以前是在達美樂上班,說有下雨和沒下雨對業績是有非常大的差別的。

2014年6月1日 星期日

[R]用R將資料依百分位數分組(Recode Data by Percentile) 連續型資料轉離散

        在資料分析中我們可以大致將資料類型分為離散型變項以及連續型變項兩種類別,以統計檢定來說,連續型資料的檢定力相對較強,結果也相對具有說服力。但是在真實社會環境中,第一很難確切的蒐集到那麼多連續型的變項;二來連續型變項之間的關係,由於檢定力強,反過來說就是除非兩者關係相當明確,否則很難證實相關性;若遇到這些情況,我們通常就會需要將連續型變項轉換成離散型變項,簡單來說就是將資料重新分組(或稱為recode)