顯示具有 資料分析 標籤的文章。 顯示所有文章
顯示具有 資料分析 標籤的文章。 顯示所有文章

2015年6月23日 星期二

準確率(Precision)與召回率(Recall)


enter image description here

在評估預測模型好壞時,常用的到指標包括Precision, Recall, ROC Curve, AUC等等.但是先前唸書的時候,都只是傻傻背定義,對指標的實際意義沒有太多感觸,直到最近真正跑了幾個模型,開始認真的想要預測結果時,才更深入了解這幾個指標含義及精神.

2015年4月17日 星期五

[心得] 究竟是“學習”還是“已知用火”?


回顧了一下去年的文章,發現去年的四月才剛接觸R,之後過了兩個月開始學python,接著又在去年底開始接觸scala,spark,最近兩個月開始用shell script(這些應該從我雜亂無章的網誌內容看得出來),常常會會質疑自己在這過程中到底真正學會了什麼東西,還是已知用火(出處)還自己為發現新大陸?

2015年4月12日 星期日

[心得] 網路爬蟲專案規劃策略

先前花了一些篇幅在介紹網路爬蟲的使用方式,都是比較偏重技術面的討論,但是爬蟲本身在理解原理後並不難實作,下一個階段就是如何規劃一個完整的爬蟲專案,這反而是比較需要討論以及有挑戰性的部分.過去的爬網專案都以中小型(監測的網站約50個以下,頻率頂一個小時一次)居多,以這樣的規模來討論在規劃上可能要注意哪些事情.

2014年12月13日 星期六

[Python][教學] Scrapy(Web Crawler) to PostgreSQL(一)簡介 & 網路爬蟲基本設定


        Scrapy是python上很受歡迎的爬網框架,官方網站為:http://doc.scrapy.org/en/latest/index.html.介紹Scrapy的網站很多,官網自己就寫得很清楚,一些中文化的資料可參考像是http://www.addbook.cn/book/scrapy中文手册等資料.今天主要介紹的是爬網之後的動作.爬網並不是單純爬文而已,而是為了提供之後進一步的分析,所以資料都必須儲存下來,儲存的方式有很多種,可以單純是個file,再由分析軟體來處理資料,或是把資料放在資料庫中,做進一步的分析.

2014年11月22日 星期六

[R] 當Text Mining專案完成度達到99%之後...


       先前接下了一個號稱完成度99%的專案,只剩下一個小bug解決好就可以上線...故事由真人真事改編.故事背景是有個利用R來做text mining(文本分析)的專案要上線,這個專案使用了tm package和segmentCN兩個標準的配備(可以參考:[R] TEXT MINING(文字探勘、文本分析練習)).原本剩下這1%的問題在於開發環境和上線環境不同,導致結果的不一致.這個問題在當初我就有寫篇專文[R] tm package version 0.6 大解析(text mining文字探勘套件)來處理這個問題(使用了非常瑣碎的爛方法...有更好的方法請跟我說Orz).今天的故事是從這邊接下去開始...

2014年10月11日 星期六

[R] 相見太晚,回頭是岸,分析WOE和IV值的神器套件

        

        最近因為投入研究Spark,對於資料分析的東西比較沒時間琢磨,難得一個雙十假日又可以來體驗一下礦工的生活了.
        
        Data mining不管是用何種方式建立模型,從幾百個變項中選出幾個候選變項往往是整個資料採掘過程最耗人的一個過程,實務上常使用WOE和IV用於變項篩選和分析(特別是信用評分卡模型),並透過WOE將原始資料離散化並取代後放入logistic模型中進行二分變項(結果只有0或1)的分析.

2014年10月4日 星期六

Like a Bat 從行銷中的分析單位到IT中的分析單位 - 後記


     
        圖片來源:黑暗騎士劇照

        前天發了篇Like a Bat 從行銷中的分析單位到IT中的分析單位,提到一些兩造的差異.但是過了一天又覺得差異其實並不若那麼大.

        昨天和部門主管報告未來的專案規劃,被問到很多技術上的問題,諸如資料平台,可用的資料庫等等.在回答這些問題的過程中,我突然想起來過去在調查分析時的情況.過去在提案的時候,不也是會回答種種執行方法上的問題嗎?

2014年9月7日 星期日

[R] 到底還有什麼可以吃!!!???以社會網絡分析(Social Network Analysis)觀察地溝油事件

在進入本文前,先讓我們看部影片

        所謂地溝油(http://zh.wikipedia.org/wiki/地沟油)就是廢物利用將使用過的油再次回收精煉使用的技術,技術層級超英趕美,是世界糧食的救星 ,本文的產生即是為了紀念這歷史性的一刻.

2014年8月30日 星期六

資料科學愛好者年會開始囉!




今天是第一屆的資料科學愛好者年會http://twconf.data-sci.org票卷在九十分鐘內賣光,來不及報名的朋友可以來這裡看投影片和實況.
投影片在這裡:資料科學愛好者年會粉絲團 https://www.facebook.com/twdsconf?fref=ts
hackpad上的文字實況:https://hackpad.com/2014--yoCSWnghDWb


資料分析鍊金術(七)-insight?

圖片來源:http://www.cgma.org/Resources/Reports/Pages/insight-to-impact-big-data.aspx?TestCookiesEnabled=redirect

        這幾年除了Big Data被超級濫用之外,Insight也是個聽到爛掉的名詞。人們已經無法滿足於單純的分析,而是想更進一步取得Insight,像是Custimer Research變成Customer Insight、或是乾脆用Insight代替Analysis的說法也有。那到底什麼是Insight?

2014年8月21日 星期四

[職涯] 累積你的人生,做出更多"對"的決定

        今天早上看到這篇文章累積你的人生,做出更多「對」的決定很有感觸,跟大家分享一下心得。

  • 人生不是做錯一個決定就毀了
        生活中總是充滿著意外,不論是感情上、工作上、或是日常瑣事中,我們總是做錯很多決定,有時候為此懊悔不已。

        "早知道當初就多陪她一點"、"早知道當初薪水談多一點"、"早知道當初應該堅持自己的看法"...等族繁不及備載。但是我們的生命很長,就算當下無法挽回,難道未來就沒有機會? 

2014年7月25日 星期五

市場調查在企業內部的Framework


        
        現在企業講求數據與消費者導向,這篇文章試圖根據目前在企業內部的觀察與經驗,建構了這樣的Framework來規劃市場調查部門在企業內部與其他部門的互動狀況。在這樣的架構下,市場調查部門將緊密的與企業結合,企業也可以透過市調部門更接近消費者。

2014年6月30日 星期一

[Python] 基礎篇:流程控制、物件與方法、List & Dictionary

        教學文第二篇來了! 主要在介紹:
        1. 用if、elif、else: 控制程式流程
        2. 定義物件與方法
        3. List 和 Dictionary的操作

        程式碼和結果一樣是用iPython nbviwer來呈現:   

2014年6月29日 星期日

[Python] 基本語法介紹、教學與簡單範例

        整理一下最近學習python的心得,寫了這樣簡單的教學,內容是有關基本的語法與變項、以及字串的操作。
        
        這次的語法介紹,是用iPython Notebook的NBViwer來展示給各位看,好處是可以看到語法和執行的結果,實驗一下這種呈現方式看好不好閱讀:

2014年6月19日 星期四

[R][翻譯]Reshape(transpose)! 資料的變形金剛

 

        今天的文章來自這裡
Reshape Package in R: Long Data format, to Wide, back to Long again 
        我們在做資料的時候,為了配合不同的演算法、公式、統計套件、或整理報表需求,我們常常需要將資料轉來轉去。最簡單的轉法就是行列交換(又稱轉置、transpose),但是實務上,這種轉置用途太小了,我們需要更複雜的變形。

2014年6月17日 星期二

[翻譯]讓你的DATA更人性 (Six Ways to Make Your Data More Human)

原文出處:Six Ways to Make Your Data More Human

        這篇文章是我最近看到在談Big Data文章的非技術文章中最有感觸的一篇,跟大家分享。這篇文章副標下得很好:"Big Data Is Great, But Marketing Still Needs the Human Touch"
        當不管業界還是學術界對BIG DATA一頭熱的時候,還是要適時停下來想想DATA本身對我們的意義,畢竟分析資料的資料來源是人,演算法的邏輯設定也是人,解釋的對象是人,未來應用的對象也是人,當然要讓資料"人性化"一點。這篇文章提供了六個讓DATA更人性的方法:

2014年6月11日 星期三

資料脈絡與詮釋

        數字會說話?錯,說話的永遠是人,這是最近很紅的一本書"精準預測"中的名言。如果只會看數字講話,那很容易跌入陷阱。別忘記,蒐集資料的是人,解讀資料的是人,使用資料的也是人,就算是演算法的設計,也是跟人有關,所以解讀數字時千萬不能脫離資料的脈絡。

2014年6月7日 星期六

傳統市場分析人員的未來

        我這邊說得傳統是指,依照一般商學或傳播的背景成長,所學專長可能是行銷、應用統計,對於程式設計或資料庫管理幾乎是零的人。BIG DATA為什麼吸引那麼多人進入,是因為這個領域除了傳統行銷或統計分析背景之外,也大量依賴資訊科技(甚至以資訊科技為主導)。


        BIG DATA時代有幾個資料分析特色是傳統市場分析人員需要適應的:

2014年6月5日 星期四

資料的切與不切,is a critical choice

        為了瞭解雨量和業績之間的關係,先前以用R抓網頁資料抓到了台灣的雨量資料,觀察三年來每一天雨量和業績的關係,我們去觀察是否雨量越大,業績會越好(或越不好),但是結果是相當不顯著的。直到有一天與同事聊天,同事以前是在達美樂上班,說有下雨和沒下雨對業績是有非常大的差別的。

2014年6月1日 星期日

[R]用R將資料依百分位數分組(Recode Data by Percentile) 連續型資料轉離散

        在資料分析中我們可以大致將資料類型分為離散型變項以及連續型變項兩種類別,以統計檢定來說,連續型資料的檢定力相對較強,結果也相對具有說服力。但是在真實社會環境中,第一很難確切的蒐集到那麼多連續型的變項;二來連續型變項之間的關係,由於檢定力強,反過來說就是除非兩者關係相當明確,否則很難證實相關性;若遇到這些情況,我們通常就會需要將連續型變項轉換成離散型變項,簡單來說就是將資料重新分組(或稱為recode)