2014年1月29日 星期三

新年快樂 馬到成功--進入市場分析的心路歷程

        
        因為這幾天過年出門在外 ,不方便更新文章,祝各位讀者新年快樂 !
回顧進入資料分析這行,也是相當巧合。研究所時念的是人口學 ,研究的是存活分析方法 ,畢業後進入市場調查公司 ,腦袋中的研究方法和統計方法少得可憐 。只知道質化量化 ,對於量化的認識也只限於調查統計。

         一開始接觸 CRM和Data mining ,還是一位離職的前輩介紹才知道原來有這種分析方式 。後來做了一些了解後 ,發現市場調查與資料挖掘本質上的差異 ,在因緣際會下投入製造端 ,才有幾會實務上處理Crm和data mining。
         在分析資料幾個月後 ,進一步體認到儘管市場調查調查和資料探勘研究法法上有所差異 ,但是研究人員的心態上卻沒有太大差別 。無論是採用何種研究途徑,研究人員的好奇心是最重要的出發點--為了更接近市場事實 ,用各種可能且合乎邏輯的方式來剖析市場 。
        研究方法就是不同的工具,當你的工具箱中有越多工具 ,就能有更多滿足好奇心的選擇 。新的一年希望自己仍能保持好奇心 ,更靈活的使用各種放方法。

        圖片來源:http://www.kinetic-impulse.com/mocap_data/

2014年1月28日 星期二

資料分析鍊金術(一)--認識手上的資料庫

     

         因為剛換工作,想趁記憶猶新的時候,把所有接觸資料庫到分析流程記錄下來,作為將來自己或是其他人的參考。

         (一) Read Database Schema
        作為新成立的資料分析部門,硬碟裡沒有半個DATA也是很合理的事情,於是只好請資料分析的好朋友--IT部門撈資料。因為行業關係,我們公司除了會員資料庫之外,也有自己的POS DATA和生產資料(這都是慢慢才知道的),每個資料庫因為資料結構不同,所以都儲存在不同的TABLE中。例如會員資料庫就會有會員代號、姓名、生日、電話、消費次數等以"會員"為分析單位的資料;而POS DATA就是以每筆消費為單位,儲存內容包括銷貨日期、單據金額、原訂價、實際售價等等,要依當初設定的SPEC(或Schema)而定。因此第一步就是像IT申請所有資料庫表格的Schema、代號對照表,才能了解目前公司有多少個資料庫表格、欄位內容、以及不同資料庫之間的串連方式。Schema包含了資料庫的變項內容,是了解資料庫最基礎也最重要的步驟,從schema觀察每個資料庫的內容資料,變項之間的關係或定義最好也能先有初步認識

         (二)Read the Data
         接著請IT撈每個資料庫的DATA,這裡建議是每個SCHEMA都撈,也不要設任何篩選變項,直接觀察最原始的資料。觀察資料的方式先取第一筆或前十筆,從實際的DATA中了解變項的(A)資料格式以及(B)變項之間的關係。

         (A)使用資料分析軟體讀資料時,一開始都建議先用文字變項讀取每一個欄位,避免有些假數值的欄位讀取錯誤(例如電話號碼,開頭是0,如果一開始用數字格式讀取,之後難以處理);或是資料會有其他莫名的格式錯誤(例如全形半形),用文字變項讀取會較為安全。

         (B)變項之間的關係是最複雜的部分。因為當初設計資料庫的人第一可能不在,也沒留下紀錄,有些關係無從了解。或是其他人不習慣使用的變項,找不到變項與其他變項之間的關聯,都會對我們未來的分析有所影響。

         (C)除了單一資料庫內變項之間的關係外,也要了解不同資料庫間相關變項的關係。例如會員資料庫中通常會有消費次數和累積消費金額,這兩個值可以由POS系統中的會員歷次消費紀錄得出。資料庫之間的了解也有助於將來分析跨資料庫變項。
        
        (三)Clean the Data
        這邊會花超級多時間,而且狀況千奇百怪。檢查步驟很基本也很原始,將變項讀入後,使用次數分配或SUMMARY觀察每個變相的分配、最大最小值、看有沒有異常的情況(這邊的異常指的是資料"格式"上的異常,內容上的異常目前先不處理。以這次遇到的例子:

        (A) 資料換行:第一次讀資料發現很多奇怪的資料位移狀況,某個人的消費次數變成日期、其他數值也超級怪。進去RAW DATA看(直接觀察TXT檔)發現是一些開放題(像是地址)出現了看不見的換行符號,所以將資料撈出時碰到該換行符號資料會自動換行,造成部分觀察值得異常情況。
     
         (B) 資料跳格:接著我們又發現變項數目超過原始的Schema,有些觀察值多了一些變項,也是發生資料位移的情況。回到raw data一看,發現原來又是開放提搞得鬼,有些開放題使用了csv檔的分欄符號",",造成資料讀取錯誤(例如地址欄填了台北市,北區,信義路)。

        (四) Check the Value
        如果公司沒有直接的資料分析部門,通常都會透過ERP系統來撈取資料庫資料,但是每個功能或資料結果背後連結的資料庫變項就不一定有人那麼清楚。在計算一些重要變項時,建議交叉比對自己使用統計軟體以及ERP系統的資料,以確保資料的一致性和正確性。有些很基本的統計數值ERP系統其實也跑得出來,像是會員人數,年度消費金額等。一定要確定自己的變項抓對,才能進行後續的分析。

圖片來源:http://jss.uk.com/IT-Services/web-database-forums-blogs
         
        

2014年1月26日 星期日

我所認知的BIG DATA以及企業應用

     
         Big Data是近年來相當夯的術語,不管是企業還是學術都相當的一頭熱。因為Big Data是個相對應用的領域,各行各業都有運用Big Data的佼佼者,相關的書也談得相當多,在這就不再贅述。有興趣請參考   http://en.wikipedia.org/wiki/Big_data  ,或是天下雜誌出版的大數據(http://www.books.com.tw/products/0010587258) 這裡只談談目前我認知到的Big Data以及企業導入的方式。

       Big Data並不是一個新的概念和領域,相關的技術其實在各領域都有一定發展,但是為什麼還是很多企業無法好好運用? 在於Big Data並不是一個單一的技術或領域,而是橫跨了包含資料庫建置、資料分析、資料視覺化、消費者行為研究、統計等好幾個不同專業領域的資料科學。

        一個完整可供企業使用的Big Data流程為:消費者基本資料蒐集(CRM)、消費行為蒐集(POS DATA)、資料倉儲管理(Data Warehouse)、資料清理(Data Cleaning)、資料分析
(Data Analysis)、最後也是最重要的是將分析結果重新導入資料庫(Machine Learning)作為下一次分析或應用的基礎。

        其中困難的往往不是個別的技術,而是企業中往往沒有這樣的人或團隊能執行整個流程。例如就以很簡單的購物籃分析為例,前端需要POS系統蒐集購物資料,進入公司系統後需要清理POS DATA並轉換成分析軟體適合的格式,分析後再將結果重新寫入消費者推薦欄,才能完成整個購物籃分析的流程。在企業中需要以專案的形式集結各部門專業人員才有辦法將購物籃系統導入,並非單一個人或單一部門能夠完成。

圖片來源:http://virtualization.sys-con.com/node/2670357

     

市場調查(Marketing Research)與資料庫分析(CRM & POS DATA)對企業的幫助

     
        現代企業面對的外在環境遠比以前複雜,除了同業的競爭外,各種跨界競爭更是防不勝防(例如家樂福最大的敵人可能不是COSTCO,而是YAHOO)。在選擇越來越多的時代,傳統生產者和消費者的權力關係逆轉過來,不再是生產者要做什麼消費者就得接受,在這個時代了解消費者的玩家才能贏得市場。

        傳統製造商利用市場調查抽樣的方式了解消費者,但隨著企業自己掌握的資訊越來越多,企業也能從內部會員資料(CRM DATA)以及銷貨資料(POS DATA)掌握消費者的需求。當資料儲存設備的成本越來越低,BIG DATA的分析是當今各行各業的熱門議題。

        先前我極端一點的認為,最終企業內部資料分析將會完全取代企業對於市場調查的需求,但是實際在接觸兩造產業後,否定了這樣的假想。事實上,若要全盤的了解市場消費者,市場調查和資料庫分析都不可缺少,兩個取向(Approach)分別看到市場的兩面。

        資料庫分析來自內部的會員資料和銷售資料,優點是能對會員的行為有更細微以及精準的了解和判斷。例如可以依據會員的貢獻將其分層,或是針對其購買的物品進行預測分析。但是缺點是只能了解會員的行為,不能了解非會員的行為模式。

        市場調查透過抽樣(Sampling)的方式了解消費者輪廓,優點是能了解會員以及非會員的生活樣貌,但是缺點在於抽樣過程可能造成的偏誤,以及無法太精細的測量消費者行為。

        唯有透過資料庫分析和市場調查才能了解到市場的兩面--消費者與潛在消費者。

圖片來源:http://ebizsol.ca/business-researching/

2014年1月24日 星期五

市場調查(Marketing Research)與客戶關係管理(Customer Relationship Manage)的異同

     

        去年的三月,受到某職場前輩的經驗分享與鼓勵,於去年底從市場調查一腳跨進了客戶關係管理(CRM)領域。不同於從市場上以隨機抽樣的方式蒐集受訪者資料,CRM的資料來自於公司自己的會員資料,以及各種活動行為的紀錄。兩者不論是在研究方法或是分析方式都有截然不同的差異。

        由於CRM資料庫來自於自己的會員,所以沒有抽樣的問題。但是另外一方面,因為市場調查的資料來自於自己設計的問卷以及受過訓練的訪員、督導,所以資料彼此之間的關聯是預先設計的,資料品質也有一定的控制。但是CRM資料在設計當初往往沒有分析人員的介入,因此資料在定義及結構上是相當散亂的,散亂的不只是各個資料之間的關係,也包括資料本身也暗藏著大量的陷阱和錯誤,需要花費相當時間在了解資料結構、定義以及Clean Data上。

        以結構來說,客戶資料不只是單純一個資料Table,可能還有POS DATA、商品分類、進銷貨等數個大型彼此關聯的TABLE。這些TABLE可能是同一個時間點或是不同時間點創建,彼此之間的關係有可以比對的部分,也有無法比對的部分,狀況完全不是資料分析人員可以事先預測的,每個變項的定義和關聯也是需要花費一陣時間才能了解掌握。

        另外在資料的檢誤上也是一番功夫,例如商品退換貨的狀況,或是每個KEY IN資料人員(可能是門市人員)都有許多的特例和個案。在閱讀DATA中如何排除個案,來確保分析資料的品質都只能見招拆招的處理。

        雖然市場調查和客戶關係管理都是資料分析,但是市場調查訓練的是問卷設計、研究設計、抽樣設計的能力;而CRM資料庫分析訓練的是CLEAN DATA和管理資料的能力。

圖片來源:http://www.harvestsolutions.net/crm-insights-blog/bid/92363/What-to-Look-for-When-Choosing-CRM-Software-Vendors