2014年7月30日 星期三

[R] SQLDF VS LAPPY效率測試


        剛開始學R的時候對於R的指令很不熟,所以大部分都習慣用sqldf來寫查詢指令。隨著對R的熟悉,最近也在嘗試用R內建的fnction來查詢資料,所以才想說來比較一下兩者的效能差異。俗話說時間就是金錢,在處理大量數據的時候,對於處理速度更是要斤斤計較。

2014年7月25日 星期五

市場調查在企業內部的Framework


        
        現在企業講求數據與消費者導向,這篇文章試圖根據目前在企業內部的觀察與經驗,建構了這樣的Framework來規劃市場調查部門在企業內部與其他部門的互動狀況。在這樣的架構下,市場調查部門將緊密的與企業結合,企業也可以透過市調部門更接近消費者。

2014年7月23日 星期三

[職涯] 那些除了Consumer Insight之外的事情......



        對於行銷研究來說,了解消費者行為是最重要的事情,我們深深認為當我們透徹地解讀消費者的行為模式之後,能夠協助客戶獲取更大的利潤。站在行銷研究者的角度來說這當然沒錯,但是站在企業端的話,這件事說不定只對了一半還不到。


2014年7月19日 星期六

[Python] 自製N-Gram Analyst 文字探勘(text mining)軟體

       
        做質性調查的時候常需要從受訪者的文句中,挑出重要且關鍵的概念,這些重要概念可能是受訪者查掛在嘴邊,或是無意識間透露出的字句。資料處理上,我們會將受訪者的受訪內容透過文字,以逐字稿的方式呈現,研究者再從中觀察、解析重要的觀念。

2014年7月16日 星期三

[Python] 土砲N-GRAM(文字探勘、文本分析工具)演算法大升級! 加入長詞優先法與斷句系統


        上次很簡單做的N-gram演算法其實有幾個明顯缺點:
1. 標點符號一起加入計算
2. 有些字詞屬於長詞中的一部分,例如"拉熊"是"拉拉熊"的部分,兩者會重複計算,但其實"拉拉熊"才有意義
3. 中英數混合文章無法取得有意義分析

        本次的更新重點在於:
1. 以標點符號來切割句子,取得更有意義的結果
2. 以"長詞優先法"來優先計算詞句出現的次數,並刪除子詞


2014年7月13日 星期日

[Python] 土炮自製文字探勘(TEXT MINING) N-GRAM演算法

        先前在做文字探勘的時候([R] TEXT MINING(文字探勘練習)),主要會用到tmcn以及Rwordseg這兩個套件,這兩個套件主要是運用字典檔的方式將字詞切開,然後再對於切出來的字詞作次數分配,這樣的作法雖然可以清楚切出常用的詞彙,但是也礙於字典檔的限制,無法一些新的、或特別的術語(例如PTT中的詞彙、或是一些講話的口頭禪)。

2014年7月12日 星期六

[Python] 幫我家電子寵物做了一個草皮!


        看著自己的單細胞只能孤獨的為生命倒數計時讓我不僅感到悲傷,為了給他們更好的生存環境,今天早上特別幫他們打造5星級的生存環境!

[R] R3.1.1出來啦 !



        搶先報! R3.1.1(代號: Sock it to me!)釋出啦! 只要在R consle裡面輸入:
        install.packages("installr"); require(installr)
安裝完成後再輸入
updateR()
就可以無痛升級到最新版本啦!本次改變沒有太多重要的新功能,但是改了相當多的bug,詳細的更新項目可以參考:http://cran.rstudio.com/bin/windows/base/NEWS.R-3.1.1.html 因為相當多功能我也沒用過,也不知道從何翻起阿阿阿!!(其實就是懶而已)


資料與圖片來源:http://www.r-bloggers.com/r-3-1-1-is-released-and-how-to-quickly-update-it-on-windows-os/

[Python] 養不起寵物只好養電子雞,Python多執行緒(Thread)之測試

        話說友人最近養了隻小貓,上次去他家玩深深被動物的靈性所吸引,但是我自己住的地方又小又亂,完全不適合養貓...只好開始思索其他動物的可能。狗要散步不行,魚又太沒有互動,兔子大便很臭關在房間我絕對自己窒息,想來想去剛好前幾天發現有人在養刺蝟,馬上被刺蝟的萌樣吸引啊!! 也太可愛了!! 於是乎開始了搜尋如何飼養刺蝟的文章,但是看來看去,照顧動物真的不容易啊...哀...既然無法飼養真的動物,又想滿足回家有小動物撲上來打招呼的幻想,只好開始思考電子雞之路(目標是電子女僕)

2014年7月9日 星期三

[R] 以不變應萬變-SQL in R


        只要有用到資料庫,那一定會學到SQL(Structured Query Language-結構化查詢語言)的語法,SPSS和SAS也有類似的語法或套件,SAS EG更是大量使用SQL的語法。雖然版本很多,但是SQL的語法大同小異,在剛使用R的時候,由於對其他的指令還不熟悉,馬上就搜尋有無SQL的套件可以使用--有的,叫做SQLdf(http://cran.r-project.org/web/packages/sqldf/index.html)


資料科學家線上自修課程-最近更新日期:2017-02-20


        現在線上免費的學習資源越來越多了!用本篇文章來整理有在使用的資源,有任何補充或推薦的網站也歡迎隨時留言,謝謝!

2014年7月8日 星期二

資料科學家 vs 資料工程師

        今天看到了這篇文章Data Scientist vs Data Engineer裡面提到"資料科學家",與"資料工程師"的差異:資料科學家重點在於從DATA中找到insight,建立解釋模型、並說出一個好故事;而資料工程師更為著重如何取得與儲存DATA,並維持資料系統的運作。

2014年7月3日 星期四

[Python] 變更字串內容

        
        今天在跟CAVEEducation的實習生介紹python入門的時候,提到一個概念"字串就是陣列",所以在操作字串的時候例如for迴圈或索引值(如[1:4])的時候都跟陣列操作的方式一樣。但是有個概念卻沒有說清楚。就是"無法修改字串中的元素"。