2015年4月17日 星期五

[心得] 究竟是“學習”還是“已知用火”?


回顧了一下去年的文章,發現去年的四月才剛接觸R,之後過了兩個月開始學python,接著又在去年底開始接觸scala,spark,最近兩個月開始用shell script(這些應該從我雜亂無章的網誌內容看得出來),常常會會質疑自己在這過程中到底真正學會了什麼東西,還是已知用火(出處)還自己為發現新大陸?


就資料分析領域來說,科技變動得很快,但是分析本身相對來說卻是古老到不行的技術,花了很多時間追逐新的技術,如果只是從用湯匙吃飯變成用筷子吃飯,我想這過程沒有辦法叫做學習.過去一年多來,技術碰得多,相對資料分析得少,對我來說這樣過程的意義究竟有什麼意義?

就統計軟體來說,我最早用過SAS和SPSS,中間包括EXCEL和公司的套裝軟體,近一年才開始使用R,我不會說這樣的過程是沒有意義的,在於不同的分析工具的確提供了不同觀察資料的視野.如果對統計很熟悉,SPSS可以讓人快速觀察各種統計資訊,SAS可以處理更複雜的資料型態,而R可以視為兩者的加強綜合,不但有強大的套件,同時也有可程式化的能力,可以對資料有更多的想像和操作方式.順道一提的SQL又是另外一種思考方式,需要考量不同表格之間的關聯性(一般問卷不太需要考量這個),並使用聚合的方式來處理資料.

雖然比較少用Python來分析資料,作為一個好入門的程式語言,python倒是提供了一個窗口看到程式的世界,一些方便小工具可以自己打造(例如爬蟲,或是API),在這網路時代來說,提供了更廣闊的資料來源想像(去年同一時間我還不會使用政府住址查詢API咧...).

接觸Hadoop和Spark後就更往CS這邊靠了一點,開始更熟悉各種CS名詞以及思考框架,也開始接觸一般號稱Big Data的資料處理及存放方式.由於能夠接觸更龐大的資料,對於資料的可用性以及想法的確也和過去10000份樣本就很大的感覺有所不同(但是10000份以“樣本”來說的確很大了!).

雖然這段期間內並不專注於資料分析上,但是總和來看對於資料的認識還算所成長,備感欣慰.雖然在CS這塊還是不算是已知用火,只算已知撿木頭的階段,但是也總算有辦法搞些破爛的ETL流程出來,希望把底打好後可以花更多時間在資料上面.

回過頭來分享一下自己學習新東西的過程,其實就像學筷子時,限定只能用筷子吃飯,這樣就可以了zzz 因為我對技術實在不熟悉,只能盡量掌握一下新工具的精神,至少知道遇到什麼問題可以用哪個工具來解,反正google很方便,針對自己不會的步驟來查詢,多少可以慢慢解開.如果一個大問題不會,也查不到,就拆成一堆小問題,總會有答案的(畢竟道行還很淺).當google的東西真的越來越少時,表示你已經進入高處不勝寒的境界了!


沒有留言:

張貼留言