2014年7月9日 星期三

資料科學家線上自修課程-最近更新日期:2017-02-20


        現在線上免費的學習資源越來越多了!用本篇文章來整理有在使用的資源,有任何補充或推薦的網站也歡迎隨時留言,謝謝!


資料分析:
        1. Data Analysis 養成之路 http://www.mysliderule.com/learning-paths/data-analysis/
            作者很用心的整理要學習資料分析的必修學分,而且幾乎都有線上學習資源可以連結,算是非常全面的整理。

        2. Big Data University http://bigdatauniversity.com/
            很聚焦在Big Data的相關學習資源,一樣是線上,免費!

        3. Coursera https://www.coursera.org/
            各式各樣的教學內容,資料分析、資料處理、統計都有,只怕沒時間學

R:
        1. R Blogger http://www.r-bloggers.com/
            比較新的應用或討論會在這

        2. Quick R http://www.statmethods.net/
            基礎的用法都在這,很容易查詢基本指令的網站

        3. CookBook R http://www.cookbook-r.com/
                  知名的作者,除了基本的指令教學外,也提供大量範例,也有GGPLOT的教學

        4. Advanced R http://adv-r.had.co.nz/
                  提供了很多進階的觀念,包括資料結構或是package的設計

        5. R-tutorial http://www.r-tutor.com/
                  很清楚的統計分析語法說明,也有範例,不管初學還是進階者都很適合

        6. RDM(R Data Mining) http://www.rdatamining.com/
                 介紹如何用R做DATA MINING 有很清楚的實例和說明

        7. TW use-R Group's Blog http://tw.use-r.net/
            Taiwan R user group幾位元老的共同BLOG,有相當多的重要紀錄

            8. Taiwan R user group 的Meet UP 
http://www.meetup.com/Taiwan-R/
              目前台灣相當有規模的R user Group,每個禮拜都有定期聚會,提供最新的技術和分析,非常推薦參加!(目前場場爆滿...大家不要跟我搶位置!)

          9. Data Camp  https://www.datacamp.com/
                       有點像codecademy的R版,特別是有教R和Qundle的應用

PYTHON:
         1. Codecademy http://www.codecademy.com/
             免費的線上Python入門,除了Python之外,還可以學java script、Ruby

         2. Chechio http://www.checkio.org/
              最近在玩的網站,網站有不同關卡和題目,需要寫code滿足題目需求,重點是寫完後可以看其他高手的解答,對於寫作非常有幫助!

        3.Udemy https://www.udemy.com/courses/
        雖然是要付費的,但是常常特價只要10美金,有各式各樣的課程,不只Python.若要跟python還有資料分析有關的我個人推薦 https://www.udemy.com/user/lazy-programmer/ 這個老師,講解和code都很清楚 step by step的操作.


        現在要學東西真的沒有藉口,免費資源那麼多,不看是自己損失。


圖片來源:http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html


7 則留言:

  1. 您好,我剛開始接觸 big data 的領域。心中一直有個疑惑,就是在一個完整的數據分析中,最重要的環節是什麼? 是原始資料的正確性、資料分類分群的方法、還是運算與估算的方法? 現在有很多公民團體,都拿 open data 做各種分析,但是沒有看過對其分析的過程、手法、變數、model 產生疑惑。難道各種維度的數據分析也是自由心證? 有無可能同一個數據,不同人用不同維度,可能對同一個議題產生完全顛倒的結果呢? R, Python, 統計學, 數學等,是否都只是用來解題的工具與手法? 若要學習如何正確的整理數據,與使用合理的 model 來分析,我應該如何下手呢? 謝謝您

    回覆刪除
    回覆
    1. 感謝你的問題,因為你的問題其實滿多元的,我先依照我自己的解讀分成幾部分來回答,如果有理解不清楚的地方還要煩請補充

      1. 數據分析中最重要的環節?
      基本上這個問題我會說,每個環節都很重要。原始資料室一切分析的來源,當然需要有一定的正確(或說真實性比較恰當)。中間資料處理的過程當然也是非常重要,極端值或空缺值得處理,也會直接影響到之後的分析結果。
      但是在這些環節之前,還有一個最重要的前提就是問對問題。 正由於中間過程具備各種可能性,一開始的目標反而更顯重要,要有明確的問題,才能導引出之後不論是資料的蒐集方式或是資料處理、分析方法。

      2. 同樣的數據是否有不同維度,對同一個議題產生不同(或顛倒)的結果。
      一般來說,資料科學之所以可以冠上科學一詞,正是因為方法的可檢驗性,照著同樣的資料、方法來分析,必定會得到相同的結果。那你說有沒有可能依照不同的觀點來使用或詮釋資料,那倒是很有可能也很常發生的。

      3. R, Python, 統計學, 數學等,是否都只是用來解題的工具與手法?
      是的沒錯。在現實生活中,我們關切的永遠是如何回答問題,而非解體的方法,更何況用什麼軟體。

      4. 若要學習如何正確的整理數據,與使用合理的 model 來分析,應該如何下手呢?
      如果你是為了尋找答案,建議可以從自己有興趣的問題下手,看看不同的人如何透過資料回答問題,先認識不同的方法取向後,進一步思考不同研究取向的優缺點。量化和model不是唯一解。
      如果你已經對研究方法有初步的認識,而且也喜歡資料分析,可以開始閱讀統計學和資料採掘方法論的部分,更深入的了解每種分析方式的適用對象和限制,可以幫助你在面對資料時,挑選合用的工具。最後就是真實面對資料,開始蒐集資料分析,比較自己的結果和其他人有什麼不同,很多資料分析的魔鬼,都的確藏在資料處理的細節中。

      希望以上的回答對您幫助:) 也歡迎一起來做更多討論

      刪除
  2. 您好, 近來開始入門Big Data的領域,無意中Search 到您的網頁,覺得內容十分的實用。有些問題想要請益您的看法
    1) Big Data 涵括層面甚廣,技術性的就有Hadoop,Map Reduce, R Language...更深入的就是統計學上的分析,再來就是市場行銷面的分析等等,而我是從事DBA的工作,就是Oracle,SQL Server ...等資料庫管理程式開發的工作,若要轉入至Big Data的領域,該如何從既有的專業再向上擴展呢? 免費的線上課程資源是都找的到,但要定一個方向深入研究又覺得似乎過於窄小,上了線上課程總有無法引起共鳴,例如我現在看R Language, 因為尚無實作的經驗,不能體會這類技術可以作多強大的運用,所以該如何循序漸進呢?

    2) 雖然現在大家都在談Big Data, 但這個在台灣的就業市場的實際應用上還不普及,我的解讀是大多數的人也還在探索,也還沒找到可以有獲利的營業模式出來。況且以資料量而言也只有大型公司才有如此龐大的資料量可以採用和分析,所以該朝向哪種面向的職缺,才能進入Big Data的領域呢

    謝謝

    回覆刪除
    回覆
    1. 哈囉~不好意思不知道怎麼稱呼你,你的問題非常的關鍵
      1) Big Data其實是個很廣的領域,當面對龐大甚至即時的資料時,無論是儲存,處理,或分析都會面對很大挑戰。因為我自己是分析出身,所以文章也是偏向分析這一塊,但實際上如何存取big data資料也是相當重要。以DBA領域來說,也發展相當多技術來處理Big data議題,例如Teradata就是著名的分散式資料庫,其中相當多的底層技術環節可以發展,其中的Aster也在資料庫的基礎上建立了分析功能,這些都是DBA處理Big Data的議題。除了既有RDB之外,很多DB也開始發展NOSQL的技術(例如Postgres),這也是處理Big data資料會用到的部分。不過因為這些比較技術都非常專業,線上免費課程相對少,但是實際上還是有公司在做這方面的發展和應用

      刪除
    2. 2) Big Data大家都在喊,的確實際上能擁有稱為"Big Data"的資料量並不多見,甚至很多都拿著資料用著傳統方法分析也喊著big data。對我來說Big data不是單純把資料放在hadoop上,用R甚至Spark來跑才叫big data。Big data的討論還是要回到Big data的本質--volume, variety and velocity來討論。儘管有些公司可能沒有辦法達到量的要求,但是如果資料很多樣化(最常聽到的是蒐集來自社群媒體的資料,或綜合不同的data source),或是real time的來處理資料(最簡單俐如分析log data)都可以算是big data的一環。
      要進入哪個領域最後還是得回歸你的興趣是要做應用分析還是底層的架構,我相信只要有資料的公司就有利用big data的需求,在原有的職位上開一些小的POC來做,把現有工作導入big data的概念也未必不行(老闆同意的話)~

      刪除
  3. Hello, Bryan,
    忘了自我介紹,我是Vicky, 謝謝您的看法與見解。就誠如您所提到的,Big Data 還是回歸到本質--volume, variety and velocity,才不會令人覺得混淆不清。傳統的資料量絕對有不可取代的優勢,而Big Data 是近來新發展的運用,可以思考看看在這領域上如何創新並實作出能有獲利的商業模式出來。
    在技術面上,因為每門的學問都蠻專業,目前也是朝自己有興趣的方面作學習,雖然工作上用的機會很小,但總會有用到的一天吧。
    再次謝謝您的快速回覆。

    回覆刪除
    回覆
    1. 很高興有回復到你的問題,以後一起多多交流.Big Data應用和基礎領域真的又廣又雜,需要大家的參與和討論才有機會走得更遠:)

      刪除