講者後面接續提到,資料科學除了電腦技術是基本之外,還要結合數學與統計學、該領域所需的知識,才能達到理想的資料呈現與搜羅方式,當今是web2.0的時代,搜羅輿論資訊來分析決定產品或市場走向,從原本是大公司才玩得起,漸漸平民化後,只要具備分析能力與軟體操作的人事皆可掌握,例如從鄉民常用的BBS、PTT上擷取,再進到中文分詞的軟體,在用詞典來分析與會的正負相含義,再統計分析所得數據大致是正向還是負向,但有趣的是有些不易區分的系統會有奇妙的判定標準,還是得人工去判讀,所以講者也提到他們正忙於訓練機器去學習分辨,降低人工的工作壓力,而這人工智能目前也應用在AlphaGO,與Google汽車上。
最後老師也總結,利用大量資訊採樣得來的分析結果作為基礎來做決策的做事方法,乃是資料科學的重點,而使用的工具手法,不外乎存取蒐集的數據、統合分析、展示觀察到的現況、進而引導作出決策,影響判讀的準確性除了數據夠不夠海量外,自身對於所求而延伸出的問題也是很重要的,要問對問題,出發點錯了目標就會出現偏差,同時也可導入設計的邏輯來作為資料科學的輔助。
問答時間講者也提供學習基礎資料科學所需的工具,與電腦科學的技術、所需的程式編纂的學習網站、資料科學的進階研究課程平台等等,讓我們得以一窺業界搜羅情資所使用的手法與入門之道。
沒有留言:
張貼留言