2016年3月18日 星期五

游庭碩老師 / M10410302

接續前面兩位講者所提到的大數據,此次資訊科學家帶來更詳盡搜羅輿論資料來進行數據分析的具體作法,講者首先也解釋儲存裝置演化的來龍去脈,從隨身硬碟、大型伺服器端、到今天由專門公司提供的雲端,亦題及雲端運算,其實不單單是資料儲存,也包括各種串連的運算與使用,也因此我個人對於這類機制的安全與隱私抱持一個問號,特別是某家標榜安全的知名雲端也能被駭客入侵這點。

講者後面接續提到,資料科學除了電腦技術是基本之外,還要結合數學與統計學、該領域所需的知識,才能達到理想的資料呈現與搜羅方式,當今是web2.0的時代,搜羅輿論資訊來分析決定產品或市場走向,從原本是大公司才玩得起,漸漸平民化後,只要具備分析能力與軟體操作的人事皆可掌握,例如從鄉民常用的BBS、PTT上擷取,再進到中文分詞的軟體,在用詞典來分析與會的正負相含義,再統計分析所得數據大致是正向還是負向,但有趣的是有些不易區分的系統會有奇妙的判定標準,還是得人工去判讀,所以講者也提到他們正忙於訓練機器去學習分辨,降低人工的工作壓力,而這人工智能目前也應用在AlphaGO,與Google汽車上。

最後老師也總結,利用大量資訊採樣得來的分析結果作為基礎來做決策的做事方法,乃是資料科學的重點,而使用的工具手法,不外乎存取蒐集的數據、統合分析、展示觀察到的現況、進而引導作出決策,影響判讀的準確性除了數據夠不夠海量外,自身對於所求而延伸出的問題也是很重要的,要問對問題,出發點錯了目標就會出現偏差,同時也可導入設計的邏輯來作為資料科學的輔助。

問答時間講者也提供學習基礎資料科學所需的工具,與電腦科學的技術、所需的程式編纂的學習網站、資料科學的進階研究課程平台等等,讓我們得以一窺業界搜羅情資所使用的手法與入門之道。

沒有留言:

張貼留言