2016年3月28日 星期一

H. spectrum 課程 20160319 「大數據的理念與應用」 翟本喬博士






小編心得:
        傳統時代,因為人腦、電腦速度有限,我們只能夠從有限的數據裡頭,去假設並且證明我們想要的東西,這就如同 <Too big to Know>那本書裡頭討論的,因為紙本書能夠被傳遞得知識有限,導致權威知識存在;
        但是在大數據時代,我們已經擁有速度非常快的電腦,而我們現在的問題不再是同樣的資料太多無法計算,而是資料之間的相關性太過於複雜,複雜到我們沒辦法用人的眼睛來發現。好險,透過Machine learning (機器學習)甚至Deep Learning (深度學習),我們寫程式讓電腦擁有自主校正,自主學習的能力。孩童需要營養,汽車需要燃油,而電腦需要資料,我們永遠都不知道電腦所跑出來的預測是否正確,但只要我們願意給他資料,給他時間,他是有機會可以跑出正確的預測的。

課程摘要:


  • 什麼是大數據?

    • 資料很多且複雜,難以用現在的資料庫系統來處理。

  • 大數據有四大難題,“多” ““快” ““變” “錯”。共有4V

    • 多 ( Volume)  : 資料量多
    • 快 ( Velocity):雲端即時上傳更新
    • 變 ( Variety) :資料格式多,不可能事先約定好格式
    • 錯 ( Veracity):錯誤必定存在,要如何自動校正處理。

  • 範例:傳統 VS. 大數據

    • 計算科學思維

    • 從運算法出發 VS.  從資料出發

    • 電腦翻譯

    • 搜尋電子化文本 VS. 同一文章、兩種語言找共通
      • 阿拉伯文翻英文在資料翻倍底下,正確度仍不高,但是在輔助人類翻譯底下已經綽綽有餘。

    • 拼音校正

    • 搜尋最接近字 VS. 觀察大家搜尋所用字

    • 偵測呆帳

    • 五向度FICO信用評分  VS.  運用Machine learning透過類神經網路 同時分析客戶銀行&信用卡紀錄中數百個變數

  • 大數據的層次

    • Storage         存得來。              Ex: 電報。
    • Data             看得到叫data。     Ex: 摩斯密碼變成字母叫做data
    • Information    看得懂叫做資訊。  Ex: 把字母湊成文字
    • Intelligence    用得來叫情報。     Ex: 部隊去調整才是有用的情報。

  • 大數據前後:

    • 過去:想一個方法去解決問題現在
    • 現在:用資料去想出以前的人沒有想過的方式。

  • 誰能從大數據裡面獲利:

    • 擁有大量資料的人
    • 看得到大量資料中看到資訊所在的人
    • 看得到如何把資訊轉換成情報的人
    • 知道如何利用這些情報賺錢的人。
      • 擁有Data 或者Information不是重點,
      • 而是更轉化成Intelligence甚至Action

小編問題:大數據在醫學上的應用?

  • 醫生必須要分類正確跟不正確的告訴電腦,正確跟不正確都要告訴電腦
  • 不太允許Try & Error,最後仍然需要人類判讀,電腦跟左手一樣只是輔助
  • 在醫學裡面要有更多人進入把關 (小編按:我想跟電腦合作!)
  • 當電腦判斷邏輯是類似的,例如訓練電腦看胸部電腦斷層,同樣的決策樹丟進新的資料,就可以訓練出會看腹部電腦斷層的電腦。
  • Genetic programing 
    • 利用演化的方式來找出最好的程式。程式自行剪接找出最佳解。
  • 如果醫師能夠參與過程,甚至擁有一定程度Machine learning 的認識,除了能夠擔任資料的給予者外,還可以知道可能在哪個決策上有問題。

沒有留言:

張貼留言