小編心得:
傳統時代,因為人腦、電腦速度有限,我們只能夠從有限的數據裡頭,去假設並且證明我們想要的東西,這就如同 <Too big to Know>那本書裡頭討論的,因為紙本書能夠被傳遞得知識有限,導致權威知識存在;
但是在大數據時代,我們已經擁有速度非常快的電腦,而我們現在的問題不再是同樣的資料太多無法計算,而是資料之間的相關性太過於複雜,複雜到我們沒辦法用人的眼睛來發現。好險,透過Machine learning (機器學習)甚至Deep Learning (深度學習),我們寫程式讓電腦擁有自主校正,自主學習的能力。孩童需要營養,汽車需要燃油,而電腦需要資料,我們永遠都不知道電腦所跑出來的預測是否正確,但只要我們願意給他資料,給他時間,他是有機會可以跑出正確的預測的。
課程摘要:
- 什麼是大數據?
- 資料很多且複雜,難以用現在的資料庫系統來處理。
- 大數據有四大難題,“多” ““快” ““變” “錯”。共有4V
- 多 ( Volume) : 資料量多
- 快 ( Velocity):雲端即時上傳更新
- 變 ( Variety) :資料格式多,不可能事先約定好格式
- 錯 ( Veracity):錯誤必定存在,要如何自動校正處理。
- 範例:傳統 VS. 大數據
- 計算科學思維
- 從運算法出發 VS. 從資料出發
- 電腦翻譯
- 搜尋電子化文本 VS. 同一文章、兩種語言找共通
- 阿拉伯文翻英文在資料翻倍底下,正確度仍不高,但是在輔助人類翻譯底下已經綽綽有餘。
- 拼音校正
- 搜尋最接近字 VS. 觀察大家搜尋所用字
- 偵測呆帳
- 五向度FICO信用評分 VS. 運用Machine learning透過類神經網路 同時分析客戶銀行&信用卡紀錄中數百個變數
- 大數據的層次
- Storage 存得來。 Ex: 電報。
- Data 看得到叫data。 Ex: 摩斯密碼變成字母叫做data
- Information 看得懂叫做資訊。 Ex: 把字母湊成文字
- Intelligence 用得來叫情報。 Ex: 部隊去調整才是有用的情報。
- 大數據前後:
-
過去:想一個方法去解決問題現在
- 現在:用資料去想出以前的人沒有想過的方式。
- 誰能從大數據裡面獲利:
擁有大量資料的人看得到大量資料中看到資訊所在的人- 看得到如何把資訊轉換成情報的人
- 知道如何利用這些情報賺錢的人。
- 擁有Data 或者Information不是重點,
- 而是更轉化成Intelligence甚至Action
小編問題:大數據在醫學上的應用?
- 醫生必須要分類正確跟不正確的告訴電腦,正確跟不正確都要告訴電腦
- 不太允許Try & Error,最後仍然需要人類判讀,電腦跟左手一樣只是輔助
- 在醫學裡面要有更多人進入把關 (小編按:我想跟電腦合作!)
- 當電腦判斷邏輯是類似的,例如訓練電腦看胸部電腦斷層,同樣的決策樹丟進新的資料,就可以訓練出會看腹部電腦斷層的電腦。
- Genetic programing
- 利用演化的方式來找出最好的程式。程式自行剪接找出最佳解。
- 如果醫師能夠參與過程,甚至擁有一定程度Machine learning 的認識,除了能夠擔任資料的給予者外,還可以知道可能在哪個決策上有問題。
