AI 是學習的尚方寶劍還是“石中劍”?

11-03

編者按:本文來自芥末堆,作者:Jessie Chuang,36 氪經授權發佈。

過去,人們試圖通過分析學生的學習行為數據,給予其個性化的學習指導。但是,由於數據搜集技術的局限性,導致數據的指導意義不夠準確,商業化應用產值低。

近年來,隨著技術的進步,以及資本市場的關註,教育科技產品呈現井噴式爆發,許多學習過程得以數字化,數據搜集變得更加簡單。

大數據(Big Data)爆炸成長成為機器學習的養分。機器學習能獲得充分的訓練數據(training data) 與計算效能。人工智能產業(Artificial Intelligence,AI)經過一甲子的起落,終於因技術條件到位,開始突飛猛進。但是,單純掌握某種數據,不能實現功能上的聯動和數據共享,這種信息孤島現象會成為人工智能發揮的最大阻礙。

什麼是機器學習?

機器學習(Machine Learning)是人工智能的子領域。而常聽到的深度學習(Deep Learning)則是機器學習中的一支。

人工智能的范疇,涵蓋瞭所有嘗試以電腦去模仿人腦處理信息的能力。例如:以電路設計或算法來模仿人腦神經元網絡的運作;以程序模擬彼此互連的知識概念,如 Google 搜尋引擎的核心——知識圖譜(Knowledge Graph);以及,讓電腦能理解人類語言的自然語言處理技術(Natural Language Processing)等,都屬於人工智能的范疇。模仿人腦思考能力的人工智能到目前為止,不算完全成功;倒是機器學習技術,因為上述原因,達到博聞強記,神速運算的效果,而異軍突起。

機器學習大量使用統計的方法與推論,建立預測能力,讓電腦或人類可以有效地即時采取行動。機器學習的核心,在於電腦能從收到的資料中學習,持續提升達成預設目標的能力(例如,專門推薦餐廳的應用),而不需依賴開發者不斷下發指令。

今天,機器學習技術已經被廣泛應用於各產業。以下是各種可能的能力,例如:購物網站根據使用者瀏覽行為與歷史紀錄,動態調整推薦商品;零售商店根據氣候、季節、日期與地理位置等,計算各商品最佳定價;還有,人臉或圖片辨識、手寫輸入辨識、語音辨識、自動過濾垃圾郵件、自動偵測信用卡盜刷、幫醫生判讀資料等。機器學習早已被廣泛用在我們生活中,甚至你可能曾與人工智能客服交手過而不知道。

最引人關註的代表性事件包括 AlphaGo 戰勝世界圍棋冠軍、自動駕駛汽車上路、IBM Watson 用於開發智能語音助理等。

如果將機器學習用在學習上,又有哪些可能呢?臺灣大學林軒田教授團隊 2010 年贏得 KDD Cup 冠軍,題目是根據 3000 名學生回答數學題的 900 萬條記錄,預測個別學生是否能答對特定題目。這是一個容易理解的例子,也是一個非常清楚定義的問題。

人工智能成為熱門話題,一般人以此用語統稱,並不清楚其中各領域本質上的差異。組織主管看到別人揮著這把 " 尚方寶劍 ",媒體文章說著:下一個十年的絕勝點在於掌握如何善用人工智能,內心多少有焦慮,希望就像電影裡一樣,一朝搶到尚方寶劍,就立於不敗之地。教育培訓科技產業人士對人工智能的期許,情形類似。

現今人工智能已逐漸像基礎建設(例如:電力,水)一樣可以接取使用,所以,許多人認為以上的期待並不遙遠。沒錯,許多機器學習的計算能力已經透過程序接口(API)提供出來,例如:IBM 的 Watson、谷歌、微軟、阿裡雲都有提供這類接口服務。

人工智能是尚方寶劍還是石中劍?

可惜現實世界是個復雜的系統,這不是 plug-and-play(即插即用)。

第一,如果你還沒有明確定義的問題,人工智能對你是沒用的。對這點事實,人類應該感到慶幸(不會被取代),機器人隻能解決我們定義好而且適當建模的問題。各種算法就像用在不同場景的各種單一功能工具,依靠人類對關註的系統建立模型後,選擇適當工具用在適當的環節,並需要實際數據來訓練模型,調校與優化參數。數據越多,人工智能表現越好。有時因為情境或使用者的基礎不同,可能需重新訓練模型。

第二,如果你沒有 (1)正確結構化(2)乾凈(3)足夠的 -- 數據 ( Data ) ,幻想接上人工智能就會有神奇的效果,那是不可能的。

不準確的數據隻會帶來誤判,資料科學傢都知道整理資料經常花掉 80% 的時間,結構化的資料是為分析而設計過的資料格式,節省清理與匯整資料的時間,也與模型對接。模型要準,需要越多資料越好,所謂 " 足夠 " 的資料,根據你定義的問題范圍大小而定。

自適應技術在美國已逐漸導入各學習系統,有些正式評量也被采用,但為何還會出現成效不彰的反面案例呢?像所有工程系統一樣,這些系統設計上有許多因子與參數,因各自設定不同,應用時最好能視需求讓使用者調整部分參數。但在實際應用過程中,並非都有這種選項,結果不同系統效能自然相異。國外在學習場景導入這種系統,是經過好幾年與教師密切溝通合作,才得以成功。另外,其應用場景需將內容放進該系統,如果學習發生在系統之外,則系統擁有的資料不夠,效能當然大打折扣。

何謂足夠的資料(數據)?

學習的趨勢持續走向分散化、多元化、去中心化,一個系統不可能完全掌握學習者的足夠資料,這些發生在多元應用裡的學習經驗,需要像 Experience API(xAPI) 接取多重資料流,實時匯整,才能解決信息孤島 ( Data Silos ) 問題。

另一個 " 足夠 " 的層面是行為數據采集的維度,例如:做練習題,隻有記錄答對或答錯,機器學習可以推測的范圍極為有限(巧婦難為無米之炊);但是如果記錄瞭答題花費的時間、嘗試次數,那麼機器可以知道這題對學習者是偏難或偏易,或他是不是猜對的,再據此推送適合該學生的題目(題目的難度標註或統計是另一個議題);如果題目有按需給出提示,則做題者是否使用提示,揭露瞭不同意義;還有,如果知道答題前發生的相關學習行為,則給機器提供瞭更好的建議根據;如果機器模型累積瞭過去大量成功學習者的路徑,與當事者的過去記錄進行對比,則可以形成絕佳建議根據;最後,如果有記錄答題是在課堂上,與同學合作,在搭公車時,或在傢時間發生,這些維度的數據都可以被用到。

xAPI 正是這樣的工具,讓我們采集豐富維度的行為資料,依據分析需求來設計數據結構。隻要是數字系統,都可埋入 xAPI 進行行為數據采集,並不限於學習應用。

xAPI 的創新之處在於建立瞭獨立於應用之外的數據層,用統一語言打通應用之間的信息壁壘。這個標準數據層不但人可讀懂,機器也可讀懂,所以機器能夠自行推理。xAPI 基於語義網技術 ( Semantic Web Technology,也稱 Web 3.0 ) – 這是萬維網之父 Tim Berners-Lee 為將來萬物互聯環境智能化的願景所主張之關鍵技術,現在工業 4.0 也是基於這種語義技術。 未來,機器可以從群眾與內容的互動歷程 ( 也是群眾智慧 ) ,自動萃取語義網連結的內容、學習路徑、相關的人推薦給適合的人,xAPI 以 Key-Value 型態攜帶的情境、結果、環境、時間點等數據都可放進算法中。

xAPI 結合機器學習的應用案例

從下舉幾個使用 xAPI 進行行為數據采集,結合機器學習的案例。雖然不是直接的學習案例,但原理完全可以用在學習訓練上。

改進網頁佈局與行銷體驗

網站為提升轉化率,研究使用情境受到重視,一般透過運維管理 ( DevOps ) 改進網站使用體驗。但是,網站瀏覽者使用情境多元,增添變數,為不同裝置而設計的單頁式與響應式設計,增加瞭分析情境的復雜度。原來透過 Google Analytics 分析使用者體驗,但無法有效分析。

借助 xAPI 跨裝置的特性搜集行為,能夠掌握使用者的隱性及顯性行為,憑借自適化的語意網頁架構,讓內容與佈局分開儲存,後臺分析結果進行自動化調整 ( 網頁長度、設計、文案 ) ,最短時間呈現吸引訪客的內容。結果 bounce rate 與 exit rate 明顯下降瞭約 40%,新頁面推播點擊率由 8% 提升至 34%,來電成交率由 33% 提升至 53% 。 ( 臺灣大學 iCAN Lab 提供 )

以 xAPI 采集行為結合機器學習技術提升網上行銷轉化率(來自 iCAN Lab)

建立有情境感知能力的健康護理移動應用

脊椎損傷病患使用移動應用輔助復健運動與日常護理,但為減少這些病人操作應用的次數,建立能感知情境的智能引擎,持續收集病人的歷程資料以及相關情境資料(時間、地點、裝置 ...),並結合護理師所設計的處方,適時推薦適合病人當下的活動或提醒,更好地協助病患。

根據分析模型對資料進行結構化,xAPI 可以收集任何數字資料,包括生理數據,與傳感器數據,越多資料則推薦引擎智能越高。xAPI 的跨裝置特性,提升結構化資料匯流的效率。這個推薦介面降低病人需要手動操作應用的次數,實時自動推薦最適的活動給病人。 ( 臺灣大學 iCAN Lab 提供 )

信息孤島(Data Silos)是人工智能發揮的最大阻礙

數據(Data)是現代的石油,所謂數據寡頭就是那些擁有大量數據而掌握知識經濟的力量。在教育或培訓領域,信息孤島(Data Silos)才是人工智能發揮其力量的最大阻礙。你在其它領域看到的人工智能應用,尚未實踐在學習上,或使用成效不彰,是因為沒有足夠的數據。單一功能的人工智能,例如,廣泛應用在客服與行銷的聊天機器人,載入學科知識,當然可以用在教育上,但僅止於知識問答(例:喬治亞理工學院利用 IBM Watson 建立虛擬助教,回答事先建立好的 Q&A);單一學科的自適應學習,尤以數學最成熟,但仍需控制學習完全發生在該應用內才有意義。

真正瞭解學習者的智能助理,那是完全另一個層次!學習場景多元化的今天,個人學習過程分散,機器要掌握足夠數據才能建立智慧(較佳模型與推薦),整合打通多維度的行為數據,才可能建立無縫的智能化學習環境。沒有數據策略,你還離人工智能很遙遠。現在就從可行的范圍做起。

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/