
機器學習已經(jīng)被證明是很有用的,但也容易被假設可以解決所有問題、適用于所有情況。和其他工具一樣,機器學習在特定領域很有用處,特別是那些你一直都知道有、但永遠無法雇傭足夠的人來解決的問題;或者是那些有明確目標、但沒有明確實現(xiàn)方法的問題。
盡管如此,每個企業(yè)組織都可以以某種方式利用機器學習,在埃森哲最近的一項調(diào)查中,有42%的高管表示,他們預計到2021年我們幾乎所有創(chuàng)新項目背后都有人工智能的支持。但是,如果除去炒作的話你能得到更好的結果,通過了解機器學習能做什么、不能做什么,避免常見的誤區(qū)。
誤區(qū)1:機器學習就是人工智能
機器學習和人工智能經(jīng)常當作是同義詞,機器學習是從研究實驗室走出現(xiàn)實世界最成功的一項技術,而人工智能則是一個廣泛的領域,覆蓋了計算機視覺、機器人和自然語言處理等領域,以及不包含機器學習的約束滿足等方法??梢园讶斯ぶ悄芸吹揭磺心茏寵C器變聰明的方法。所有這些都不是一些人擔心會與人類競爭甚至是攻擊人類的那種“人工智能”。
你要謹慎看待各種流行詞匯,盡量做到精準。機器學習是關于學習模式和預測大數(shù)據(jù)集的結果;其結果可能看起來很“聰明”,但核心是以前所未有的速度和規(guī)模運用統(tǒng)計學。
誤區(qū)2:所有數(shù)據(jù)都是有用的
要做機器學習的話就需要數(shù)據(jù),但并非所有數(shù)據(jù)都可用于機器學習。為了訓練系統(tǒng),你需要有代表性的數(shù)據(jù),以涵蓋機器學習系統(tǒng)需要處理的模式和結果。你所需的數(shù)據(jù)不應該包含那些不相關的模式(例如照片顯示所有站立起來的男士和所有坐著的女士,或者所有車輛都在車庫中,所有自行車都在泥濘的場地中),因為你創(chuàng)建的機器學習模型將反映那些過于具體的模式,在你使用的數(shù)據(jù)中心查找這些模式。所有用于訓練的數(shù)據(jù)都需要貼上標簽,并且標記上那些與你向機器學習系統(tǒng)提問相匹配的特征,這就需要大量的工作。
不要假設你已經(jīng)擁有干凈的、清晰的、具有代表性或易于標記的數(shù)據(jù)。
誤區(qū)3:你總是需要大量的數(shù)據(jù)
最近在圖像識別、機器閱讀理解、語言翻譯和其他領域所取得的重大進展,主要是因為現(xiàn)在我們有了更好的工具、能夠并行處理大量數(shù)據(jù)的GPU等計算硬件、以及已經(jīng)標記的大型數(shù)據(jù)集,包括ImageNet和Stanford Question Answering Datase。但是,因為有一種名為轉(zhuǎn)移學習的技巧,所以你并不總是需要大量數(shù)據(jù)才能在特定領域獲得良好結果;相反,你可以訓練機器學習系統(tǒng)如何使用一個大型數(shù)據(jù)集進行學習,然后將其轉(zhuǎn)移到你自己的小型訓練數(shù)據(jù)集中去。這就是Salesforce和Microsoft Azure的自定義視覺API的工作原理:你只需要30-50張圖像即可顯示想要分類的內(nèi)容以獲得好的結果。
轉(zhuǎn)移學習讓你使用相對較少的數(shù)據(jù)就可以為你的問題定制預先訓練好的系統(tǒng)。
誤區(qū)4:任何人都可以建立一個機器學習系統(tǒng)
有很多用于機器學習的開源工具和框架,以及無數(shù)課程向教你如何使用機器學習。但機器學習仍然是一項專有技術;你需要知道如何準備數(shù)據(jù)并對其進行分區(qū)、訓練和測試,你需要知道如何選擇最佳算法以及使用何種啟發(fā)式算法,如何將其轉(zhuǎn)化為可靠的生產(chǎn)系統(tǒng)。你還需要監(jiān)控系統(tǒng)以確保隨時間推移結果保持相關性;無論你所在市場的變化,還是你的機器學習系統(tǒng)足夠好,最終你都會遇到不同的客戶群,你需要持續(xù)檢查該模型是否與你的問題相一致。
正確利用機器學習需要經(jīng)驗;如果你剛剛起步的時候,可以借助API預先訓練可以從代碼中調(diào)用的模型,同時聘用數(shù)據(jù)科學專家和機器學習專家來構建自定義系統(tǒng)。
誤區(qū)5:數(shù)據(jù)中所有模式都是有用的
哮喘患者、胸痛或心臟病患者、任何100歲以上老人的肺炎存活率遠高于預期。不錯,實際上,一套簡單的、設計可自動發(fā)送住院通知的機器學習系統(tǒng)可能會通知他們回家(一種基于規(guī)則的系統(tǒng),用相同的數(shù)據(jù)進行訓練,就像神經(jīng)網(wǎng)絡那樣)。之所以存活率這么高,是因為肺炎非常危險,患者會被立即送到醫(yī)院住院。
這個系統(tǒng)從數(shù)據(jù)中看到了一個有效的模式;這對于選擇誰需要住院來說并不是一種有用的模式(但是它可以幫助保險公司來預測治療費用)。更危險的是,你并不知道你的數(shù)據(jù)集中有這種無用的反數(shù)據(jù)集,除非你已經(jīng)知道它的存在。
在其他情況下,一個系統(tǒng)可以學習一種有效的模式(比如一種有爭議的面部識別系統(tǒng),可以從自拍中準確預測性取向),因為它沒有清晰而明顯的解釋,所以是無用的(在這種情況下,照片會顯示出一些社交線索,例如拍照姿勢,而不是顯示天生的某些特征)。
“黑匣子”模型是有效的,但沒有說清楚它們到底學到了什么模式。像通用附加模型這樣的則更透明一些,可理解的算法可以讓我們更清楚模型的學習內(nèi)容,從而可以決定是否適合部署。
誤區(qū)6:隨時可以使用增強學習
如今幾乎所有在使用中的機器學習系統(tǒng)都采用了監(jiān)督式學習;在大多數(shù)情況下,系統(tǒng)是基于明確標記的數(shù)據(jù)集進行訓練,在準備這些數(shù)據(jù)集的過程中人類也參與其中。組織這些數(shù)據(jù)集需要時間和精力,所以人們對非監(jiān)督形式的學習、特別是強化學習(RL)有很大的興趣——強化學習是指學習者通過反復試錯,通過與環(huán)境交互、預測正確行為得到獎勵。DeepMind的AlphaGo系統(tǒng)結合使用增強學習與監(jiān)督式學習,擊敗高級Go玩家,而由卡內(nèi)基梅隆大學團隊打造的Libratus系統(tǒng)結增強學習和其他兩種人工智能技術,在“無限注德州撲克”中擊敗了全球頂尖德?lián)溥x手。研究人員正在試驗將增強學習用于方方面面,從機器人到測試安全軟件。
但是在實驗室之外,增強學習并不常見。谷歌DeepMind通過學習如何更有效地進行冷卻,來降低數(shù)據(jù)中心的功耗;微軟采用了一個名為下文賭博機(Contextual Bandit)的特定且有限的增強學習版本,MSN.com的訪問者顯示個性化新聞標題。問題在于很少有現(xiàn)實世界的環(huán)境具有可以輕松發(fā)現(xiàn)的獎勵和即時反饋,特別是代理在任何事情發(fā)生前采取多項措施的時候。
誤區(qū)7:機器學習不存在偏見
因為機器學習是從數(shù)據(jù)中進行學習的,所以它會復制數(shù)據(jù)集中的任何偏見。搜索CEO的圖像,結果可能會顯示白人男性CEO的照片,因為更多的首席執(zhí)行官是白人男性。但事實證明,機器學習也會放大偏見。
經(jīng)常用于訓練圖像識別系統(tǒng)的COCO數(shù)據(jù)集有男性和女性的照片;但其中更多的女性形象是出現(xiàn)在廚房家電旁邊的,更多的男性形象是和電腦鍵盤、鼠標或網(wǎng)球拍和滑雪板一起出現(xiàn)的。在COCO上訓練系統(tǒng),它會把男性與計算機硬件更緊密地綁定在一起。
一個機器學習系統(tǒng)也可能給另一個機器學習系統(tǒng)施加偏見。用流行的框架來培訓一個機器學習系統(tǒng),用單詞來表達它們之間關系的向量,學習像“男人相對與女人就像是計算機程序員相對與家庭主婦”,或者“醫(yī)生相對于護士就像是老板相對于接待員”這樣的刻板印象。如果你使用這個系統(tǒng),系統(tǒng)會把he和she(英語)翻譯成具有性別中性代詞的語言(如芬蘭語或土耳其語),“他們是醫(yī)生”變成“他是醫(yī)生”,“他們是護士”變成“她是護士”。
如果是在購物網(wǎng)站上得到類似的建議是有用的,但在涉及敏感林能夠與時就會引發(fā)問題,并且會產(chǎn)生反饋回路;如果你加入Facebook反對接種疫苗的組織,F(xiàn)acebook的推薦引擎會推薦其他關注陰謀論或者認為地球是平坦的組織。
了解機器學習中的偏見問題很重要。如果你無法消除訓練數(shù)據(jù)集中的偏差,可以使用一些技巧,例如在詞對之間規(guī)則化性別關聯(lián),來減少偏見或?qū)⒉幌嚓P的條目添加到建議中,以避免“過濾泡沫”。
誤區(qū)8:利用機器學習都是好的一面
機器學習為防病毒工具提供了強大的功能,進一步著眼于全新攻擊的行為,以便盡快發(fā)現(xiàn)這些行為。但同樣,黑客也在利用機器學習研究防病毒工具的防御措施,通過分析大量公共數(shù)據(jù)或以前成功的網(wǎng)絡釣魚事件,大規(guī)模地發(fā)起有針對性的網(wǎng)絡釣魚攻擊。
誤區(qū)9:機器學習將取代人類
人們常常擔心人工智能會搶了人類的工作,而且肯定會改變我們的工作方式;機器學習系統(tǒng)可以提高效率和合規(guī)性并降低成本。從長遠來看,人工智能將在業(yè)務中創(chuàng)造新的角色,并使淘汰掉當前的一些職位。但是許多機器學習實現(xiàn)了自動化的任務在之前是不可想象的,無論是復雜性還是規(guī)模,例如,您無法聘請足夠的人員來查看發(fā)布到社交媒體的每張圖片,以查看這些圖片中是否含有你企業(yè)的品牌特征。
現(xiàn)在機器學習已經(jīng)開始創(chuàng)造了一些新的業(yè)務機會,例如通過預測性維護改善客戶體驗,并向業(yè)務決策者提供建議和支持。和前幾代的自動化一樣,機器學習可以讓員工自由使用他們的專業(yè)知識和創(chuàng)造力。