怎樣避免人類對于數(shù)據(jù)分析的干擾
隨著越來越多的企業(yè)開始采用機器學習技術(shù)以實現(xiàn)流程的自動化,人們也逐漸開始質(zhì)疑計算機決策中的倫理含義。我們?nèi)绾翁幚碛嬎銠C系統(tǒng)中潛在的偏見?相對較少被提及但同樣重要的,是人類本身的偏見,它與分析和商業(yè)決策有很大關(guān)系。
人類的偏見可能會滲入到分析過程的每一步。當商業(yè)決策者開始擁抱機器學習進行預(yù)測分析,以獲得下一步行動的具體建議時,盡可能客觀地利用數(shù)據(jù)和方法是很重要的。監(jiān)測這一分析過程中可能存在的人類偏見是一項偉大的職責,而這一切都始于從頭開始構(gòu)建模型的人:數(shù)據(jù)科學家。
在這篇文章中,我們主要關(guān)注以下三個方面,來管理整個流程中可能產(chǎn)生的偏見——從評估初始請求和收集信息到構(gòu)建模型和挖掘見解。
評估請求:業(yè)務(wù)決策者需要什么?
在某些情況下,偏見會從一開始就進入分析項目流程中,這種偏見直接來自于提出請求的業(yè)務(wù)用戶。例如,一個模型可能會被帶著偏見進行請求和評估,因為提出分析請求的這個人可能潛意識里只是想驗證自己的想法。例如,如果一個CMO認為他們的公司應(yīng)該在PR上投資,那么讓他們的分析團隊構(gòu)建一個展示PR需求的模型就是有問題的。
像任何人一樣,數(shù)據(jù)科學家也會想要取悅老板——我們總是想要提供能夠滿足商業(yè)決策者所請求的信息。重要的是,不要根據(jù)商業(yè)決策者的需求來尋找和評估結(jié)果。為了在最后達到最公正的結(jié)果,需要避免一開始就設(shè)定期望。這個過程應(yīng)該是一個協(xié)作的過程——您可能需要告訴業(yè)務(wù)決策者,要以最道德和最準確的方式來回答他們的業(yè)務(wù)問題。這是一個棘手的問題,但是一旦解決了這個問題,就可以同時避免受到業(yè)務(wù)決策者的需求的影響。
仔細選擇評估為模型提供的數(shù)據(jù)人類偏見可能會在選擇數(shù)據(jù)的過程中產(chǎn)生影響。思考一下您擁有哪些必需的可用數(shù)據(jù),以及您將從何處收集這些數(shù)據(jù)。在選擇數(shù)據(jù)時,應(yīng)考慮這樣的問題:與總體相關(guān)人群相比,我有多少數(shù)據(jù)?如何創(chuàng)建數(shù)據(jù)樣本?
在處理質(zhì)量問題時,應(yīng)該尋找信息的一致性,并評估它是否捕獲了足夠的變量。同時需要確保沒有遺漏任何重要內(nèi)容,如果遺漏了,一定要高度重視,并確定其可能對模型產(chǎn)生什么樣的影響。
客觀地選擇最好的分析方法每種方法和模型都有其假設(shè)——知道哪種方法和模型最適合您的問題是非常重要的。不同的建模選擇有時會帶來非常不同的結(jié)果。請求的復雜性、性質(zhì)和數(shù)據(jù)的可用性是幫助你選擇適當方法的主要因素。注意結(jié)果、測試結(jié)果穩(wěn)定性,并將模型結(jié)果與您的先驗預(yù)期進行比較。效果的方向合乎邏輯嗎?效果的大小合乎邏輯嗎?效果的作用合乎邏輯嗎?合適嗎?所有這些問題都應(yīng)該解決,才能對模型更有信心。
如果要用各種算法測試數(shù)據(jù),請注意不要選擇特定的算法,因為它會輸出所需的輸出。我們應(yīng)該注意模型給出的所有洞察。
最終,避免數(shù)據(jù)分析中帶有偏見的最好方法是實現(xiàn)一個包括檢查和平衡的過程,所有的假設(shè)都應(yīng)該經(jīng)過同行評審和檢查。在整個分析過程中,人員、視角和信息的多樣性越大,獲得平衡、公正結(jié)果的機會就越大。
來源:搜狐





