大數據(big data),IT行業(yè)術語,是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數據這個概念聽說過挺久的了,但一直沒有系統(tǒng)了解,由于工作需要,想做點深入了解,于是翻了關于大數據的經典之作《大數據時代》,猛然發(fā)現這本書出版于2012年,已是七年前的著作了。
與大數據對應的是小數據,在小數據時代,由于技術條件的限制,人類無法獲取大量的數據,即便獲取了,也無法快速處理那些數據,為了解決這一難題,聰明的人類發(fā)明了隨機采樣法。在隨機采樣中,由于一切都是隨機的,它本身就綜合了各種因素,又排除了人為因素,所以它的結論也大致滿足需求。但是在大數據時代,樣本=總體。要所有數據,不管這數據是對的還是錯的,有意的或無意的,有用的還是無用的,全要。一個最簡單的例子是翻譯軟件的發(fā)展,在最開始的版本中,翻譯學家想要把一切語言規(guī)則都內置到軟件中,他們認為這樣軟件就會實現自動翻譯,結果他們發(fā)現自己得到了一坨屎。
《大數據時代》這部書算是易懂的,因為它是從宏觀的角度講了大數據時代帶來的思維變革,還有很多豐富詳實的案例,但并不涉及數據處理細節(jié)那些瑣碎的東西,所以對于非專業(yè)人士來講讀起來并不困難甚至可以說是有趣的。當下的翻譯軟件則不然,它的“師傅們”不再是一堆語言規(guī)則,而是全世界人民!首先,開發(fā)人員先把館藏雙語對照的書籍植入計算機中,其次每個人每天在網絡上發(fā)的雙語對話都會被計算機記錄并學習,目前的計算機已經可以實現深度學習,即不要內置規(guī)則,它根據大量的輸入自己學習規(guī)則。
在這個簡單的例子中已經彰顯出大數據的三個特點:
更多:不是隨機樣本,而是全部數據;
更雜:不是精確性,而是混雜性;
更好:不是因果關系,而是相關關系。
數據主義即只認數據,唯數據是從,極端情況就類似于電影《少數派報告》所展現的場景了,在電影里有三個人具備預知能力,警方用他們的超能力實施罪前打擊,當一個人想要犯罪還沒有犯罪的當口抓住他,而在數據時代,當一個人奉數據為圭臬時,他可能六親不認只認數據,當數據預測到某人要犯罪時,是直接抓他坐牢還是坐等他犯罪?這是個問題。
首先第一點“要全部數據”很好理解,本來就是大數據嘛,其次第二點“不是精確性而是混雜性”這點也容易理解,這個世界本來就是混亂的,想要秩序不過是人類的一廂情愿而已,從混亂的世界中得到的數據自然也是混亂的、不精確的,但這樣的數據才能更真實地反映世界的本來面目,何必追求精確呢?在翻譯軟件的例子中,當計算機去識別網絡上的語句時,它是無法保證每個人寫的都是正確的,但正是這種多樣性的存在才更能賦予計算機翻譯的智能性。最不好理解也最有爭議的就是第三點,用相關關系替代因果關系。相關關系顧名思義,當一種現象發(fā)生變化時,另一種現象隨之改變,這說明兩種現象是相關的,但這里并不強調二者之間有什么邏輯上的因果性,因果關系則不然。
在心理學上有個第三變量問題,說當兩個現象具有相關關系時,人們往往會把它誤當作因果關系,而忽略第三變量。一個典型的例子是說私立學校和公立學校教育水平問題,一般來講,人們只看到私立學校教出來的學生更優(yōu)秀就認為他們的教育水平更好,而往往忽略上私立學校的孩子家庭條件更好,父母的受教育程度更好,而這才是影響孩子學習成績的關鍵因素。
從大數據的角度來講,取消因果關系是明智的,因為當數據龐大了以后,想要分析因果關系勢必登天,因為它牽扯的因素太多了,根本無法分析,更重要的是,人們需要因果關系嗎?人們只需要知道這件事發(fā)生了以后接下來會發(fā)生什么就足夠了,至于為什么會發(fā)生,誰關心呢?上帝嗎?關心這個問題的大概都是哲學家。哲學家們會擔心,沒有了因果關系,人在計算機面前就會像傻子一樣任人擺布,這是一種墮落。但不管如何,大數據時代的特點就是這樣,接受它你就邁入了大數據時代。在這樣的背景下,數據開始值錢了,但也不是說誰有數據誰就能雄霸天下。有的公司空有一堆數據但不會處理,有的公司知道怎么處理數據但卻缺少創(chuàng)新思維,不知道拿來何用。最好的是那些既有數據又知道怎么處理數據還具備創(chuàng)新思維的公司,但這樣的公司又極易淪為數據主義。





