算法發(fā)現(xiàn)了大都會博物館畫作之間隱藏的關聯(lián)
藝術,作為時間與空間的沉淀,經(jīng)常被視為一場帶領現(xiàn)代人類回到過去一窺究竟的旅行,也是允許人們暫時逃避當下的載具。
繪畫寶庫無窮無盡,因此來自不同時間或空間的藝術品之間的聯(lián)系常常會被忽略。即使是最有知識的藝術評論家,也無法閱覽跨越數(shù)千年時間的數(shù)百萬幅畫作,并在主題、基調(diào)和視覺風格上找到意想不到的相似之處。
為了簡化此過程,麻省理工學院計算機科學與人工智能實驗室(CSAIL)和微軟的一組研究人員創(chuàng)建了一種算法,以發(fā)現(xiàn)大都會藝術博物館(the Met)與阿姆斯特丹國立博物館館藏繪畫之間的隱藏聯(lián)系。
受阿姆斯特丹國立博物館特別展覽 “倫勃朗和貝拉克斯茲”的啟發(fā),新的 “MosAIc”系統(tǒng)通過使用深層網(wǎng)絡了解兩個圖像的近似程度,發(fā)現(xiàn)了來自不同文化、藝術家和媒介的成對(也即 “類似”的)作品。
在那次展覽中,研究人員受到了一種看似并不可能但卻確實相似的匹配作品的啟發(fā):弗朗西斯科 · 德 · 祖巴蘭(Francisco deZurbarán)的和揚 · 阿瑟林(Jan Asselijn)的,這兩幅作品都描繪了深刻的利他主義場面,并擁有非常令人驚訝的視覺相似性。
一位來自 CSAIL 的博士生馬克 · 漢密爾頓(Mark Hamilton)說:“這兩位藝術家一生中沒有通信或彼此見面,但他們二者的畫作都擁有著豐富而相似的潛層結構” 。漢密爾頓是有關 “MosAIc”的論文的主要作者。 為了找到兩幅相似的畫作,該團隊使用了一種新的圖像搜索算法來發(fā)現(xiàn)特定藝術家或文化的最接近匹配。例如,對于一項 “哪種樂器最接近于此藍白色連衣裙繪畫”查詢,該算法檢索了藍白色瓷小提琴的圖像。這些作品不僅在樣式和形式上相似,而且源于荷蘭人和中國人之間更廣泛的瓷器文化交流。
漢密爾頓說:“圖像檢索系統(tǒng)使用戶能夠找到語義上與查詢圖像相似的圖像,充當反向圖像搜索引擎和許多產(chǎn)品推薦引擎的基礎。”
“將圖像檢索系統(tǒng)限制為特定的圖像子集可以幫助對視覺世界中的關系產(chǎn)生新的見解。我們的目標是鼓勵更高層次的與創(chuàng)造性藝術品的互動?!?/p>用 AI 探索現(xiàn)有藝術
對于許多人來說,藝術與科學水火不容:科學基于邏輯、推理和經(jīng)證實的真理,而藝術則基于情感、美學和美感。但是最近,人工智能和藝術出現(xiàn)了新的變化,在過去的十年中,這種變化變得越來越大。
比如說,從前,絕大多數(shù)的新研究集中于使用 AI 生成新藝術。有一個由麻省理工學院、NVIDIA 和加州大學伯克利分校的研究人員開發(fā)的 GauGAN 項目就是一個例子。還有漢密爾頓曾經(jīng)參與過的 GenStudio 項目;甚至還有過一件 AI 生成的藝術品,被在蘇富比以 51,000 美元的價格售出。
但是,MosAIc 的目的不是創(chuàng)造新藝術,而是幫助探索現(xiàn)有藝術。
谷歌的 “X 分離度”是一種類似的工具,可以找到將兩件藝術品聯(lián)系起來的藝術品路徑,但是 MosAIc 的不同之處在于,它僅需要一張圖片即可。它沒有找到路徑,而是發(fā)現(xiàn)用戶感興趣的任何文化或媒體中的聯(lián)系。
漢密爾頓(Hamilton)指出,建立他們的算法是一項艱巨的嘗試,因為他們希望找到不僅顏色或樣式相似,而且含義和主題相似的圖像。換句話說,他們希望狗與其他狗靠近,人們與其他人靠近,等等。為了實現(xiàn)這一目標,他們在大都會博物館和國家博物館的開放訪問集合中,針對每個圖像探究了深層網(wǎng)絡的內(nèi)部 “激活”。他們?nèi)绾闻袛鄨D像相似性,就是通常稱為 “功能”的這種深層網(wǎng)絡 “激活”之間的距離。
為了找到不同文化之間的相似圖像,該團隊使用了一種新的圖像搜索數(shù)據(jù)結構,稱為 “條件 KNN 樹”,該結構將相似圖像組合成樹狀結構。為了找到匹配的對象,他們從樹的 “樹干”開始,然后跟隨最有希望的 “分支”,直到他們確定找到最接近的圖像為止。通過允許樹快速將其自身 “修剪”到特定的文化,藝術家或館藏,從而快速產(chǎn)生對信息查詢的答案,數(shù)據(jù)結構對其前身進行了改進。
漢密爾頓和他的同事感到驚訝的是,這種方法也可以用于幫助發(fā)現(xiàn)現(xiàn)有的深層網(wǎng)絡的問題,這些問題與最近涌現(xiàn)的 deepfake 有關。他們應用此數(shù)據(jù)結構來查找概率模型(例如經(jīng)常用于創(chuàng)建深造品的生成對抗網(wǎng)絡)崩潰的區(qū)域。他們將這些有問題的區(qū)域稱為 “盲點”,并指出它們使我們能夠洞悉 GAN 的偏見。這種盲點進一步表明,即使大多數(shù)偽造品可以欺騙人類,GAN 仍難以代表數(shù)據(jù)集的特定區(qū)域。
MosAIc 到底有多快?該團隊評估了 MosAIc 的速度,以及它與人類對視覺類比的直覺之間的接近程度。
對于速度測試,他們希望確保其數(shù)據(jù)結構在通過快速,強力搜索簡單地搜索整個集合中提供價值。
為了了解系統(tǒng)與人類直覺的協(xié)調(diào)程度,他們制作并發(fā)布了兩個新的數(shù)據(jù)集,用于評估條件圖像檢索系統(tǒng)。一個數(shù)據(jù)集對算法提出了挑戰(zhàn),即使使用神經(jīng)樣式轉移方法對其進行 “樣式化”后,也要查找具有相同內(nèi)容的圖像。第二個數(shù)據(jù)集挑戰(zhàn)了算法以恢復不同字體的英文字母。不到三分之二的時間,MosAIc 能夠一次從 5,000 張圖像中猜測出正確的圖像。
漢密爾頓說:“展望未來,我們希望這項工作能激勵其他人思考信息檢索工具如何幫助其他領域,例如藝術,人文科學,社會科學和醫(yī)學?!?/p>
“這些領域充滿了從未被這些技術處理過的信息,可以為計算機科學家和領域專家?guī)砭薮蟮撵`感。這項工作可以在新的數(shù)據(jù)集,新的查詢類型和新方式方面得到擴展了解作品之間的聯(lián)系。”





