當(dāng)前位置：首頁 > > 充電吧

[導(dǎo)讀]圖像主題色提取算法講解

? ? ?許多從自然場(chǎng)景中拍攝的圖像，其色彩分布上會(huì)給人一種和諧、一致的感覺；反過來，在許多界面設(shè)計(jì)應(yīng)用中，我們也希望選擇的顏色可以達(dá)到這樣的效果，但對(duì)一般人來說卻并不那么容易，這屬于色彩心理學(xué)的范疇（當(dāng)然不是指某些偽神棍所謂的那種）。從彩色圖像中提取其中的主題顏色，不僅可以用于色彩設(shè)計(jì)（參考網(wǎng)站：Design Seeds），也可用于圖像分類、搜索、識(shí)別等，本文分別總結(jié)并實(shí)現(xiàn)圖像主題顏色提取的幾種算法，包括顏色量化法（Color Quantization）、聚類(Clustering)和顏色建模的方法（顏色建模法僅作總結(jié)），源碼可見：GitHub: ImageColorTheme。

1. 顏色量化算法

彩色圖像一般采用RGB色彩模式，每個(gè)像素由RGB三個(gè)顏色分量組成。隨著硬件的不斷升級(jí)，彩色圖像的存儲(chǔ)由最初的8位、16位變成現(xiàn)在的24位、32真彩色。所謂全彩是指每個(gè)像素由8位（$2^8$=0~255）表示，紅綠藍(lán)三原色組合共有1677萬（$256*256*256$）萬種顏色，如果將RGB看作是三維空間中的三個(gè)坐標(biāo)，可以得到下面這樣一張色彩空間圖：

當(dāng)然，一張圖像不可能包含所有顏色，我們將一張彩色圖像所包含的像素投射到色彩空間中，可以更直觀地感受圖像中顏色的分布：

因此顏色量化問題可以用所有矢量量化（vector quantization, VQ）算法解決。這里采用開源圖像處理庫?Leptonica?中用到的兩種算法：中位切分法、八叉樹算法。

1.1. 中位切分法（Median cut）

GitHub: color-theif?項(xiàng)目采用了 Leptonica 中的用到的（調(diào)整）中位切分法，Js 代碼比 C 要易讀得多。中位切分算法的原理很簡(jiǎn)單直接，將圖像顏色看作是色彩空間中的長(zhǎng)方體（VBox），從初始整個(gè)圖像作為一個(gè)長(zhǎng)方體開始，將RGB中最長(zhǎng)的一邊從顏色統(tǒng)計(jì)的中位數(shù)一切為二，使得到的兩個(gè)長(zhǎng)方體所包含的像素?cái)?shù)量相同，重復(fù)上述步驟，直到最終切分得到長(zhǎng)方體的數(shù)量等于主題顏色數(shù)量為止。

Leptonica 作者在報(bào)告?Median-Cut Color Quantization?中總結(jié)了這一算法存在的一些問題，其中主要問題是有可能存在某些條件下 VBox 體積很大但只包含少量像素。解決的方法是，每次進(jìn)行切分時(shí)，并不是對(duì)上一次切分得到的所有VBox進(jìn)行切分，而是通過一個(gè)優(yōu)先級(jí)隊(duì)列進(jìn)行排序，剛開始時(shí)這一隊(duì)列以VBox僅以VBox所包含的像素?cái)?shù)作為優(yōu)先級(jí)考量，當(dāng)切分次數(shù)變多之后，將體積*包含像素?cái)?shù)作為優(yōu)先級(jí)。

Python 3 中內(nèi)置了PriorityQueue：

from queue import PriorityQueue as PQueue

class VBox(object):

??def __init__(self, r1, r2, g1, g2, b1, b2, histo):

????self.vol = calV()

????self.npixs = calN()

????self.priority = self.npixs * -1 # PQueue 是按優(yōu)先級(jí)自小到大排序

boxQueue.put((vbox0.priority, vbox0))

vbox.priority *= vbox.vol

boxQueue.put((vbox0.priority, vbox0))

除此之外，算法中最重要的部分是統(tǒng)計(jì)色彩分布直方圖。我們需要將三維空間中的任意一點(diǎn)對(duì)應(yīng)到一維坐標(biāo)中的整數(shù)，這樣才能以最快地速度定位這一顏色。如果采用全部的24位信息，那么我們用于保存直方圖的數(shù)組長(zhǎng)度至少要是$2^{24}=16777216$，既然是要提取顏色主題（或是顏色量化），我們可以將顏色由RGB各8位壓縮至5位，這樣數(shù)組長(zhǎng)度只有$2^{15}=32768$：

def getColorIndex(self, r, g, b):

????return (r << (2 * self.SIGBITS)) + (g << self.SIGBITS) + b

def getPixHisto(self):

????pixHisto = np.zeros(1 << (3 * self.SIGBITS))

????for y in range(self.h):

????????for x in range(self.w):

????????????r = self.pixData[y, x, 0] >> self.rshift

????????????g = self.pixData[y, x, 1] >> self.rshift

????????????b = self.pixData[y, x, 2] >> self.rshift

????????????pixHisto[self.getColorIndex(r, g, b)] += 1

????return pixHisto

分別對(duì)4張圖片進(jìn)行切分、提取：

def testMMCQ(pixDatas, maxColor):

????start??= time.process_time()

????themes = list(map(lambda d: MMCQ(d, maxColor).quantize(), pixDatas))

????print("MMCQ Time cost: {0}".format(time.process_time() - start))

????return themes

imgs = map(lambda i: 'imgs/photo%s.jpg' % i, range(1,5))

pixDatas = list(map(getPixData, imgs))

maxColor = 7

themes = [testMMCQ(pixDatas, maxColor)]

imgPalette(pixDatas, themes, ["MMCQ Palette"])

1.2. 八叉樹算法（Octree）

八叉樹算法的原理可以參考這篇文章：圖片主題色提取算法小結(jié)。作者也提供了 Js 實(shí)現(xiàn)的代碼，雖然與 Leptonica 中 C 實(shí)現(xiàn)的方法差別很大，但原理上是一致的。

建立八叉樹的原理實(shí)際上跟上面提到的統(tǒng)計(jì)直方圖有些相似，將顏色成分轉(zhuǎn)換成二進(jìn)制之后，較低位（八叉樹中位置較深層）數(shù)值將被壓縮進(jìn)較高位（八叉樹中較淺層）。八叉樹算法應(yīng)用到主題色提取可能存在的問題是，每次削減掉的葉子數(shù)不確定，但是新增加的只有一個(gè)，這就導(dǎo)致我們需要的主題色數(shù)量并不一定剛好得到滿足，例如設(shè)定的主題色數(shù)量為7，可能上一次葉子時(shí)總數(shù)還有10個(gè)，到了下一次只剩5個(gè)了。類似的問題在后面手動(dòng)實(shí)現(xiàn)的KMeans算法中也有出現(xiàn)，為了保證可以得到足夠的主題色，不得不強(qiáng)行提高算法中的顏色數(shù)量，然后取圖像中包含數(shù)量較多的作為主題色：

def getColors(self, node):

??????if node.isLeaf:

??????????[r, g, b] = list(map(lambda n: int(n[0] / n[1]), zip([node.r, node.g, node.b], [node.n]*3)))

??????????self.theme.append([r,g,b, node.n])

??????else:

??????????for i in range(8):

??????????????if node.children[i] is not None:

??????????????????self.getColors(node.children[i])

self.theme = sorted(self.theme, key=lambda c: -1*c[1])

return list(map(lambda l: l[:-1],self.theme[:self.maxColor]))

對(duì)比上面兩種算法的結(jié)果：

def testOQ(pixDatas, maxColor):

????start??= time.process_time()

????themes = list(map(lambda d: OQ(d, maxColor).quantize(), pixDatas))

????print("OQ Time cost: {0}".format(time.process_time() - start))

????return themes

themes = [testMMCQ(pixDatas, maxColor), testOQ(pixDatas, maxColor)]

imgPalette(pixDatas, themes, ["MMCQ Palette", "OQ Palette"])

可見八叉樹算法可能更適合用于提取調(diào)色板，而且兩種算法運(yùn)行時(shí)間差異也很明顯：

#MMCQ Time cost: 8.238793

#OQ Time cost: 55.173573

除了OQ中采用較多遞歸以外，未對(duì)原圖進(jìn)行抽樣處理也是其中原因之一。

2. 聚類

聚類是一種無監(jiān)督式機(jī)器學(xué)習(xí)算法，我們這里采用K均值算法。雖然說是“機(jī)器學(xué)習(xí)”聽起來時(shí)髦些，但算法本質(zhì)上比上面兩種更加簡(jiǎn)單粗暴。

KMeans算法

KMeans算法的原理更加簡(jiǎn)潔：“物以類聚”。我們目的是將一堆零散的數(shù)據(jù)（如上面圖2）歸為k個(gè)類別，使得每個(gè)類別中的每個(gè)數(shù)據(jù)樣本，距離該類別的中心（質(zhì)心，centroid）距離最小，數(shù)學(xué)公式為：

1	$ $ sum_{i=0}^N min_{ mu_j in C} (\|\|x_i - mu_j\|\|^2) $ $

上文提到八叉樹算法可能出現(xiàn)結(jié)果與主題色數(shù)量不一致的情況，在KMeans算法中，初始的k個(gè)類別的質(zhì)心的選擇也可能導(dǎo)致類似的問題。當(dāng)采用隨機(jī)選擇的方法時(shí)，有可能出現(xiàn)在迭代過程中，選擇的中心點(diǎn)距離所有其它數(shù)據(jù)太遠(yuǎn)而最終導(dǎo)致被孤立。這里分別采用手動(dòng)實(shí)現(xiàn)和scikit-learn的方法實(shí)現(xiàn)，根據(jù)scikit-learn 提供的API，完成主題色的提取大概只需要幾行代碼：

from sklearn.cluster import KMeans as KM

import numpy as np

#@pixData??????image pixels stored in numpy.ndarray

#@maxColor???? theme color number

h, w, d = pixData.shape

data = np.reshape((h*w, d))

km = KM(n_clusters=maxColor)

km.fit(data)

theme = np.array(km.cluster_centers_, dtype=np.uint8)

imgs = map(lambda i: 'imgs/photo%s.jpg' % i, range(1,5))

pixDatas = list(map(getPixData, imgs))

maxColor = 7

themes = [testKmeans(pixDatas, maxColor), testKmeans(pixDatas, maxColor, useSklearn=False)]

imgPalette(pixDatas, themes, ["KMeans Palette", "KMeans DIY"])

測(cè)試比較手動(dòng)實(shí)現(xiàn)和scikit-learn的結(jié)果如下：

好吧我承認(rèn)很慘，耗時(shí)方面也是慘不忍睹。

3. 色彩建模

從上面幾種算法結(jié)果來看，MMCQ和 KMeans在時(shí)間和結(jié)果上都還算不錯(cuò)，但仍有改進(jìn)的空間。如果從人類的角度出發(fā)，兩種算法的策略或者說在解決主題色提取這一問題時(shí)采納的特征（feature）都接近于顏色密度，即相近的顏色湊在一起數(shù)量越多，越容易被提取為主題顏色。

最后要提到的算法來自斯坦福可視化組13年的一篇研究：Modeling how people extract color themes from images，實(shí)際上比較像一篇心理學(xué)研究的套路：建模-找人類被試進(jìn)行行為實(shí)驗(yàn)-調(diào)參擬合。文章提取了圖像中的79個(gè)特征變量并進(jìn)行多元回歸，同時(shí)找到普通人類被試和藝術(shù)系學(xué)生對(duì)圖像的主題顏色進(jìn)行選擇，結(jié)果證明特征+回歸能夠更好地?cái)M合人類選擇的結(jié)果。

79個(gè)特征的多元回歸模型，不知道會(huì)不會(huì)出現(xiàn)過度擬合？另外雖然比前面算法多了很多特征，但仍舊多物理特征。對(duì)人類觀察者來說，我們看到的并非一堆無意義的色塊，雖然有研究表明顏色信息并非場(chǎng)景識(shí)別的必要線索，但反過來場(chǎng)景圖像中的語義信息卻很有可能影響顏色對(duì)觀察者的意義，這大概就是心理學(xué)研究與計(jì)算機(jī)科學(xué)方向上的差異。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動(dòng)方式相比，共陰恒流驅(qū)動(dòng)在能效有哪些優(yōu)勢(shì)

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動(dòng)電源

[電源]

工業(yè)電機(jī)驅(qū)動(dòng)電源設(shè)計(jì)：反電動(dòng)勢(shì)抑制與過流保護(hù)的集成方案

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動(dòng)力設(shè)備，其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動(dòng)勢(shì)抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動(dòng)電源

[電源]

如何解決 LED 驅(qū)動(dòng)電源的易損壞問題

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動(dòng)電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動(dòng)電源的公式

根據(jù)LED驅(qū)動(dòng)電源的公式，電感內(nèi)電流波動(dòng)大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動(dòng)電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動(dòng)電源方案選擇問題探討

電動(dòng)汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字：電動(dòng)汽車新能源驅(qū)動(dòng)電源

[電源]

合理的驅(qū)動(dòng)電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動(dòng)電源 LED

[消費(fèi)電子]

AC-DC電源轉(zhuǎn)換拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn)，如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字： LED 驅(qū)動(dòng)電源功率因數(shù)校正

[電源]

針對(duì)于LED照明驅(qū)動(dòng)電源技術(shù)中的電磁干擾其中的三大硬件問題措施

在LED照明技術(shù)日益普及的今天，LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作，還可能對(duì)周圍電子設(shè)備造成不利影響，甚至引發(fā)系統(tǒng)故障。因此，采取有效的硬件措施來解決L...

關(guān)鍵字： LED照明技術(shù) 電磁干擾驅(qū)動(dòng)電源

[電源]

LED驅(qū)動(dòng)電源的核心部分“開關(guān)管”和“變換器”設(shè)計(jì)技巧

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字： LED 驅(qū)動(dòng)電源開關(guān)電源

[電源]

最全LED驅(qū)動(dòng)電源及散熱設(shè)計(jì)方案介紹

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器，通常情況下：LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字： LED 隧道燈驅(qū)動(dòng)電源