學信號處理要理解均值、平均偏差、標準差、方差
很多時候,為什么學而不能致用呢?沒有用的需求,當然就不說了。往往不會用,是因為不知道怎么去用,而不知道怎么用,個人覺得很重要的原因是因為很多基礎的概念沒有理解到位,對于工程技術(shù)人員而言,對于基礎概念的理解把握,往往決定了解決問題的方向、思路、深度。以信號處理來說,里面就有大量的基礎概念需要真正去理解。本文就來聊聊如何去描述度量信號的幾個概念。
均值
信號處理中一個最為簡單的概念就是均值(Mean),和你想的一樣,加起來除以樣本數(shù)量:在學習DSP時,要習慣各種數(shù)學表示的方案,比如這里 就是表示求和,表示從開始求和。為了讓都能看懂,這個公式換一個表達形式:所以就是更為簡潔的描述求和的數(shù)學語言。對于這個公式在延申一下,這里是離散信號,如果是離散概率序列,對于確定的其概率為,則這樣的離散概率分布序列,其均值則為:其實,對于前一公式也可以用概率均值去理解,看成N個樣本集合,則每一個樣值其概率就是!那么研究均值有啥意義呢?其實一般對于原始樣本直接計算均值可能意義不是特別大,但是基于均值衍生的其他統(tǒng)計量則非常有價值,比如接下來要說的標準偏差,簡稱為標準差。平均偏差
在談標準差之前,先談談平均偏差。何為平均偏差,嚴格講應該稱為平均絕對偏差(Average Absolute Deviation),在談平均絕對偏差前,先談談絕對偏差,絕對偏差,從字面意義上理解,很容易可以想到其計算這樣是這樣得來,由某樣本與均值的差的絕對值:那么平均絕對偏差,所差的就是一個平均了:來試著理解一下這個公式,是任一樣本與該樣本集均值的差的絕對值,表示的是該樣本與均值的偏離程度,每個樣本與均值的偏離程度之和再求平均,則就是字面意思了,所有樣本與平均值的偏離程度,故稱為平均偏差。平均偏差可以反應樣本點與均值的平均偏離程度。
標準偏差
標準偏差(Standard Deviation)與平均偏差(Average Deviation)類似,也是基于平均值的統(tǒng)計量。所不同的是,標準差是利用樣本與均值絕對偏差的平方和求取的。標準差反應信號相對平均值的波動程度。標準差數(shù)值越小,反應信號數(shù)值分布更靠近平均值,反之越大則表示信號相對平均值更分散標準偏差根據(jù)樣本是研究樣本的總體,還是只是收集的部分樣本而分為兩種情況:- 總體標準偏差
- 樣本標準偏差
總體標準偏差
如果僅將數(shù)據(jù)視為總體,則可以將其各點絕對偏差之和除以數(shù)據(jù)點總數(shù)N,而后開平方:樣本標準偏差
如果待研究的數(shù)據(jù)看成待研究系統(tǒng)數(shù)據(jù)的部分,則可以將其各點絕對偏差之和除以數(shù)據(jù)點總數(shù)N-1,而后開平方:看到這個公式,有的盆友或許會問,為啥除的是N-1?而不是N!所以這個就是對這個概念需要理解的一個點:這里計算的是樣本的標準偏差,總體標準偏差公式是基于正態(tài)分布推導而來,所以總體標準差公式是除以N,而在應用中,不是數(shù)學統(tǒng)計的意義,只能以有限的樣本序列去近似描述總體的特征,除以N-1是一種無偏估計,所謂無偏估計,是指無偏性,無偏性的實際意義是指沒有系統(tǒng)性的偏差。在多次重復下,它們的平均數(shù)接近所估計的參數(shù)真值。我們計算這個參數(shù),就是想利用這個參數(shù)去反應樣本序列集的客觀特征,所計算的樣本序列往往可能只是截取的數(shù)據(jù)段,并非所有的數(shù)據(jù)樣本。在信號處理中,我們拿到的數(shù)據(jù)一般而言都是系統(tǒng)的部分樣本,所以實際使用中應該使用樣本標準差進行計算。對于標準偏差的理解,還有一層需要理解透,它的量綱仍然是原樣本的量綱,比如研究的是電壓信號,單位為伏,則計算而得的標準偏差依然是伏。
有趣的栗子
在國外網(wǎng)站上看到一組有趣的圖片,可以更好的幫助理解:https://www.mathsisfun.com/data/standard-deviation.html假設有這樣幾種可愛的狗狗:其身高分別為:600mm, 470mm, 170mm, 430mm, 300mm.則其均值為:所以上圖中用綠色線標識下身高均值:從而每個狗相對均值的偏差如下圖:從而,其標準差則為:然后再標識一下每個狗的身高上圖可看出第2、4、5個狗的身高與均值的偏差在一個標準差內(nèi),而第1、3只狗身高與均值超出了一個標準差。標準差概念也經(jīng)常用來衡量產(chǎn)品的生成品質(zhì),比如你常聽到的說法,這個零件的加工偏差是否在一個標準差內(nèi),這里的標準差就是標準偏差的意思。上面的公式如果不開平方,這就是常說的方差了,類似有兩種概念:- 樣本方差:
- 總體方差:
再來個栗子
前面說標準差,常用來衡量數(shù)據(jù)的分布情況:標準差反應信號相對平均值的波動程度。標準差數(shù)值越小,反應信號數(shù)值分布更靠近平均值,反之越大則表示信號相對平均值更分散為啥這樣說,看看下面這個栗子就好理解了:假設有這樣三組數(shù)據(jù),假定這三組數(shù)據(jù)來自三個同類型傳感器的采樣值,對相同的外界多次采樣(這里為了說明問題,請不用考慮數(shù)據(jù)本身的合理性),我們來計算一下其均值、平均偏差、樣本標準差。
| 1 | 3 | 5 | 7 | 9 | 11 | 13 | 15 | 17 | 19 |
|---|---|---|---|---|---|---|---|---|---|
| 2 | 4 | 5 | 7 | 8 | 9 | 13 | 15 | 13 | 24 |
| 3 | 5 | 5 | 7 | 7 | 8 | 10 | 12 | 13 | 30 |
總結(jié)一下
均值、平均偏差、標準偏差、方差是信號處理幾個基礎概念,尤其標準差、方差在很多復雜的濾波算法、估計算法中是重要的理論基礎概念。所以準確的理解這些概念,也是能理解更為復雜的算法的基礎。所謂基礎不牢、地動山搖!—END—往期精彩推薦,點擊即可閱讀
▲Linux驅(qū)動相關(guān)專輯?▲手把手教信號處理專輯▲單片機相關(guān)專輯





