Notions of Probability Theory
什麼是機率
機率的直觀概念在擲硬幣或輪盤游戲中很清楚:機率是由重復游戲時給定結果的相對頻率定義的,理想情況下是無限次的重復。機率反映了我們的部分無知,如擲硬幣游戲的結果。氣象學(明天或一週後的天氣情況)和自然災害(如地震和火山噴發)的危險估計也依賴於機率。
事實上,在這些 "游戲 "不能重復的情況下,機率宣告的基礎是,可能有許多路徑導致相同的結果和許多其他路徑導致不同的結果。那麼,一個結果的機率就是關於通向這個結果的路徑的一部分的宣告。
機率是一個介於0和1之間的數字,其中兩個極端對應於一個確定性(即分別是不可能和真實)。當我們不知道一個過程中的一切時,機率描述是唯一的工具,即使我們知道一切,如果過程非常復雜,它仍然是一個方便的表示。請參閱費曼的《物理學講義》[299]中關於機率的章節,以獲得關於機率使用的直觀介紹。
客觀機率與主觀機率
機率的概念有兩個方面:數學和應用。至於數學方面,數學家之間沒有分歧。根據科爾莫戈羅夫的公理[519],機率是基本事件-algebra上歸一的非負計量。但是,關於機率的應用方面,專家們並沒有達成共識。
有兩種主要的應用方法(有許多變體):
客觀方法:有時也稱為頻率方法。
主觀方法
在客觀方法中,使用一個機率需要一個理想化的實驗模型,該模型至少在心理上可以重復任意次數。因此,客觀方法使用了 "群體 "和 "實現的集合 "的概念,並因此自動排除了獨特的事件。
在客觀方法中,某些事件的機率被認為是它在一長串重復實驗中出現的穩定頻率,這些實驗在相同的條件下獨立進行。然而,應該注意的是,可以推斷出一些關於獨特事件或物件的統計結論。這種結論與未知(和非隨機)引數的所謂信賴區間有關。這種推斷與客觀頻率方法並不矛盾,因為信賴區間(特別是一個一維引數的信賴區間)是一個具有隨機邊界的域,由隨機抽樣得出。因此,"引數有一個機率為的信賴區間 "的斷言有明確的統計學意義,機率對應於一些重復實驗。
在主觀方法中,可以給任何事件或論斷分配一個機率。它表達了對該事件發生的可能性的衡量。這種測量通常具有主觀性[462]。這種方法不一定需要集合,機率可以分配給這樣的事件,例如:羅馬城是由羅慕路斯建立的;關於ζ函數的非三重零的黎曼假設是真的;"鐵面人 "是路易十四的兄弟[186];火星上存在著有機生命[186],等等。
頻率法的擁護者一般不否認主觀意見對上述型別的獨特事件的可能性的可能有用,也不否認下一節討論的處理這些意見的貝式定理的有用。有時,這些意見對於實際目的是必要的,因為可能沒有相應的裝置,或者沒有客觀的測量方法。一個例子是在體育體操、花樣滑冰、葡萄酒比賽中發現的,等等。在這種情況下,使用統計方法(尤其是貝式定理)來處理個人分數是很自然的。例如,讓我們提一下眾所周知的做法,即在花樣滑冰比賽中,先丟擲最高分和最低分,再將裁判給出的其餘分數平均化。這種做法在穩健估計的統計理論中是合理的。
然而,不加控制地使用主觀機率有時會導致誤導或錯誤的結果,因為它們不僅反映了所研究現象的客觀現實,還反映了特定專家小組的知識水平。因此,存在專家引入的 "噪音 "或偏見,而且有時很難估計其水平。讓我們考慮兩種可能的主觀估計的機率。也許,在哥白尼和伽利略之前,關於我們太陽系的 "專家 "意見會給太陽圍繞地球轉動的斷言分配一個機率,例如0.9999,而不是反過來。同樣,在愛因斯坦之前,關於機械運動的 "專家 "意見會給兩個物體之間的相對速度大於光速的可能性分配一個機率,例如0.9999。我們現在知道,這兩個斷言都是錯誤的。
很難明確劃分出主觀意見和機率有用的領域和它們危險的領域。例如,在醫學上,構建這樣一個邊界是一個嚴重的問題。可以斷言的是,在主觀方法中使用的統計術語更加模糊不清,含義往往不明確。基於主觀機率的推斷不應該被視為由機率理論確認的客觀結果。
A.N. Kolmogorov對機率的應用方面定義如下(更多細節見[521-523])。"機率是那些現象的客觀特徵,由於它們的一些固有屬性,擁有頻率穩定性;事件的機率不取決於任何主觀意見。"
主觀方法是基於下一節中討論的貝式定理。在這個一般性討論的背景下,讓我們對比一下貝式定理和客觀方法的內容。貝式定理,或稱貝式後驗機率公式,將某個引數的先驗分佈作為 "輸入",它定義了假設。作為 "輸出",該定理提供了一個基於觀察樣本的後驗分佈。先驗分佈有時可以在過去的實驗基礎上提出。所謂先驗,特別是可以在一些統計頻率估計上構建。然而,在大多數情況下,這個先驗分佈是未知的。在這種情況下,人們必須以任意的方式設定先驗分佈,以便能夠應用貝式定理。於是,人們提到了 "同樣可能的先驗機會",或者 "由於缺乏更好的 "某個區域的均勻分佈,而這個區域的選擇往往是任意的。這樣的提法大多是沒有理由的,也是沒有說服力的。證明應用任意先驗分佈(在整個定義域中是連續的和正的)的主要事實包括貝式估計和最大似然估計之間的等價定理(見第三章第53節,[103]中的定理1)。為了公平起見,應該指出,貝式方法中最不利的先驗分佈是相當合理的,從最小化可能的最大風險的最小化標准的角度來看,是可以證明的。這種方法與假設檢驗中的錯誤決定的機率有關,並提供了引數估計值與真實值偏差的一些措施。
基於主觀先驗分佈的推斷或估計往往被證明是相當合理和有用的。然而,這樣的推斷在實踐中需要非常仔細的檢查。讓我們以一個示範性的歷史案例結束。經典物理學中著名的Maxwell-Boltzmann統計學(見第3.3節和第7章)是作為粒子在相空間單元上的 "自然 "或 "隨機 "分佈的結果出現的。然而,當物理學家試圖將這一統計學應用於量子力學系統時,發現沒有任何已知的粒子或粒子系統確實服從Maxwell-Boltzmann統計學。因此,人們不得不用Bose-Einstein分佈(適用於光子和其他一些玻色子粒子)和Fermi-Dirac分佈(適用於電子和其他費米子粒子)來取代 "自然的 "隨機Boltzmann分佈。在這種情況下,在微觀層面上直觀明確的粒子均勻分佈在應用於量子力學時失敗了。因此,沒有理由反對貝式方法和頻率方法,也沒有理由認為它是更有成效的方法。如果在充分瞭解和理解其應用領域和侷限性的情況下謹慎使用,兩者都有價值。
貝式機率觀點
機率密度函數
中心趨勢的測量(平均值)
衡量中心趨勢的變化(變異數)
動差與特徵函數
累積量(cumulants)
隨機變數的最大值和極值理論
Last updated