🐵
金融計算
  • 市場
    • [書]美中貿易戰, 戰什麼?:大國崛起與制度之爭
    • [書]基本分析在台灣股市應用的訣竅
      • 總體經濟分析篇
    • 固定收益證券
    • 債券(bond)
    • 費雪方程式
    • 可轉換公司債
    • 股債雙殺
    • 特別股
    • 指標
    • Howard Marks' memo
      • 2022-Q1
    • 國安基金
  • LPPL
    • 冪分佈
      • Power-Law Distributions in Empirical Data
      • Power-law distributions in binned empirical data
    • 泡沫理論與實證
    • 重整化群
    • Large financial crashes
    • LPPLS模型參數分解
    • [書]Critical Phenomena in Natural Sciences
      • Notions of Probability Theory
    • [書]Why Stock Markets Crash
      • 1. financial crashes: what, how, why, and when?
      • 2.fundamentals of financial markets
      • 3. financial crashes are “outliers”
      • 4. positive feedbacks
      • 5. modeling financial bubbles and market crashes
      • 6. hierarchies, complex fractal dimensions, and log-periodicity
      • 7. autopsy of major crashes
      • 8. bubbles, crises, and crashes in emergent markets
      • 9. prediction of bubbles, crashes, and antibubbles
      • 10. the end of the growth era?
  • 交易心理
    • [書]致富心態:關於財富、貪婪與幸福的20堂理財課
    • [書]我靠交易賺大錢:從散戶到專職操盤手的真實獲利法則
    • [書]存好股,我穩穩賺:沒有飆股的年頭,168曲線幫你賺百萬
  • 金融工程
    • 金融工程
    • 金錢的時間價值
    • chat with trader: David Sun
  • 經濟理論
    • 經濟學
      • 需求與供給
      • 獨占性競爭(monopolistic competition)
    • [書]耶魯最受歡迎的金融通識課
    • [書]經濟學-理論與實際
    • [書]政府的錢去那了
    • [書]華爾街不讓你知道的投資金律:掀開美國華爾街黑幕與聯準會祕辛, 頂尖投資專家揭露真正的價值投資策略
    • 國內生產毛額(GDP)
  • 貨幣
    • [書]看懂外匯就能掌握經濟脈動
    • [書]貨幣戰爭
    • 廉價貨幣
    • 貨幣乘數
    • 貨幣定義與起源
    • 貨幣本位制度
    • 殖利率曲線倒掛
    • 利率
    • 逆回購
    • 美元指數
    • 影子銀行
    • M1 及 M2 貨幣供給
    • 貨幣互換
    • 信用違約互換
    • 利率交換(互換、掉期)
    • 台北金融業拆款定盤利率,TAIBOR
    • 現代貨幣理論
      • MMT FAQ
      • [書]赤字迷思
  • 財務報表
    • 財務報表-資產負債表
      • 損益表
      • 現金流量表
      • 股東權益變動表
      • 會計師查核報告書
      • 常見財務比率
      • 本益比與股價淨值比
      • 減資與增資
      • 股東權益報酬率與總資產報酬率(ROE, ROA)
      • 金融股分析
    • [書]大會計師教你從財報數字看懂經營本質
    • [書]財報就像一本故事書
    • [書]不懂財報,也能輕鬆選出賺錢績優股:五大關鍵數字力
    • 假財報範例
    • Beneish M-score
    • Altman Z-score
    • Piotroski F-Score
    • 子公司
  • 資料來源
    • FRED(Federal Reserve Economic Data)
    • 台灣經濟新報(TEJ)
    • 報價訊號源
  • 選擇權
    • 權證
    • 牛熊證
    • 時間價差(time spread)
  • 金融事件
    • 2008次級房貸
Powered by GitBook
On this page
  • 摘要
  • 1. 介紹
  • 2. 定義冪律分佈
  • 3. 冪律分佈與經驗資料的擬合
  • 3.1 縮放參數估計
  • 3.2 尺度參數估計器的效能
  • 3.3. 冪律分佈下界的估計
  • 3.4. 下界估計檢驗
  • 3.5. 其他技術
  • 4. 檢驗冪律假設
  • 4.1. 擬合優度檢驗
  • 4.2. 擬合優度測試的效能
  • 5. 替代分佈
  • 5.1. 模型的直接比較
  • 5.2. 巢狀的假設
  • 5.3. 似然比檢驗的效能
  • 6. 對真實資料的應用
  • 7. 結論
  • 附錄A.線性回歸與冪律
  • A. 1 標準誤差的計算
  • A.2 驗證
  • A.3 回歸線不是有效的分佈
  • 附錄B.冪律的極大似然估計
  • B.1 連續資料
  • B.2 正式的結果
  • B.3 離散資料
  • B.4 離散冪律尺度參數的近似估計
  • 附錄C.似然比檢驗
  • C.1 巢狀的假設
  • 附錄D.冪律分佈隨機數的生成
  • python套件
  • 參考資料
  1. LPPL
  2. 冪分佈

Power-Law Distributions in Empirical Data

摘要

冪律分佈出現在許多科學感興趣的情況中,對我們對自然和人為現象的理解有重大影響。不幸的是,冪律的檢測和表徵由於分佈尾部(代表大而罕見的事件的分佈部分)的大波動和難以確定冪律行為所維持的範圍而變得複雜。常用的分析冪律資料的方法,如最小二乘擬合,可以對冪律分佈的參數產生基本不精準的估計,即使在這種方法返回精準答案的情況下,它們仍然不能令人滿意,因為它們根本沒有給出資料是否服從冪律的指示。在這裡,我們提出了一個原則性的統計框架,以識別和量化冪律行為的經驗資料。我們的方法將最大似然擬合方法與基於Kolmogorov-Smirnov (KS)統計量和似然比的擬合優度檢驗相結合。我們通過對合成資料的測試來評估該方法的有效性,並與以前的方法進行關鍵的比較。我們還將所提出的方法應用於來自一系列不同學科的24個真實世界的資料集,每個資料集都被推測為遵循冪律分佈。在某些情況下,我們發現這些猜想與資料是一致的,而在另一些情況下,冪律被排除在外。

1. 介紹

許多經驗量都圍繞著一個典型值(typical value, 此處指平均值或變異數等具代表性的統計量)。高速公路上汽車的速度、商店裡蘋果的重量、氣壓、海平面、紐約仲夏日中午的溫度:所有這些東西都有一些變化,但它們的分佈與典型值相差的機率可以忽略不計,從而使典型值能夠代表大多數觀察結果。例如,說美國成年男性身高約為180釐米是一個有用的說法,因為沒有人偏離這個身高很遠。即使是特別罕見的最大偏差,在任何一個方向上也只是平均數的2倍,因此只需引用其平均數和標準差就可以很好地描述分佈的特徵。

然而,並不是所有的分佈都符合這種模式,雖然那些不符合的分佈往往被認為有問題或有缺陷,但它們同時也是所有科學觀察中最有趣的一些。它們不能像其他測量那樣被簡單地描述,這一事實往往表明了值得進一步研究的複雜的潛在過程。

在這些分佈中,冪律(power law)多年來引起了特別的關注,因為它的數學特性有時會導致令人驚訝的物理後果,而且它出現在各種自然和人為現象中。例如,城市的人口、地震的強度和停電的大小,都被認為是遵循冪律分佈的。諸如此類的數量並不能很好地用其典型值或平均值來描述。例如,根據2000年美國人口普查,美國一個城市、城鎮或村莊的平均人口為8226。但這一說法對大多數情況下是沒有用的,因為總人口的很大一部分生活在城市(紐約、洛杉磯等),而這些城市的人口要大幾個數量級。關於這個問題以及冪律的其他特性的廣泛討論,可以在Mitzenmacher[40]、Newman[43]和Sornette[55]的評論中找到,以及其中的參考文獻。

在數學上,如果一個量xxx是從以下機率分佈(1.1)中生成的,那麼它就服從冪律:

P(x)∝x−α\mathrm{P}(x) \propto x^{-\alpha}P(x)∝x−α

其中α\alphaα是分佈的常數參數,稱為指數(exponent)或縮放參數(scaling patameter)。縮放參數通常位於2<α<32 < \alpha < 32<α<3的範圍內,儘管偶爾也有例外。

在實踐中,很少有觀察值xxx之值全部都服從冪律。冪律往往只適用於大於某個最小值xmin⁡x_{\min}xmin​的情況(右尾分佈)。在這種情況下,我們說分佈的尾部遵循冪律。

在這篇文章中,我們討論了科學文獻中反覆出現的一個問題,即當我們看到冪律時,如何識別它的問題。在實踐中,我們很少(如果有的話)能確定一個觀察到的量是來自冪律分佈。我們最多只能說,我們的觀察結果與假設一致,即xxx是從(1.1)形式的分佈中提取的。在某些情況下,我們可能還能排除其他一些競爭性假設。在本文中,我們詳細描述了一套允許人們得出類似這些結論的統計技術,以及當我們發現冪律時計算其參數的方法。我們描述的許多方法以前已經討論過了;我們在這裡的目標是把它們集中起來,建立一個分析冪律資料的完整程式。方框1中給出了對該程式的簡短描述。實現該程式的軟體也可線上獲得。

實踐我們所宣揚的,我們也將我們的方法應用於大量的資料集,這些資料集描述的是曾經被認為遵循冪律的真實世界現象的觀察。在這個過程中,我們證明了其中的一些不能被合理地認為是遵循冪律的,而對於其他的冪律假設似乎是一個很好的假設,或至少沒有完全排除。

方框1:分析冪律分佈資料的方法

本文包含了許多技術細節。然而,總的來說,我們提出的分析冪律資料的方法很簡單,如下所示。

  1. 用第3節所述的方法估計冪律模型的參數xmin⁡x_{\min}xmin​和α\alphaα。

  2. 使用第4節描述的方法計算資料和冪律之間的擬合度。如果得出的P值大於0.1,則冪律是資料的一個可信假設,否則將被拒絕。

  3. 通過似然比檢驗(likelihood ratio test)將冪律與替代假設進行比較。如第5節所述。對於每個替代假設,如果計算出的似然比顯著地不同於零,那麼它的符號就表明該假設是否比冪律模型更受歡迎。

第3步,替代假設的似然比檢驗,原則上可以用其他幾種建立和統計原則的模型比較方法中的任何一種替代,例如完全貝式方法[31],交叉驗證方法[58],或最小描述長度方法[20],儘管這裡沒有描述這些方法。

2. 定義冪律分佈

冪律分佈有兩種基本形式:連續分佈為連續實數,而離散分佈為一組離散值,通常是正整數。

設xxx表示我們感興趣的分佈量。連續冪律分佈是一種由機率密度p(x)p(x)p(x)描述的分佈如下(2.1):

p(x)dx=P(x≤X<x+dx)=Cx−αdxp(x)dx=\mathrm{P}(x \leq X < x +dx)=Cx^{-\alpha} dxp(x)dx=P(x≤X<x+dx)=Cx−αdx

其中XXX​是觀測值,CCC為歸一化(normalization)後的常數。

此密度在x→0x \rightarrow 0x→0時發散,所以(2.1)不能適用於所有x≥0x \geq 0x≥0的情況;冪律行為一定存在下界,記為xmin⁡x_{\min}xmin​。然後給定α>1\alpha > 1α>1,計算歸一化常數很簡單可得(2.2)

p(x)=α−1xmin⁡(xxmin⁡)−αp(x)=\frac{\alpha -1}{ x_{\min}}\left( \frac{x}{x_{\min}} \right)^{-\alpha}p(x)=xmin​α−1​(xmin​x​)−α
求解過程

為了簡化符號,令y≡xmin⁡y\equiv x_{\min}y≡xmin​

∫y∞p(x)dx=1⇒∫y∞Cx−αdx=1, α>1\int_{y}^{\infty} p(x)dx=1 \Rightarrow \int_{y}^{\infty} C x^{-\alpha}dx=1, ~ \alpha > 1∫y∞​p(x)dx=1⇒∫y∞​Cx−αdx=1, α>1

因為α>1\alpha >1α>1時,x→0, x−α+1→0x \rightarrow 0, ~ x^{-\alpha + 1} \rightarrow 0x→0, x−α+1→0

積分後可得Cα−1y−α+1=1\frac{C}{\alpha -1} y^{-\alpha +1} = 1α−1C​y−α+1=1,C=(α−1)yα−1C = (\alpha - 1) y^{\alpha - 1}C=(α−1)yα−1

因為p(x)=Cx−αp(x) = C x^{-\alpha}p(x)=Cx−α,將C=(α−1)yα−1C = (\alpha - 1) y^{\alpha - 1}C=(α−1)yα−1代入後整理可得

p(x)=α−1y(xy)−αp(x)=\frac{\alpha - 1}{y} \left( \frac{x}{y} \right)^{-\alpha}p(x)=yα−1​(yx​)−α (QED)

在離散情況下,xxx只能取一組離散的值。在本文中,我們只考慮具有這種形式的機率分佈的整數值的情況(2.3):

p(x)=P(X=x)=Cx−αp(x)=\mathrm{P}(X=x)=Cx^{-\alpha}p(x)=P(X=x)=Cx−α

這個分佈在x=0x=0x=0處發散,所以冪律行為一定有一個下界xmin⁡>0x_{\min} > 0xmin​>0。計算歸一化常數後可得(2.4):

p(x)=x−αξ(α,xmin⁡)p(x)=\frac{x^{-\alpha}}{\xi(\alpha, x_{\min})}p(x)=ξ(α,xmin​)x−α​

其中ξ(α,xmin⁡)=∑n=0∞(n+xmin⁡)−α\xi(\alpha, x_{\min})=\sum_{n=0}^\infty (n+x_{\min})^{-\alpha}ξ(α,xmin​)=∑n=0∞​(n+xmin​)−α是一般化的Hurwitz zeta函數。

求解過程

為了簡化符號,令y=xmin⁡y=x_{\min}y=xmin​​

∑x=y∞Cx−α=1\displaystyle \sum_{x=y}^\infty Cx^{-\alpha}=1x=y∑∞​Cx−α=1

表1總結了這些分佈的基本函數形式和歸一化常數以及其他一些有用的分佈。

在許多情況下,考慮隨機變數的累積分佈函數或CDF是有用的,我們表示為P(x)\mathrm{P} (x)P(x),對於連續和離散情況,定義為P(x)=Pr(X≥x)\mathrm{P} (x) = \mathrm{Pr}(X \geq x)P(x)=Pr(X≥x)。

在連續分佈時可得(2.6):

P(x)=∫x∞p(y)dy=(xxmin⁡)−α+1P(x)=\int_{x}^{\infty}p(y)dy = \left( \frac{x}{x_{\min}} \right)^{-\alpha +1}P(x)=∫x∞​p(y)dy=(xmin​x​)−α+1

而在離散分佈時可得(2.7):

P(x)=ξ(α,x)ξ(α,xmin⁡)P(x) = \frac{\xi(\alpha, x)}{\xi (\alpha, x_{\min})}P(x)=ξ(α,xmin​)ξ(α,x)​

由於連續分佈(如(2.2)的公式往往比離散分佈的公式更簡單,為了數學上的方便,常用連續冪律近似離散冪律行為。但需要注意的是:有幾種不同的方法可以用連續的方法來近似離散的冪律,儘管其中一些給出了合理的結果,但其他的則沒有。

一種相對可靠的方法是將整數冪律看作是由連續冪律生成的xxx值,然後四捨五入到最接近的整數。這種方法在許多應用中得到了相當準確的結果。然而,其他近似方法,如截斷(舍入)或簡單地假設在離散和連續情況下產生整數值的機率是成比例的,會給出糟糕的結果,應該避免。

在適當的情況下,我們將在接下來的章節中討論離散冪律的連續逼近的使用,特別是在關於從觀測資料中估計尺度參數的最佳擬合值的章節和在附錄D中關於冪律分佈隨機數的生成的章節。

3. 冪律分佈與經驗資料的擬合

我們現在轉向本文的第一個主要目標,冪律形式對經驗分佈的正確擬合。對遵循冪律的經驗分佈的研究通常給出尺度參數α\alphaα的估計,偶爾也給出尺度區域xmin⁡x_{\min}xmin​的下界的估計。這個任務最常用的工具是簡單的直方圖。對(1.1)的兩邊取對數,可得冪律分佈服從ln⁡p(x)=αln⁡(x)+constant\ln p(x) = \alpha \ln(x)+\text{constant}lnp(x)=αln(x)+constant,這意味著它在對數軸直方圖上遵循一條直線。因此,探測冪律行為的一種常見方法是測量目標xxx的數量,構造一個表示其頻率分佈的直方圖,並在兩個對數軸上繪製該直方圖。如果在這樣做的過程中發現了一個近似落在直線上的分佈,那麼如果感覺特別直,就可以斷言該分佈遵循冪律,其比例參數α\alphaα由直線的斜率給出。

通常,這個斜率是通過對直方圖的對數軸(xxx與yyy軸)執行最小二乘線性回歸來提取的。這個過程可以追溯到Pareto在19世紀末對財富分配的研究。

不幸的是,這種方法和相同主題的其他變體在相對常見的情況下會產生重大的系統錯誤,如附錄A所討論的,因此他們給出的結果是不可信的。在本節中,我們描述一種估計冪律分佈參數的一般準確方法。在第4節中,我們研究了同樣重要的問題,即如何確定給定的資料集是否真的遵循冪律。

3.1 縮放參數估計

首先,讓我們考慮尺度參數α\alphaα的估計。正如我們將看到的,正確估計α\alphaα需要資料中冪律行為的下界xmin⁡x_{\min}xmin​的值。讓我們假設xmin⁡x_{\min}xmin​是已知的。在未知的情況下,我們也可以從資料中估計它,我們將在3.3節中考慮這樣做的方法。

冪律分佈等參數化模型與觀測資料擬合的選擇方法是最大似然法(MLE),該方法在大樣本容量的極限下給出了準確的參數估計[63,7]。假設我們的資料來自一個對x≥xmin⁡x \geq x_{\min}x≥xmin​嚴格遵循冪律的分佈,我們可以匯出離散和連續情況下縮放參數的最大似然估計(MLEs)。衍生方法的詳細情況見附錄B;這裡我們關注的是它們的使用。

連續分佈的MLE如下(3.1):

α^=1+n[∑i=1nln⁡xixmin⁡]−1\hat{\alpha} = 1+n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_{\min}} \right]^{-1}α^=1+n[i=1∑n​lnxmin​xi​​]−1

其中xi, i=1,2,…,nx_i, ~ i=1,2,\dots, nxi​, i=1,2,…,n是xi≥xmin⁡x_i \geq x_{\min}xi​≥xmin​的觀測值。

在這裡和其他地方,我們使用“帶帽 (hatted)”的符號來表示從資料匯出的估計;無帽符號表示實際值,而實際值通常是未知的。

上式(3.1)等價於著名的Hill估計量[24],該估計量為漸近常態[22]和一致[37]。(即 α^→α\hat{\alpha} \rightarrow \alphaα^→α as n→∞n \rightarrow \inftyn→∞)。

由似然極大值寬度匯出的α^\hat{\alpha}α^上的標準誤差為(3.2):σ=hatα−1n+O(1n)\sigma = \frac{\\hat{\alpha}-1}{\sqrt{n}} + O(\frac{1}{n})σ=n​hatα−1​+O(n1​),其中高階修正為正值;參見本文附錄B或任何參考文獻[42],[43]或[66]。

在這些計算中,我們假定α>1\alpha > 1α>1,因為α≤1α\leq 1α≤1的分佈是不可歸一化的,因此在自然界中不可能發生。如果xxx的範圍有一定的上界,則在α≤1\alpha \leq 1α≤1的情況下,機率分佈可能為x−αx^{−\alpha}x−α,但需要不同的最大似然值來擬合這種分佈。

對於xxx是離散整數變數的情況,MLE就不那麼簡單了。參考文獻[51]和最近的[19]處理了xmin⁡=1x_{\min} = 1xmin​=1的特殊情況,表明通過先驗方程的解給出了α\alphaα的適當估計量(3.3):

ξ′(α^)ξ(α^)=−1n∑i=1nln⁡(xi)\frac{\xi^{'}(\hat{\alpha})}{\xi(\hat{\alpha})} = -\frac{1}{n} \sum_{i=1}^n \ln (x_i)ξ(α^)ξ′(α^)​=−n1​i=1∑n​ln(xi​)

當xmin⁡>1x_{\min} > 1xmin​>1,類似的方程成立,但用廣義zeta函數代替zeta函數[6,8,11](3.4):

ξ′(α^,xmin⁡)ξ(α^,xmin⁡)=−1n∑i=1nln⁡(xi)\frac{\xi^{'}(\hat{\alpha}, x_{\min})}{\xi(\hat{\alpha}, x_{\min})} = -\frac{1}{n} \sum_{i=1}^n \ln (x_i)ξ(α^,xmin​)ξ′(α^,xmin​)​=−n1​i=1∑n​ln(xi​)

prime表示對第一個參數求導。在實際中,α^\hat{\alpha}α^的求值要求我們用數值方法求解該方程。或者,我們可以通過似然函數本身的直接數值最大化來估計α\alphaα,或者等價於它的對數(這通常更簡單)(3.5):

L(α)=−nln⁡ξ(α,xmin⁡)−α∑i=1nln⁡xi\mathcal{L}(\alpha)= -n \ln \xi(\alpha, x_{\min}) - \alpha \sum_{i=1}^n \ln x_iL(α)=−nlnξ(α,xmin​)−αi=1∑n​lnxi​

為了找到離散情況下α^\hat{\alpha}α^上標準誤差的估計,我們在其最大值處對對數似然進行二次逼近,並將結果高斯形式的似然的標準差作為我們的誤差估計(一種由關於最大似然估計的大樣本行為的一般定理證明的方法-例如,參見附錄B中的定理B.3)。結果如下(3.6):

σ=1n[ξ′′(α^,xmin⁡)ξ(α^,xmin⁡)−(ξ′(α^,xmin⁡)ξ(α^,xmin⁡))2]\sigma = \frac{1}{\sqrt{n \left[ \frac{\xi^{''}(\hat{\alpha}, x_{\min})}{\xi(\hat{\alpha}, x_{\min})} - \left( \frac{\xi^{'}(\hat{\alpha}, x_{\min})}{\xi(\hat{\alpha}, x_{\min})} \right)^2 \right] }}σ=n[ξ(α^,xmin​)ξ′′(α^,xmin​)​−(ξ(α^,xmin​)ξ′(α^,xmin​)​)2]​1​

一旦我們有了α^\hat{\alpha}α^,這就很容易計算了。或者,(3.2)對於相當大的nnn和xmin⁡x_{\min}xmin​產生大致相似的結果。

雖然在離散情況下α^\hat{\alpha}α^沒有精確的封閉形式的表示式,但可以使用第2節中提到的方法匯出一個近似表示式,其中真實冪律分佈整數被近似為連續實數四捨五入到最近的整數。推導的細節在附錄B中給出。

結果如下(3.7):

α^≈1+n[∑i=1nln⁡xixmin⁡−12]−1\hat{\alpha} \approx 1+ n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_{\min}- \frac{1}{2}} \right]^{-1}α^≈1+n[i=1∑n​lnxmin​−21​xi​​]−1

該表示式比精確的離散最大似然值更容易計算,在不需要高精度的情況下也很有用。附錄b討論了由近似引入的偏差的大小,在實踐中,該估計器給出了相當好的結果;在我們自己的實驗中,我們發現在提供xmin⁡≥6x_{\min} \geq 6xmin​≥6的情況下,它給出的結果精度約為1%或更好。α^\hat{\alpha}α^上統計誤差的估計(與近似值引入的系統誤差是完全分開的)可以通過再次使用(3.2)來計算。

一些作者採取的另一種方法是簡單地假設離散資料實際上是連續的,然後對連續資料使用MLE(3.1)來計算α^\hat{\alpha}α^。然而,這種方法給出的α^\hat{\alpha}α^}的精確值明顯低於(3.7),並且,考慮到它並不容易實現,我們認為在任何情況下都沒有理由使用它。

3.2 尺度參數估計器的效能

為了演示上述估計式,我們現在測試它們提取合成冪律資料已知標度參數的能力。請注意,在實際情況中,我們通常不知道參數值,而只能猜測資料是冪律分佈的。在這種情況下,我們的MLEs不會警告我們我們的擬合是錯誤的:它們只告訴我們冪律形式的最佳擬合,而不是冪律實際上是否是資料的一個良好模型。還需要其他方法來解決後一個問題,將在第4和第5節中討論。

使用附錄D中的方法,我們生成了兩組冪律分佈資料,一組連續,一組離散,每種情況下α=2.5\alpha = 2.5α=2.5, xmin⁡=1x_{\min} = 1xmin​=1, n=10000n = 10000n=10000。對這些資料應用最小二乘法,我們計算出連續分佈下α^=2.50(2)\hat{\alpha}= 2.50(2)α^=2.50(2),離散分佈下α^=2.49(2)\hat{\alpha}= 2.49(2)α^=2.49(2)。(括號內的值表示從(3.2)和(3.6)計算的最後一位數字的不確定度。)這些估計很好地符合已知的真實尺度參數,從資料生成。圖1顯示了兩個資料集的分佈以及使用估計參數的擬合。(在這張圖以及隨後所有這樣的圖中,我們展示的不是機率密度函數(PDF),而是CDF P(x)P(x)P(x)。一般來說,對於有限樣本量造成的波動,CDF的視覺形式比PDF更穩健,特別是在分佈的尾部。)

Q: 為何圖1中的cdf不是遞增函數?

在表2中,我們將MLEs給出的結果與基於線性回歸的幾種替代方法得出的尺度參數估計值進行了比較。 使用對數變換直方圖斜率的直線擬合,對具有“對數箱(bins)”的直方圖斜率的擬合(箱的寬度與x成比例增長,從而減少直方圖尾部的波動),對具有恆定寬度的箱計算的CDF的斜率的擬合,以及對沒有任何箱計算的CDF的斜率的擬合(也稱為“秩-頻率圖”-參見[43])。如表所示,MLEs給出了最好的結果,而迴歸方法都給出了顯著的有偏值,除了與CDF的擬合,它在離散情況下產生有偏估計,但在連續情況下做得相當好。此外,在每一種估計有偏差的情況下,相應的誤差估計沒有給出偏差的警告:沒有任何東西提醒粗心的實驗者,他們的結果基本上是不正確的事實。圖2以圖形的方式擴展了這些結果,展示了對於n=10000n = 10000n=10000次觀測的大量合成資料集,估計量如何作為真實α\alphaα的函數。

最後我們注意到,在大樣本容量的漸近極限n→∞n \rightarrow \inftyn→∞下,最大似然模型僅保證無偏。對於有限的資料集,相對於任何xmin⁡x_{\min}xmin​的選擇,偏差都是存在的,但衰減為O(n−1)O(n^{ - 1})O(n−1)(見附錄B和圖10)。對於非常小的資料集,這種偏差可能很顯著,但在大多數實際情況下,它們可以被忽略,因為它們比估計器的統計誤差小得多,後者衰減為O(n−0.5)O(n ^{- 0.5})O(n−0.5)。我們的經驗表明,n≥50n\geq 50n≥50是提取可靠參數估計的一個合理的經驗規則。對於圖10所示的例子,這給出了α\alphaα的估計,精確度約為1%。小於此值的資料集應謹慎處理。然而,請注意,謹慎對待小資料集還有更重要的原因。換句話說,即使這些資料是真正的冪律分佈,也很難排除它們的其他擬合,相反的,冪律形式即使是來自非冪律分佈的資料也可能看起來是很好的擬合。我們將在第4和第5節討論這些問題。

3.3. 冪律分佈下界的估計

正如我們上面所說的,通常情況下,如果經驗資料完全遵循冪律分佈,那麼只有在某個下界xmin⁡x_{\min}xmin​以上的xxx值才會這樣做。因此,在計算縮放參數α\alphaα的估計之前,我們需要首先丟棄這一點以下的所有樣本,這樣我們就只剩下那些冪律模型有效的樣本。因此,如果我們希望α\alphaα的估計準確,我們還需要一個精確的方法來估計xmin⁡x_{\min}xmin​。

  • 如果我們為xmin⁡x_{\min}xmin​選擇過低的值,我們將得到縮放參數的有偏估計,因為我們將試圖將冪律模型適合於非冪律資料。

  • 另一方面,如果我們為xmin⁡x_{\min}xmin​選擇過高的值,我們實際上是在丟棄合法的資料點xi<x^min⁡x_i < \hat{x}_{\min}xi​<x^min​,這增加了縮放參數的統計誤差和有限尺寸效應的偏差。

使用正確的xmin⁡x_{\min}xmin​值的重要性在圖3中得到了展示,它顯示了縮放參數的最大似然值α^\hat{\alpha}α^平均超過5000個n=2500n = 2500n=2500個樣本的資料集,每個資料集來自(3.10)的連續形式,α=2.5\alpha = 2.5α=2.5,作為xmin⁡x_{\min}xmin​的假設值的函數,其中真實值為100。如圖所示,當選擇的xmin⁡x_{\min}xmin​恰好等於真實值時,MLE給出了準確的答案,但在該點以下的偏差很快(因為分佈偏離冪律),在該點以上的偏差更慢(因為樣本容量減少)。在這種情況下,xmin⁡x_{\min}xmin​的誤差稍高(雖然不是太多)是可以接受的,但是估計過低可能會造成嚴重的後果。

選擇x^min⁡\hat{x}_{\min}x^min​的最常見的方法是,要麼直觀地估計在對數圖上分佈的PDF或CDF超過了什麼點,要麼將α^\hat{\alpha}α^(或相關的數量)作為x^min⁡\hat{x}_{\min}x^min​的函數畫出來,並確定一個值看起來相對穩定的點。但這些方法顯然是主觀的,對分佈尾部的噪聲或波動很敏感-見[57]和其中的參考文獻。我們需要一種更客觀和更有原則的方法。在這裡,我們回顧了兩種這樣的方法,一種針對離散資料,基於所謂的邊際似然,另一種適用於離散或連續資料,基於最小化冪律模型和經驗資料之間的“距離”。

method 1:邊際似然(marginal likelihood)

第一種方法是由Handcock和Jones[23]提出的,使用一個通用模型來表示所有的觀測資料,包括x^min⁡\hat{x}_{\min}x^min​以上和以下的資料。以上x^min⁡\hat{x}_{\min}x^min​資料採用標準離散冪律分佈(2.4)建模;以下x^min⁡\hat{x}_{\min}x^min​每個x^min⁡−1\hat{x}_{\min}−1x^min​−1離散的xxx值由一個單獨的機率pk=Pr(x=k)p_k = \mathrm{Pr}(x = k)pk​=Pr(x=k)為1≤k<x^min⁡1 \leq k <\hat{x}_{\min}1≤k<x^min​(或者任何適合手頭問題的範圍)建模。pkp_kpk​的MLE僅僅是值為kkk的觀測值的一部分。接下來的任務是找到x^min⁡\hat{x}_{\min}x^min​的值,使該模型最適合觀測資料。

然而,我們不能在最大似然框架內將這樣的模型直接擬合到資料中,因為模型參數的數量不是固定的:它等於xmin⁡x_{\min}xmin​(每個pkp_kpk​加上冪律的縮放參數都有一個參數。歸一化常數不作為參數,因為一旦選擇了其他參數的值,它就固定了,而xmin⁡x_{\min}xmin​不作為參數,因為一旦給出其他參數的列表,我們就會自動知道它的值—它只是列表的長度。)在這種情況下,總是可以通過增加參數的數量來獲得更高的可能性,從而使模型更加靈活,所以在xmin⁡→∞x_{\min} \rightarrow \inftyxmin​→∞時總是獲得最大的可能性。在這種情況下,一種標準的(貝葉斯)方法是最大化邊際似然(也稱為證據)[29,34],即給定模型參數數量的資料的似然,整合在參數的可能值上。不幸的是,這個積分通常不能用解析的方法來實現,但可以使用拉普拉斯或最速下降近似,其中對數似然擴展到其最大值的前次(即二次)階,得到的高斯積分得到一個表示式,表示式的形式是最大值處的值和適當的Hessian矩陣[60]的行列式。

Schwarz[50]表明,涉及到Hessian的項可以簡化為大nnn產生近似於對數邊際似然的形式(3.8):

ln⁡Pr(x ∣ xmin⁡)≈L−12xmin⁡ln⁡n\ln \mathrm{Pr}(x~|~ x_{\min}) \approx \mathcal{L} - \frac{1}{2}x_{\min} \ln nlnPr(x ∣ xmin​)≈L−21​xmin​lnn

其中L\mathcal{L}L為一般對數似然的最大值。這種近似被稱為貝葉斯資訊準則(Bayesian information criterion, BIC)。BIC相對於xmin⁡x_{\min}xmin​的最大值給出了估計值x^min⁡\hat{x}_{\min}x^min​。

這種方法在某些情況下可以很好地工作,但也會出現困難。特別是,假設xmin⁡−1x_{\min}−1xmin​−1參數需要對xmin⁡x_{\min}xmin​以下的資料建模,這可能是過多的:在許多情況下,xmin⁡x_{\min}xmin​以下的分佈雖然不遵循冪律,但可以用一個參數數量少得多的模型很好地表示。在這種情況下,BIC往往會低估xmin⁡x_{\min}xmin​的值,這可能會導致對尺度參數隨後計算值的偏差。更重要的是,還不清楚如何將BIC(以及類似的方法)推廣到連續資料的情況,對於連續資料,沒有明顯的選擇需要多少參數來表示xmin⁡x_{\min}xmin​以下的經驗分佈。

method 2:KS統計量

我們的第二種估計xmin⁡x_{\min}xmin​的方法,由Clauset, Young和Gleditsch[11]提出,可以應用於離散和連續資料。這種方法背後的基本思想很簡單:我們選擇x^min⁡\hat{x}_{\min}x^min​的值,使測量資料的機率分佈和最佳擬合的冪律模型儘可能類似於x^min⁡\hat{x}_{\min}x^min​。

  • 通常,如果我們選擇x^min⁡\hat{x}_{\min}x^min​高於真實值xmin⁡x_{\min}xmin​,那麼我們就有效地減小了資料集的大小(樣本總量固定時,xmin⁡x_{\min}xmin​越高,x>xmin⁡x>x_{\min}x>xmin​可取到的樣本越少),這將使機率分佈由於統計波動而匹配得較差。

  • 相反,如果我們選擇x^min⁡\hat{x}_{\min}x^min​比真正的xmin⁡x_{\min}xmin​小,分佈將會不同,這是因為我們所描述的資料和模型之間的基本差異。在這兩者之間是我們的最佳估計。

有多種方法來量化兩個機率分佈之間的距離,但對於非正態資料,最常見的是Kolmogorov-Smirnov或KS統計量[46],這只是資料的cdf和擬合模型之間的最大距離(3.9):

D=max⁡x≥xmin⁡∣S(x)−P(x)∣\displaystyle D= \max_{x \geq x_{\min}} |S(x) - P(x) | D=x≥xmin​max​∣S(x)−P(x)∣

這裡S(x)S(x)S(x)是值至少為xmin⁡x_{\min}xmin​的觀測資料(樣本)的CDF,P(x)P(x)P(x)是最適合x≥xmin⁡x \geq x_{\min}x≥xmin​區域資料的冪律模型的CDF。我們估計x^min⁡\hat{x}_{\min}x^min​就是使DDD最小的xmin⁡x_{\min}xmin​值。

D的計算方法
  • 已知所有的觀測值xxx,給定xmin⁡x_{\min}xmin​後,可得x≥xmin⁡x \geq x_{\min}x≥xmin​的累積分佈函數S(x)S(x)S(x)。

  • 同樣給定xmin⁡x_{\min}xmin​後,也可得到我們指定的冪律分佈CDF P(x)P(x)P(x)。

  • 兩個CDF函數在x≥xmin⁡x \geq x_{\min}x≥xmin​的最大差值的絕對值即為DDD。

現在問題在於選定xmin⁡x_{\min}xmin​後,擬合的P(x)P(x)P(x)的α\alphaα也會隨之變動,兩者要如何調整得到全局最佳解?

題我們有充分的理由期待這種方法產生合理的結果。特別要注意的是,對於我們這裡考慮的那種右偏資料,該方法對xmin⁡x_{\min}xmin​附近冪律模型的資料的輕微偏差特別敏感,因為大多數資料,也就是CDF的大部分動態範圍,都位於這個區域。在實踐中,正如我們在下一節中所展示的,該方法似乎給出了出色的結果,並且通常比BIC方法效能更好。

3.4. 下界估計檢驗

與縮放參數的最大似然值一樣,我們通過生成合成資料並檢查方法恢復已知xmin⁡x_{\min}xmin​值的能力來測試估計xmin⁡x_{\min}xmin​的兩種方法。對於這裡展示的測試,我們使用以下分佈中提取的合成資料(3.10),其中α=2.5\alpha=2.5α=2.5:

p(x)={C(xxmin⁡)−αx≥xmin⁡Ce−α(x/xmin⁡−1)x<xmin⁡p(x) = \left\{ \begin{aligned} & C \left(\frac{x}{x_{\min}} \right)^{-\alpha} & x \geq x_{\min} \\ & C e^{-\alpha (x/x_{\min}-1)} & x < x_{\min} \\ \end{aligned} \right.p(x)=⎩⎨⎧​​C(xmin​x​)−αCe−α(x/xmin​−1)​x≥xmin​x<xmin​​

該分佈在xmin⁡x_{\min}xmin​及以上遵循冪律,而在xmin⁡x_{\min}xmin​以下遵循指數律。此外,它在xmin⁡x_{\min}xmin​處有一個連續的斜率,因此當我們通過這個點以下時,它只稍微偏離冪律,這是一個具有挑戰性的測試。圖4a顯示了不同xmin⁡x_{\min}xmin​值的這種分佈的曲線族。

在圖4b中,我們展示了應用BIC和KS方法對來自(3.10)的大量資料集估計xmin⁡x_{\min}xmin​的結果。該圖顯示了平均估計值x^min⁡\hat{x}_{\min}x^min​作為離散情況下真實xmin⁡x_{\min}xmin​的函數。在這種情況下,KS方法似乎可以很好地估計xmin⁡x_{\min}xmin​,而且對於連續資料的效能也類似(沒有顯示),儘管結果傾向於稍微保守一些(即產生稍微大一些的估計x^min⁡\hat{x}_{\min}x^min​)。BIC方法的效能也很好,但是正如圖中所示,該方法顯示出低估xmin⁡x_{\min}xmin​的趨勢,這一點我們可以從上一節的參數中看出。基於這些觀察結果,我們推薦KS方法用於一般應用中估計xmin⁡x_{\min}xmin​。

這些測試使用了n=50000n = 50000n=50000筆的合成資料集(註:此處的nnn意義和前面不同),但使用KS方法可以從非常小的資料集提取xmin⁡x_{\min}xmin​的良好估計值。結果對分佈中冪律部分的觀測數ntailn_{tail}ntail​最敏感。對於連續和離散的情況,我們發現只要在分佈的這一部分有大約1000個或更多的觀測值,就可以得到很好的結果。這個數字確實依賴於分佈中非冪律部分的特殊形式。在本試驗中,該分佈是專門設計的,以使xmin⁡x_{\min}xmin​的測定具有挑戰性。如果我們選擇一種更明顯地偏離xmin⁡x_{\min}xmin​下面的冪律的形式,那麼估計x^min⁡\hat{x}_{\min}x^min​的任務就會更容易,並且可能需要更少的觀察來獲得類似質量的結果。

對於某些可能的分佈,在某種意義上,沒有xmin⁡x_{\min}xmin​的真正值。分佈p(x)=C(x+k)−αp(x) = C(x + k)^{−\alpha}p(x)=C(x+k)−α在xxx大的極限下服從冪律,但xmin⁡x_{\min}xmin​值在其以上不完全服從冪律。儘管如此,在這種情況下,我們希望我們的方法返回x^min⁡\hat{x}_{\min}x^min​,這樣當我們隨後計算α\alphaα的最佳擬合值時,我們就能得到真實縮放參數的精準估計。在對這些分佈的測試中,我們發現KS方法產生了α\alphaα的估計,似乎是漸近一致的,這意味著α^→α\hat{\alpha} \rightarrow \alphaα^→α當n→∞n \rightarrow \inftyn→∞。因此,這種方法似乎再次工作得很好,儘管人們是否能得到嚴格的效能保證仍然是一個懸而未決的問題。

KS方法的變化是可能的,使用一些其他的擬合測量方法,可能比KS統計在某些情況下更好。例如,已知KS統計量在xxx的極端值上,分佈之間的差異相對不敏感,因為在這些極端值中,CDF必然趨於0和1。它可以重新加權以避免這個問題,並且在xxx的取值 範圍內均勻敏感[46];適當的調整如下(3.11):

D∗=max⁡x≥x^min⁡∣S(x)−P(x)∣P(x)(1−P(x))D^{*} = \max_{x \geq \hat{x}_{\min}} \frac{|S(x)- P(x)|}{\sqrt{P(x) (1- P(x))}}D∗=x≥x^min​max​P(x)(1−P(x))​∣S(x)−P(x)∣​

此外,還提出了一些其他的擬合優度統計資料,並得到了普遍使用,如Kuiper and Anderson–Darling統計[13]。我們已經對這些替代統計進行了測試,發現重新加權的KS和Kuiper統計的結果與標準KS統計的結果非常相似。另一方面,我們發現Anderson-Darling統計資料在這個應用程式中是非常保守的,它給出的估計x^min⁡\hat{x}_{\min}x^min​太大了一個數量級或更多。當分佈尾部樣本較多時,這種保守程度是可以接受的,但在大多數情況下,尾部觀測次數的減少會大大增加我們對標度參數最大擬合誤差的統計誤差,也會降低我們對冪律模型的驗證能力。

最後,就像我們對縮放參數的估計一樣,我們想要量化xmin⁡x_{\min}xmin​估計中的不確定性。一種方法是使用非參數“bootstrap”方法[16]。給定我們的nnn個測量值,通過繪製點xi, i=1,…,nx_i,~ i = 1,\dots, nxi​, i=1,…,n的新序列,我們生成了一個與原始資料分佈相似的合成資料集。從原始資料中均勻隨機(帶替換)。使用上面描述的任何一種方法,我們然後估計這個替代資料集的xmin⁡x_{\min}xmin​和α\alphaα。通過對這個過程的大量重複(比如1000次)取這些估計的標準偏差,我們可以對原始估計參數的不確定性進行原則性估計。

3.5. 其他技術

如果我們不提及用於分析冪律分佈的其他一些技術,尤其是那些在統計和金融領域發展起來的技術,這些領域對這些分佈的研究也許有最悠久的歷史。我們在這裡只對這些材料做一個簡短的總結;有興趣進一步探討這個話題的讀者可以參考Adler、Feldman以及Taqqu[4]和Resnick[48]的著作,以獲得更全面的解釋。

在統計文獻中,研究人員經常考慮分佈族形式如下(3.12):

p(x)∝L(x)x−αp(x)\propto L(x)x^{-\alpha}p(x)∝L(x)x−α

其中L(x)L(x)L(x)是緩慢變化的函數,因此得lim⁡x→∞L(cx)L(x)=1 ∀c>0\lim_{x \rightarrow \infty} \frac{L(cx)}{L(x)} =1 ~ \forall c > 0 limx→∞​L(x)L(cx)​=1 ∀c>0。

本例中的一個重要問題,是找到x−αx^{−\alpha}x−α可以被認為主導函數L(x)L(x)L(x)的非漸近行為的點xmin⁡x_{\min}xmin​,如果資料跨度僅為一個有限的動態範圍,或者非冪律行為∣L(x)−L(∞)∣|L(x)−L(\infty)|∣L(x)−L(∞)∣的衰減速度僅比x−αx^{−\alpha}x−α快一點,這個任務可能會很棘手。

在這種情況下,一種可視化方法是一種常見的技術,—將縮放參數的估計值α^\hat{\alpha}α^繪製為xmin⁡x_{\min}xmin​的函數(稱為Hill圖),並選擇x^min⁡\hat{x}_{\min}x^min​的值,超過該值α^\hat{\alpha}α^顯得穩定。然而,繪製其他統計資料通常可以得到更好的結果——例如,檢視[33]和[57]。另一種方法,在定量金融文獻中很常見,是簡單地將分析限制在最大的觀察樣本,如最大的n\sqrt{n}n​或110n\frac{1}{10} n101​n觀察值[17]。

但是,在3.3節中描述的方法比這些技術有幾個優點。特別是,第3.3節的KS方法給出了儘可能好的xmin⁡x_{\min}xmin​估計,同時實現簡單,計算成本足夠低,可以有效地用作進一步分析(如第4節中的ppp值計算)的基礎。而且,也許更重要的是,因為KS方法從縮放參數的估計中完全去掉了資料的非冪律部分,對剩餘資料的擬合具有簡單的函數形式,使我們能夠輕鬆地測試資料和最佳擬合模型之間的一致性水平,如第5節所討論的那樣。

4. 檢驗冪律假設

前面介紹的工具允許我們將冪律分佈擬合到給定的資料集,並提供參數α\alphaα和xmin⁡x_{\min}xmin​的估計。然而,它們並沒有告訴我們冪律是否與資料吻合。無論資料的真實分佈如何。我們需要某種方法來判斷匹配是否與資料很好匹配。

不幸的是,不能直接肯定地說一個特定的資料集是否具有冪律分佈。即使資料來自冪律,它們所觀察到的分佈也極不可能完全遵循冪律形式;由於抽樣過程的隨機性,總會有一些小的偏差。挑戰在於區分這種類型的偏差和由於資料來自非冪律分佈而產生的偏差。

我們在本節中描述的基本方法是從真正的冪律分佈中抽取許多合成資料集,測量它們與冪律形式之間的波動有多遠,並將結果與經驗資料上的類似測量進行比較。如果經驗資料集比典型的綜合資料集離冪律形式遠得多,那麼冪律對資料的擬合就不合理。有兩點值得注意。

  • 首先,這種方法的有效性取決於我們如何測量分佈之間的距離。在這裡,我們使用KS統計,它通常會給出很好的結果,但原則上可以使用其它擬合優度測量來代替它。

  • 第二,由於採樣波動的原因,非冪律過程總是有可能產生一個分佈接近冪律的資料集,在這種情況下,我們的測試將失敗。然而,這種情況發生的機率會隨著樣本數nnn的增加而減少,這就是為什麼人們在試圖驗證這些假設時更喜歡大的統計樣本的主要原因。

4.1. 擬合優度檢驗

給定一個觀測資料集和一個假設的冪律分佈,我們想知道我們的假設是否合理。

回答這類問題的標準方法是使用擬合優度測試,它產生一個ppp值來量化假設的可信性。這種檢驗是基於對經驗資料分佈與假設模型之間的“距離”的測量。該距離將與來自同一模型的可比合成資料集的距離測量值進行比較,ppp值被定義為大於觀察資料距離的合成資料距離的百分比。如果ppp很大(接近1),那麼經驗資料和模型之間的差異可以歸因於統計波動(表示使用資料的xmin⁡x_{\min}xmin​與α\alphaα冪律分佈隨機生成的資料中,合成資料KS統計量大部份大於觀察資料的KS統計量,因此觀察資料符合冪律分佈的機率很高);如果它很小,這個模型與資料的擬合就不合理(拒絕觀察資料符合冪律分佈的假設)。

正如我們在3.3節和3.4節中所看到的,有各種各樣的方法來量化兩個分佈之間的距離。在我們的計算中,我們使用了在3.3.7節中遇到的KS統計資料。我們的過程如下所示。

  • 首先,我們利用第3節的方法將我們的經驗資料與冪律模型擬合(即模型的xmin⁡x_{\min}xmin​與α\alphaα),並計算該擬合的KS統計量(模型與經驗累積分佈在x≥xmin⁡x\geq x_{\min}x≥xmin​的最大差值絕對值),此值為經驗資料的KS統計量。

  • 然後,我們生成了大量冪律分佈合成資料集,冪律分佈的參數為觀察資料集最佳擬合值的α\alphaα與xmin⁡x_{\min}xmin​。我們將每個合成資料集單獨擬合到它自己的冪律模型,得到合成資料的αi\alpha_iαi​與xmin⁡,ix_{\min, i}xmin,i​,並計算每個資料集相對於它自己的模型的KS統計量,此為合成資料的KS統計量,可自訂抽樣次數。

  • 然後,我們簡單地計算得出的合成資料KS統計值大於經驗資料KS統計值的的次數百分比。這個分數就是ppp值。

注意,對於每個合成資料集,我們計算KS統計相對於該資料集的最佳擬合冪律,而不是相對於資料集的原始分佈。通過這種方式,我們確保對每個合成資料集執行的計算與對真實資料集執行的計算相同,如果我們希望獲得ppp值的無偏估計,這是一個至關重要的要求。

合成資料的生成涉及一些微妙之處。為了獲得ppp的精確估計,我們需要合成資料,這些資料在xmin⁡x_{\min}xmin​以下的分佈與經驗資料相似,但在xmin⁡x_{\min}xmin​以上遵循擬合冪律。為了生成這樣的資料,我們使用了半參數方法。

假設我們的觀測資料集有ntailn_{tail}ntail​觀測值x≥xmin⁡x \geq x_{\min}x≥xmin​,且總共有nnn個觀測值。我們生成一個包含nnn個觀測值的新資料集,如下所示。

  • 在機率為ntail/nn_{tail}/nntail​/n的情況下,我們從一個具有縮放參數α^\hat{\alpha}α^和x≥xmin⁡x \geq x_{\min}x≥xmin​的冪律中產生了一個隨機數xix_ixi​。

  • 否則,我們以1−ntail/n1−n_{tail}/n1−ntail​/n的機率,從觀測資料集中x<xmin⁡x < x_{\min}x<xmin​且集合xix_ixi​等於該元素的元素中均勻隨機地選擇一個元素。

  • 對所有的i=1,…,ni = 1,\dots, ni=1,…,n重複這個過程,我們生成了一個完整的合成資料集,該資料集確實遵循xmin⁡x_{\min}xmin​以上的冪律,但與下面觀察到的資料具有相同的(非冪律)分佈。

我們還需要決定生成多少組合成資料集。根據對測試的預期最壞情況效能的分析,一個很好的經驗法則如下:如果我們希望我們的ppp值精確到真實值的ϵ\epsilonϵ以內,那麼我們應該生成至少14ϵ2\frac{1}{4 \epsilon^{2}}4ϵ21​組合成資料集。因此,如果我們希望我們的ppp值精確到大約2位小數,我們應該選擇ϵ=0.01\epsilon = 0.01ϵ=0.01,這意味著我們應該生成大約2500個合成集。對於第6節中描述的示例計算,我們使用了這種順序的數量,根據特定的應用從1000到10000不等。

一旦我們計算出了我們的ppp值,我們需要決定它是否小到可以排除冪律假設,或者相反地,該假設對於所討論的資料是否合理。在我們的計算中,我們做出了相對保守的選擇,即當p≤0.1p \leq 0.1p≤0.1 (90%)時,排除冪律;也就是說,如果有1 / 10或更少的機率,我們只是偶然得到的資料與我們現有的資料一樣不符合模型,那麼就排除了這種可能性。(在其他上下文中,許多作者使用更寬鬆的規則p≤0.05p \leq 0.05p≤0.05,但我們認為這將允許通過一些只有非常小的機會真正遵循冪律的候選分佈。當然,在實踐中,改採用的特定規則必須取決於調查人員的判斷和當時的情況。(一般統計中使用ppp值來確認(而不是排除)實驗資料的假設。在後一種情況下,引用一個“空”模型的ppp值,該模型不是實驗試圖驗證的模型。通常人們會認為p值越小越好,因為它們表明虛無假設不太可能是正確的。相比之下,這裡我們使用ppp值作為我們試圖驗證的假設的衡量標準,因此較高的值反而較好)。

重要的是要認識到,較大的ppp值並不一定意味著冪律是資料的正確分佈。這其中(至少)有兩個原因。

  • 首先,在觀測到的xxx範圍內,可能有其他分佈與資料匹配得同樣好,甚至更好。還需要其他測試來排除這些替代方案,我們將在第5節中討論。

  • 第二,如前所述,對於較小的nnn值,經驗分佈可能會緊密地遵循冪律,因此ppp值將會很大,即使冪律對於資料來說是錯誤的模型。這不是該方法的缺陷;它反映了這樣一個事實:如果我們只有很少的資料,就真的很難排除冪次定律。因此,當nnn很小時,應謹慎處理高ppp值。

4.2. 擬合優度測試的效能

為了證明這種方法的實用性,並表明它能夠正確地區分冪律和非冪律行為,我們考慮圖5a所示類型的資料,這些資料來自連續冪律、對數常態分配和指數分佈。圖5 b中顯示平均假定值,計算如上所述,是從這三種分佈的資料集作為樣本的數量的函數nnn。

  • 當總樣本數nnn很小,即n<100n<100n<100在這種情況下,所有三個分佈的ppp值高於閾值為0.1,這意味著冪律假設沒有被我們的測試排除,我們這個小樣品我們不能精準區分資料集,因為沒有足夠的資料可使用。

  • 然而,隨著總樣本的規模變大,兩種非冪律分佈的ppp值下降,可以說冪律模型對這些資料集的擬合度很差,而對真正的冪律資料集的擬合度很好。

但是,需要注意的是,由於我們只將冪律形式適用於xmin⁡x_{\min}xmin​以上的資料分佈,因此xmin⁡x_{\min}xmin​的值有效地控制了我們必須處理的資料點的數量。如果xmin⁡x_{\min}xmin​很大,那麼只有一小部分資料落在它上面,因此xmin⁡x_{\min}xmin​的值越大,拒絕冪律所需的nnn的總和就越大。這種現象如圖5c所示,圖中顯示了對數常態分配和指數分佈作為xmin⁡x_{\min}xmin​函數的閾值p=0.1p = 0.1p=0.1所需的nnn值。

5. 替代分佈

第4節中描述的方法提供了一種可靠的方法來測試給定的資料集是否合理地從冪律分佈中提取。然而,這些測試的結果並不能說明全部問題。即使我們的資料很好地符合冪律,但仍然有可能出現另一種分佈,如指數分佈或對數常態分配,也可能提供同樣好的分佈擬合,甚至更好的分佈擬合。我們可以通過再次使用擬合優度測試來消除這種可能性——我們可以簡單地計算對競爭分佈的擬合的ppp值,並將其與冪律的ppp值進行比較。

例如,假設我們相信我們的資料可能遵循冪律或指數分佈。如果我們發現冪律的ppp值相當大(例如,p > 0.1),那麼不排除冪律。為了加強我們對冪律的論證,如果可能的話,我們希望排除競爭指數分佈。為了做到這一點,我們將使用第3節方法的指數的等價和相應的KS統計來找到最適合的指數分佈,然後對大量的合成資料集重複計算,從而計算出ppp值。如果ppp值足夠小,我們可以排除指數作為我們的資料模型。

通過結合關於冪律的ppp值計算和幾個似是而非的競爭分佈,我們可以用這種方式對我們的資料的冪律形式進行很好的支援或反對。特別是,如果冪律的ppp值很高,而競爭分佈的ppp值很小,那麼競爭就被排除了,儘管我們不能絕對地說冪律是正確的,但有利於它的情況會得到加強。

當然,我們不能將資料的冪律擬合與每一個競爭分佈的擬合進行比較,因為競爭分佈有無窮多個。事實上,就像資料擬合通常的情況一樣,如果我們用足夠多的參數定義曲線族,幾乎總是有可能找到比冪律更適合資料的一類分佈。因此,擬合資料的統計分佈應該結合使用這裡描述的統計技術和關於什麼構成合理的資料模型的先驗知識。統計檢驗可以用來排除特定的假設,但這取決於研究人員首先決定什麼是合理的假設。

5.1. 模型的直接比較

上一節的方法可以告訴我們,兩個候選分佈(通常是冪律分佈和一些備選分佈)中的一個或兩個都可以被排除,作為對我們的資料的擬合,或者,如果兩者都不排除,那麼哪個更適合。然而,在許多實際情況下,我們只想知道後者——哪個分佈更適合。這是因為我們通常已經對第一個分佈,即冪律分佈,進行了擬合優度檢驗。如果測試失敗冪次定律被拒絕,那麼我們的工作就完成了,我們可以繼續做其他事情。另一方面,如果它通過了,那麼我們主要關心的是另一個分佈是否可以提供更好的匹配。

在這種情況下,存在一些可以直接比較兩個分佈的方法,這些方法比KS檢驗更容易實現。在本節中,我們將介紹這樣一種方法,即似然比檢驗(likelihood ratio test)。

似然比檢驗的基本思想是計算兩個競爭分佈下資料的最大(對數)似然值。似然值越大分佈越適合。或者我們可以計算兩種對數似然值的比率,或者相等地計算這個比率的對數RRR,它是正的還是負的取決於哪個分佈更好,或者在一樣好的情況下為零。

然而,單憑對數似然比的符號並不能明確地表明哪個模型更適合,因為像其他數量一樣,它也會受到統計波動的影響。如果它的真實值,即從同一分佈中抽取的許多獨立資料集上的期望值接近於零,那麼波動可能會改變比率的正負號,因此測試的結果是不可信的。為了在分佈之間做出堅定的選擇,我們需要一個足夠正的或負的對數似然比,以至於它不可能合理地成為一個接近零的真實結果的偶然波動的結果。

為了對RRR的觀察值是否足夠遠離零做出定量判斷,我們需要知道預期波動的大小;也就是說,我們需要知道R的標準差σ\sigmaσ。我們可以使用Vuong[62]提出的方法從我們的資料中估算出這個標準差。這個方法給出了一個ppp值,告訴我們觀察到的RRR的符號是否有統計學意義。如果這個ppp值很小(例如,p<0.1p<0.1p<0.1),那麼觀察到的符號不太可能是波動的偶然結果,而且這個符號是一個可靠的指標,說明哪個模型更適合於資料。另一方面,如果ppp很大,那麼符號就不可靠了,而且測試也不偏向於任何一個模型。這種方法的優點之一是,它不僅可以告訴我們兩個假設中哪一個更受歡迎,而且還可以告訴我們在資料不足的情況下,哪一個假設更受歡迎。在資料不足的情況下,上一節的簡單擬合檢驗沒有提供相應的指示。11 附錄C描述了似然比檢驗的技術細節。

5.2. 巢狀的假設

在某些情況下,我們希望比較的分佈可能是巢狀的,也就是說,一個分佈系列是另一個分佈的子集。表1中的冪律和帶指數截止點的冪律提供了這種巢狀分佈的例子。當分佈被巢狀時,較大的分佈族總是能提供至少與較小的分佈族一樣好的擬合,因為較小的分佈族的每個成員也是較大分佈族的成員。在這種情況下,需要一個稍加修改的似然比檢驗來正確區分這種模型,如附錄C所述。

5.3. 似然比檢驗的效能

與這裡討論的其他方法一樣,我們可以通過對合成資料的應用來量化似然比測試的效能。對於我們的測試,我們從兩個分佈中產生了資料:一個是α=2.5\alpha=2.5α=2.5和xmin⁡=1x_{\min}=1xmin​=1的連續冪律分佈,另一個是μ=0.3\mu=0.3μ=0.3和σ=2\sigma=2σ=2的對數常態分佈,約束為只產生xxx的正值(這些是我們在4.2節中使用的相同參數值。這個過程重複了1000次,以評估採樣波動。按照Vuong[62]的做法,我們計算了歸一化的對數似然比n−1/2R/σn^{-1/2} R/\sigman−1/2R/σ,其中σ\sigmaσ是對RRR的估計標準差。歸一化的數字在許多方面比原始數字更方便,因為p值可以用公式(C.6)直接計算出來。(從某種意義上說,這使得我們沒有必要實際計算ppp,因為歸一化的對數似然比包含同樣的資訊,但是在對特定的案例進行判斷時,手頭有實際的ppp值是很方便的,所以我們在結果中同時給出了這兩個值)。

圖6顯示了歸一化對數似然比作為nnn的函數的行為。如圖所示,對於從真正的冪律中提取的資料,隨著nnn的增長,它變得越來越正,但對於從對數正態中提取的資料,它變得越來越負。如果我們忽略ppp值,只是根據對數似然比RRR的原始符號將我們的每一個合成資料集歸類為冪律或對數正態,那麼,正如我們所說的,如果RRR接近於零,我們有時會得出錯誤的結論,而我們在採樣波動中又很不走運。

圖7a顯示了在我們的測試中以這種方式被錯誤分類的資料集的比例與n的函數關係,儘管數字隨著樣本量nnn的減少而減少,但對於適度的值來說,它們是令人不舒服的大。然而,如果我們把ppp值考慮進去,用它的值來進行更細微的分類,如上所述的冪律、對數正態或未決定,錯誤分類的比例要好得多,甚至對於相當小的樣本量,也下降到千分之幾,見圖7b。這些結果表明,PPP值能夠有效地識別那些資料不足以在各種假設之間做出明確區分的情況。

6. 對真實資料的應用

在本節中,作為本文所描述的方法的實用性的一個示範,我們將它們應用於各種真實世界的資料集,這些資料集表示的量的測量,其分佈已被推測為遵循冪律。正如我們將看到的,結果表明,一些資料集確實符合冪律假設,但其他不是,以及一些邊際情況下,冪律是一個可能的候選分佈,但沒有得到資料的有力支援。

我們研究的24組資料來自人類研究的各個不同分支,包括物理學、地球科學、生物學、生態學、古生物學、電腦和資訊科學、工程學以及社會科學。它們如下:

  1. (a) 赫爾曼·梅爾維爾的小說《白鯨記》中獨特詞彙出現的頻率[43]。

  2. (b) 酵母菌的部分已知蛋白質相互作用網路中的蛋白質的程度(即不同的相互作用夥伴的數量)[28]。

  3. (c) 大腸桿菌(Es-cherichia coli)代謝網路中的代謝物程度[26]。

  4. (d) 2006年5月網際網路在自治系統層面的部分已知網路表示中的節點程度[25]。(自治系統是網際網路上的一組IP位址,其中的路由是由內部或 "自主 "處理的,而不是使用網際網路的大規模邊界閘道器協議路由機制)。

  5. (e) 美國AT&T長途電話服務的客戶在一天內接到的電話數量[1,5]。

  6. (f) 1816-1980年的戰爭強度以交戰國人口總數中每10 000人中的戰鬥死亡人數來衡量[53,49]。

  7. (g) 1968年2月至2006年6月全世界恐怖襲擊的嚴重程度。以直接導致的死亡人數來衡量[11]。

  8. (h) 在1996年6月的24小時內,一個大型研究實驗室的電腦使用者因個人網路(HTTP)請求而收到的資料位元組數[68]。粗略地說,這個分佈代表了在網際網路上傳輸的網路檔案的大小分佈。

  9. (i) 哺乳動物每個屬的物種數量。這個資料集由Smith等人[54]編制,主要由今天活著的物種組成,但也包括一些最近滅絕的物種,這裡的 "最近 "是指過去幾萬年。

  10. (j) 2003年北美繁殖鳥類調查中不同種類鳥類的目擊數。

  11. (k) 1984年至2002年期間,美國停電中受影響的客戶數量[43]。

  12. (l) 1895年至1965年期間,在美國銷售的暢銷書的數量[21]。

  13. (m) 2000年美國人口普查中美國城市的人口。

  14. (n) 一所大型大學的電腦使用者的電子郵件位址簿的大小[44] 。

  15. (o) 1986年至1996年期間在美國聯邦土地上發生的野火的面積[43]。

  16. (p) 1980年至1989年間太陽耀斑的伽馬射線強度峰值[43]。

  17. (q) 1910年至1992年間發生在加州的地震強度,以地震時的最大運動幅度衡量[43]。

  18. (r) 宗教教派、機構和宗派的信徒人數,由網站 adherents.com 彙編並公佈。

  19. (s) 1990年美國人口普查中美國姓氏的出現頻率。

  20. (t) 2003年10月,美國最富有的人以美元計算的總淨資產[43]。

  21. (u) 1981年發表的科學論文在發表後至1997年6月期間收到的引用次數,這些論文被列入SCI[47] 。

  22. (v) 美國數學會MathSciNet資料庫中列出的數學家撰寫或合作撰寫的學術論文數量。(資料由J. Grossman彙編)。

  23. (w) 網站在一天內從美國線上網際網路(AOL)服務的客戶那裡收到的 "點選 "次數。線上網際網路服務的客戶在一天內收到的 "點選量"[3]。

  24. (x) 在1997年對大約2億個網頁的抓取中發現的網站連結數量[10]。

許多這些資料集只是更大的實體的子集(如網站,它只是整個網路的一小部分)。在某些情況下,已知用於獲得這些子集的抽樣程式可能是有偏見的,例如,在蛋白質相互作用[56]、引文和作者[9]以及網際網路[2,15]。我們在分析中沒有試圖糾正任何偏差。

在表3中,我們顯示了使用第3節中描述的方法對這些資料集進行冪律擬合的結果,以及資料的各種通用統計資料,如平均值、標準差和最大值。在表格的最後一欄,我們給出了冪律模型的p值,如第4節所估計的那樣,它給出了冪律作為資料擬合的合理性的衡量標準。圖8和圖9顯示了這些資料,以及估計的冪律分佈。

為了說明精準的冪律資料擬合方法的重要性,我們注意到,我們的許多比例參數值與以前的作者使用臨時方法從相同的資料中得出的參數值有很大的不同。例如,據報導,[28]的蛋白質相互作用網路的縮放參數值為2.44[69],這與我們發現的3.1±0.3的值有很大差別也不相容。同樣據報導[47]的引文分佈資料的比例參數為2.9[61]或2.5[32],都不符合我們的最大似然值3.16±0.06。

表3中的p值表明,24組資料中的17組與冪律分佈一致。其餘7個資料集的p值都很小,可以堅決排除冪律模型。特別是,HTTP連接、地震、網路連結、火災、財富、網路點選和代謝網路的分佈不能被認為是遵循冪律的;在這些情況下,偶然得到像觀察到的那樣差的擬合的機率非常小,我們必須不合理地樂觀地看到這些資料集中的冪律行為。(對於兩個資料集--HTTP連接和財富分佈--冪律,雖然不是一個很好的擬合,但比我們使用似然比測試的替代方案要好,這意味著這些資料集沒有被這裡考慮的任何函數形式很好地描述。)

表4和表5顯示了比較我們每個資料集的最佳擬合冪律與表1中給出的替代分佈的似然比測試結果。

作為參考,第一欄重複了表3中給出的p值。根據我們的測試結果,我們在表的最後一欄中總結了冪律模型對每個資料集的擬合有多大說服力。

只有一種情況--英語文字中單詞出現頻率的分佈--冪律似乎是真正令人信服的,在這個意義上,它是對資料的極好擬合,沒有任何替代方案具有任何權重。在其餘的資料集中,除了三種情況外,我們可以排除指數分佈作為一種可能的擬合。這三個例外是停電、宗教和電子郵件位址簿,對它們來說,冪律比指數更受青睞,但伴隨的P值大到足以使結果不可信。

對於離散資料集(表5),我們也可以在每種情況下排除泊松分佈。對數常態分配和拉伸指數分佈的結果更加模糊;在大多數情況下,對數似然比檢驗的p值足夠大,以至於檢驗的結果沒有結論。

特別是,鳥類、書籍、城市、宗教、戰爭、引文、論文、蛋白質和恐怖主義的分佈是可信的冪律,但它們也是可信的對數正態和拉伸指數。在這樣的情況下,重要的是要看一下物理動機或理論因素,以便對哪種分佈形式更合理作出明智的判斷--我們必須考慮是否有一個機械論或其他非統計學的論據來支援一種或另一種分佈。Malevergne, Pisarenko, and Sornette [35]也討論了冪律和拉伸指數不可區分的具體問題。

在其他一些情況下,似然比檢驗確實給出了結論性的答案。例如,在圖書銷售、電話和引用次數方面,拉伸指數被排除了,但在森林火災和地震方面則強烈傾向於採用冪律。另一方面,除了HTTP連接之外,我們的任何資料集都沒有排除對數正態的影響。一般來說,我們發現要區分對數正態和冪律行為是非常困難的。事實上,在x的實際範圍內,這兩個分佈非常接近,所以除非我們有一個非常大的資料集,否則任何測試似乎都不可能將它們區分開來。(見第5節中報告的合成資料的結果)。

最後,對於近十幾個資料集--森林火災、太陽耀斑、地震、網路點選率、網路連結、電話、網際網路、電子郵件位址簿和哺乳動物物種--帶有截止點的冪律顯然比純冪律更受青睞。對於姓氏來說,截斷形式也被看好,但只是微弱的,因為P值非常接近我們的閾值。對於其餘的資料集,大的p值表明,沒有統計學上的理由讓我們傾向於採用截斷形式而不是純粹形式。

7. 結論

對冪律的研究跨越了許多學科,包括物理學、生物學、工程學、電腦科學、地球科學、經濟學、政治學、社會學和統計學。不幸的是,分析冪律資料的有根有據的方法尚未在所有,甚至大多數領域紮根,而且在許多情況下,假設的分佈沒有經過嚴格的資料測試。這就使得猜想的冪律行為至少在某些情況下可能是一廂情願的結果。

在本文中,我們認為,通過直方圖在雙對數圖上的近似直線行為來識別和量化冪律分佈的常見做法不值得信任:這種直線行為是真正的冪律行為的必要條件,但絕不是充分條件。相反,我們提出了一套統計學上的原則性技術,允許驗證和量化冪律。如果應用得當,這些技術可以為某一特定分佈遵循冪律的說法提供客觀證據。原則上,它們也可以擴展到其他非冪律分佈,儘管我們在這裡沒有給出這樣的擴展。

我們已經將我們描述的方法應用於各個領域的大量資料集。對於其中的許多資料,從統計學上講,冪律假說是對資料的合理描述。也就是說,這些資料與它們來自冪律分佈的假設是相容的,儘管它們通常也與其他分佈相容,如對數常態分配或拉伸指數分佈。在其餘情況下,冪律假說被發現與觀察到的資料不相容。在某些情況下,例如地震的分佈,只有當我們假設一個修改了分佈的極端尾部的指數截止點時,冪律才是可信的。

對於某些被測量的量來說,科學問題的答案可能並不完全取決於分佈是否遵循冪律。例如,只要一個量有一個重尾分佈就足夠了。例如,在對網際網路的研究中,許多數量的分佈,如檔案大小、HTTP連接、節點度等等,都有很重的尾巴,從視覺上看似乎遵循冪律,但經過更仔細的分析,證明不可能為冪律假設提供有力的證據;通常,冪律分佈並沒有被排除,但競爭分佈可能為資料提供更好的擬合。這對研究人員來說是否構成問題,主要取決於他或她的科學目標。對於網路工程師來說,簡單地量化重尾可能足以讓他們解決有關問題,例如,未來的基礎設施需求或大型但罕見事件的過載風險。因此,在某些情況下,冪律行為從根本上說可能並不比任何其他重尾分佈更有趣。(在這種情況下,對分佈的非參數估計可能是有用的,儘管對重尾資料進行這種估計有特殊困難[36])。另一方面,如果目標是,比如說,推斷可能是網際網路結構或流量模式的形成和演變的合理機制,那麼觀察到的數量是否遵循冪律或其他形式可能非常重要。

最後,我們呼應Ijiri和Simon[27]三十多年前的評論,以及Mitzenmacher[41]最近表達的類似想法。他們認為,經驗分佈的特徵只是我們在解釋科學中冪律的原因和作用時所面臨的挑戰的一部分。此外,我們還需要方法來驗證為解釋這些冪律而提出的模型。他們還敦促我們在可能的情況下,考慮這些強大而有趣的行為可以用於什麼實際目的。我們希望這裡給出的方法將被證明對所有這些努力都是有用的,並且這些長期以來的希望將最終得到實現。

附錄A.線性回歸與冪律

A. 1 標準誤差的計算

A.2 驗證

A.3 回歸線不是有效的分佈

附錄B.冪律的極大似然估計

B.1 連續資料

B.2 正式的結果

B.3 離散資料

B.4 離散冪律尺度參數的近似估計

附錄C.似然比檢驗

給定兩個侯選的分佈,其PDF分別為p1(x)p_1(x)p1​(x)與p2(x)p_2(x)p2​(x)。則給定資料後兩分佈的似然率為L1=∏i=1np1(xi)\displaystyle L_1 = \prod_{i=1}^n p_1(x_i)L1​=i=1∏n​p1​(xi​)與L2=∏i=1np2(xi)\displaystyle L_2 = \prod_{i=1}^n p_2(x_i)L2​=i=1∏n​p2​(xi​),比值為R=L1L2=∏i=1np1(xi)p2(xi)\displaystyle R=\frac{L_1}{L_2} = \prod_{i=1}^n \frac{p_1(x_i)}{p_2(x_i)}R=L2​L1​​=i=1∏n​p2​(xi​)p1​(xi​)​。

對數似然率比率為R=∑i=1n[ln⁡p1(xi)−ln⁡p2(xi)]=∑i=1n[li(1)−li(2)]\mathcal{R}=\sum_{i=1}^n [\ln p_1(x_i) - \ln p_2(x_i)] = \sum_{i=1}^n [l_i^{(1)}- l_i^{(2)}]R=∑i=1n​[lnp1​(xi​)−lnp2​(xi​)]=∑i=1n​[li(1)​−li(2)​],其中ii(j)i_i^{(j)}ii(j)​可視為單一測量值xix_ixi​在分佈jjj的對數似然值。

因為假設xix_ixi​為獨立的隨機變數,因此li(1)−li(2)l_i^{(1)}-l_i^{(2)}li(1)​−li(2)​也獨立,由中央極限定理得R∼N(μ,nσ2) as n→∞\mathcal{R} \sim N(\mu, n\sigma^2) \text{ as } n \rightarrow \inftyR∼N(μ,nσ2) as n→∞,σ2\sigma^2σ2為xix_ixi​的變異數。

可用樣本估計出σ^2=1n∑i=1n[(li(1)−li(2))−(li‾(1)−li‾(2))]2\hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n[(l_i^{(1)}-l_i^{(2)})- (\overline{l_i}^{(1)}-\overline{l_i}^{(2)})]^2σ^2=n1​∑i=1n​[(li(1)​−li(2)​)−(li​​(1)−li​​(2))]2

C.1 巢狀的假設

附錄D.冪律分佈隨機數的生成

在機率分佈的統計研究中,經常會出現這樣的情況:我們希望生成具有特定分佈的隨機數。例如,在本文中,我們使用從冪律分佈中抽取的獨立隨機數來測試我們的擬合程式對α\alphaα和xmin⁡x_{\min}xmin​等參數的估計程度。我們應該如何生成這些數字呢?有多種可能的方法,但最簡單、最優雅的也許是轉換法[46]。該方法既可用於連續分佈,也可用於離散分佈;我們在本節中依次描述這兩種變體。

令p(x)p(x)p(x)​為我們希望抽取的連續機率密度函數x≥xmin⁡x \geq x_{\min}x≥xmin​。一般會用均勻隨機變數r∼U(0,1)r \sim U(0,1)r∼U(0,1),rrr由大量標準的偽隨機數生成器中成。

可得機率密度p(x)p(x)p(x)與p(r)p(r)p(r)關係為(D.1):

p(x)=p(r)drdx=drdxp(x)=p(r)\frac{dr}{dx}=\frac{dr}{dx}p(x)=p(r)dxdr​=dxdr​

其中第二個等號成立是因為p(r)=1p(r)=1p(r)=1在[0,1)[0,1)[0,1)​。

兩邊積分得(D.2):P(x)=∫x∞p(y)dy=∫r1dy=1−rP(x)=\int_{x}^\infty p(y)dy=\int_r^1 dy =1-rP(x)=∫x∞​p(y)dy=∫r1​dy=1−r 或者寫成(D.3) x=P−1(1−r)x=P^{-1}(1-r)x=P−1(1−r)。

其中P−1P^{-1}P−1為CDF冪律分佈的前像,由(2.6)可得(D.4)x=xmin⁡(1−r)1α−1x=x_{\min}(1-r)^{\frac{1}{\alpha -1}}x=xmin​(1−r)α−11​

python套件

參考資料

  • [本論文] Clauset, Aaron, Cosma Rohilla Sh$alizi, and Mark EJ Newman. "Power-law distributions in empirical data." SIAM review 51.4 (2009): 661-703.

  • Vuong, Quang H. "Likelihood ratio tests for model selection and non-nested hypotheses." Econometrica: Journal of the Econometric Society (1989): 307-333.

Previous冪分佈NextPower-law distributions in binned empirical data

Last updated 2 years ago

.

https://aaronclauset.github.io/powerlaws/
https://github.com/jeffalstott/powerlaw
Jeff Alstott, Ed Bullmore, and Dietmar Plenz. "powerlaw: a Python package for analysis of heavy-tailed distributions." PloS one 9.1 (2014): e85777
表1
圖1,點表示按照(a)離散冪律和(b)連續冪律分佈的合成資料集的CDFs P(x), α = 2.5, xmin = 1。實線表示使用文字中描述的方法對資料的最佳擬合。
表2、對於α = 2.5, xmin = 1, n = 10 000資料點的離散和連續合成資料,使用各種估計器估計尺度參數α,LS表示機率對數的最小二乘擬合。對於連續的資料,PDF通過兩種不同的方式計算,使用固定寬度為0.1的箱子和使用最多500個寬度呈指數增長的箱子(所謂的“對數箱”)。計算CDF也有兩種方式,一種是固定寬度直方圖的累積,另一種是標準的秩頻函數。在對連續資料應用離散MLE時,忽略了每次測量的非整數部分。精準的估計以粗體顯示。
圖2、使用表2中的四種方法(對於PDF,我們省略了基於對數箱的方法,對於CDF,我們省略了基於恆寬箱的方法)對n = 10 000個觀測值進行估計,這些觀測來自(a)離散和(b)連續的冪律分佈(xmin = 1)。我們省略了小於符號大小的誤差條。顯然,對於離散資料,只有離散的最大似然值是精準的,而對於連續的資料,只有連續的最大似然值是精準的。
圖3、從測試分佈中抽取的5000個樣本的縮放參數的MLE平均值(3.10),α = 2.5, xmin = 100, n = 2500,繪製為xmin假設值的函數。在所有情況下,統計誤差都小於資料點。
圖4、(a)文字中描述的計算中使用的檢驗分佈(3.10)的例子,x的冪律行為高於xmin,而非冪律行為低於xmin。(b)使用文字中描述的BIC和KS方法估計的xmin值,繪製為n = 50000的離散資料的真值的函數。連續資料的結果也類似。
圖5、(a)從不同的連續分佈得到的三個小樣本(n = 100)的CDF分別為μ = 0.3和σ = 2的對數常態分配、α = 2.5的冪律分佈和λ = 0.125的指數分佈,均為xmin = 15。(參數定義如表1所示。)從視覺上看,每個cdf在使用的對數尺度上大致上是直線的,但只有一個是真正的冪律。(b)來自相同三個分佈的樣本的最大似然冪律模型的平均p值,作為觀察次數n的函數。隨著n的增加,只有冪律分佈資料的p值仍然高於我們的經驗法則閾值p = 0.1,而其他資料則下降到零,表明p在這種情況下確實正確地識別了真正的冪律行為。(c)從對數常態分配和指數分佈中提取的資料,拒絕冪律假設(即使p < 0.1)所需的平均觀察次數n作為xmin的函數。
圖6、歸一化對數似然比n -1/2R/σ的行為,該資料集由n個點組成,分別來自(a)α=2.5和xmin=1的連續冪律或(b)μ=0.3和σ=2的對數正態。結果是每個樣本大小的1000次複製的平均值,第一至第三四分位數所涵蓋的範圍顯示為灰色。
圖7、如果(a)忽略p值,僅根據對數似然比的符號進行分類,以及(b)考慮p值,我們僅計算對數似然比有錯誤符號且p值小於0.05的錯誤分類,那麼通過似然比測試的錯誤分類率。結果與圖6的合成資料相同。黑線表示冪律樣本作為對數正態的錯誤分類率(超過1000次重複)(95%置信區間顯示為灰色),而(虛線)表示對數正態作為冪律的錯誤分類率(95%置信區間小於線的寬度)。
表3、最後一欄P>0.1可視為冪律分佈
圖8
圖9
表4
表5
表6
class diagram