numpy.random.RandomState.hypergeometric#

方法

random.RandomState.hypergeometric(ngood, nbad, nsample, size=None)#

從超幾何分佈中抽取樣本。

樣本是從具有指定參數的超幾何分佈中抽取的,ngood (做出良好選擇的方式數量)、nbad (做出不良選擇的方式數量) 和 nsample (抽樣的項目數量,小於或等於總和 ngood + nbad)。

注意

新程式碼應改用 hypergeometric 方法,此方法屬於 Generator 實例;請參閱快速入門

參數:
ngoodint 或 int 的類陣列 (array_like)

做出良好選擇的方式數量。必須是非負數。

nbadint 或 int 的類陣列 (array_like)

做出不良選擇的方式數量。必須是非負數。

nsampleint 或 int 的類陣列 (array_like)

抽樣的項目數量。必須至少為 1,且最多為 ngood + nbad

sizeint 或 int 元組,選用

輸出形狀。如果給定的形狀是例如 (m, n, k),則會抽取 m * n * k 個樣本。如果 size 為 None (預設值),則當 ngoodnbadnsample 都是純量時,會傳回單一值。否則,會抽取 np.broadcast(ngood, nbad, nsample).size 個樣本。

傳回:
outndarray 或 純量

從參數化的超幾何分佈中抽取的樣本。每個樣本都是從一組 ngood 個良好項目和 nbad 個不良項目中隨機選取的大小為 nsample 的子集中,良好項目的數量。

另請參閱

scipy.stats.hypergeom

機率密度函數、分佈或累積密度函數等等。

random.Generator.hypergeometric

新程式碼應使用此方法。

註解

超幾何分佈的機率質量函數 (PMF) 為

\[P(x) = \frac{\binom{g}{x}\binom{b}{n-x}}{\binom{g+b}{n}},\]

where \(0 \le x \le n\) and \(n-b \le x \le g\)

for P(x) the probability of x good results in the drawn sample, g = ngood, b = nbad, and n = nsample.

考慮一個裝有黑色和白色彈珠的甕,其中 ngood 個是黑色,nbad 個是白色。如果您在不放回的情況下抽取 nsample 個彈珠,則超幾何分佈描述了抽取樣本中黑色彈珠的分佈。

請注意,此分佈與二項式分佈非常相似,不同之處在於,在本例中,樣本是在不放回的情況下抽取的,而在二項式分佈的情況下,樣本是在放回的情況下抽取的 (或樣本空間是無限的)。隨著樣本空間變大,此分佈會趨近於二項式分佈。

參考文獻

[1]

Lentner, Marvin, “Elementary Applied Statistics”, Bogden and Quigley, 1972.

[2]

Weisstein, Eric W. “Hypergeometric Distribution.” From MathWorld–A Wolfram Web Resource. https://mathworld.wolfram.com/HypergeometricDistribution.html

[3]

Wikipedia, “Hypergeometric distribution”, https://en.wikipedia.org/wiki/Hypergeometric_distribution

範例

從分佈中抽取樣本

>>> ngood, nbad, nsamp = 100, 2, 10
# number of good, number of bad, and number of samples
>>> s = np.random.hypergeometric(ngood, nbad, nsamp, 1000)
>>> from matplotlib.pyplot import hist
>>> hist(s)
#   note that it is very unlikely to grab both bad items

假設您有一個裝有 15 個白色和 15 個黑色彈珠的甕。如果您隨機抽取 15 個彈珠,則其中 12 個或更多彈珠是一種顏色的機率有多大?

>>> s = np.random.hypergeometric(15, 15, 15, 100000)
>>> sum(s>=12)/100000. + sum(s<=3)/100000.
#   answer = 0.003 ... pretty unlikely!