Задача 11.7

Цифры $0, 1, 2, \ldots, 9$ среди $800$ первых десятичных знаков числа $\pi$ появились $74, 92, 83, 79, 80, 73, 77, 75, 76, 91$ раз соответственно. С помощью хи-квадрат критерия проверьте гипотезу о согласии этих данных с законом равномерного распределения на множестве $\{0, 1, \ldots , 9\}$ на уровне значимости $0.05$. Задачу можно выполнить в Python.



In [26]:

    
import numpy
import scipy.stats



In [59]:

    
n = 800  # Размер выборки



In [60]:

    
mu = numpy.array([74, 92, 83, 79, 80, 73, 77, 75, 76, 91])
expected = n * numpy.full(10, 0.1)

Размер выборки $n = 800 \geqslant 50$, размер разбиения $k = 10 \approx 9.5 = \log_2{10}$, $np_j^0 = 800 \cdot 0.1 = 80 \geqslant 5$. Поэтому критерий хи-квадрат можно применить.



In [62]:

    
chisquare = scipy.stats.chisquare(mu, f_exp=expected, ddof=0)
print(chisquare)









    



Power_divergenceResult(statistic=5.125, pvalue=0.82327834327887528)

Таким образом, $0.83 > 0.05$, поэтому гипотезу, что это распределение нормальное, нужно не отвергнуть.

Задача 11.8

Профессиональный дантист научился выбивать зубы мудрости кулаком. Известно, что $52$ зуба мудрости он выбил с первой попытки, $31$ - со второй, $3$ - с третьей, на выбивание оставшихся $5$ зубов ему потребовалось более $4$ попыток. Проверить гипотезу о том, что дантист выбивает произвольный зуб мудрости с вероятностью $2/3$, на уровне значимости $0.05$. Задачу можно выполнить в Python.



In [76]:

    
# Считаем, что оставшиеся 5 зубов были выбиты вообще не выбиты, скажем, 100 попыток.
sample = numpy.array([1] * 52 + [2] * 31 + [3] * 3 + [4] * 5)
print(scipy.stats.ks_2samp(sample, scipy.stats.geom(p=2/3).rvs(size=sample.size)))









    



Ks_2sampResult(statistic=0.054945054945054972, pvalue=0.99881447959787939)

Гипотеза отвергается, так как p-value $ < 0.05$ даже при наилучшем раскладе.

Задача 11.9

Среди 5000 семей, имеющих трех детей, есть ровно 1010 семей с тремя мальчиками, 2200 семей с двумя мальчиками и одной девочкой, 950 семей с одним мальчиком и двумя девочками (во всех остальных семьях все дети — девочки). Можно ли с уровнем значимости 𝛼 = 0.02 считать, что количество мальчиков 𝜉 в семье с тремя детьми имеет следующее распределение P(𝜉 = 0) = 𝜃, P(𝜉 = 1) = 𝜃, P(𝜉 = 2) = 2𝜃, P(𝜉 = 3) = 1 − 4𝜃, где 𝜃 ∈ (0, 1/4)? Задачу можно выполнить в Python.



In [68]:

    
size = 5000
mu = numpy.array([0, 950, 2200, 1010])
mu[0] = size - mu.sum()
print(mu)









    



[ 840  950 2200 1010]

$2^{2000} \theta^{840+950+2200}(1-4\theta)^{1010} = c\theta^{3990}(1-4\theta)^{1010}$

$\log{c}+3990\log{\theta}+1010\log{(1-4\theta)}$

$\frac{3990}{\theta} - 4\frac{1010}{1-4\theta}=0$

$3990(1-4\theta)-4040\theta=0$

$20000\theta=3990$



In [69]:

    
theta = 3990 / 20000



In [70]:

    
expected = size * numpy.array([theta, theta, 2 * theta, 1 - 4 * theta])
print(expected)









    



[  997.5   997.5  1995.   1010. ]



In [77]:

    
chisquare = scipy.stats.chisquare(mu, f_exp=expected, ddof=1)
print(chisquare)









    



Power_divergenceResult(statistic=48.195488721804509, pvalue=3.4235966894041344e-11)

Таким образом, гипотезу, что это такое распределение, следует отвергнуть.