ТЕМА 5 АНАЛИЗ РЯДОВ РАСПРЕДЕЛЕНИЯ. Дискретный вариационный ряд пример


АНАЛИЗ РЯДОВ РАСПРЕДЕЛЕНИЯ, Понятие статистические ряды распределения

§ 51 Понятие статистические ряды распределения

Располагая данные статистического наблюдения, характеризующих то или иное явление, прежде всего необходимо их упорядочить, т.е. придать характер системности

Английский статистик. УДжРейхман по поводу неупорядоченных совокупностей образно сказал, что столкнуться с массой необобщенных данных равнозначно ситуации, когда человека бросают в лесной чаще без компаса. Что же собой представляет систематизация статистических данных в виде рядов распределениялу?

Статистический ряд распределения - это упорядоченные статистические совокупности (табл. 17). Простейшим видом статистического ряда распределения ранжированном ряд, т.е. ряд чисел, находящейся в порядке возрастания ч или падения варьируя признаки. Такой ряд не позволяет судить о закономерности, заложенные в распределенных данных: у какой величины группируется большинство показателей, какие есть отклонения от этой величины; как а общая картина распределения. С этой целью группируют данные, показывая, как часто встречаются отдельные наблюдения в общем их числе (Схема 1а 1).

. Таблица 17

. Общий вид статистических рядов распределения

. Схема 1. Схемастатистичних рядов распределения

Распределение единиц совокупности по признакам, не имеют количественного выражения, называется атрибутивным рядом (например, распределение предприятий по их производственным направлением)

Ряды распределения единиц совокупности по признакам, имеют количественное выражение, называются вариационными рядами. В таких рядах значение признака (варианты) находятся в порядке возрастания или убывания

В вариационном ряде распределения различают два элемента: варианта и частота. Варианта - это отдельное значение группировочного признаки частота - число, которое показывает, сколько раз встречается каждый варианта

В математической статистике исчисляется еще один элемент вариационного ряда - частисть. Последняя определяется как отношение частоты случаев данного интервала к общей сумме частот частисть определяется в долях единицы, процентах (%) в промилле (% о)

Таким образом, вариационный ряд распределения - это такой ряд, в котором варианты расположены в порядке возрастания или убывания, указаны их частоты или частости. Вариационные ряды бывают дискретные (переривни) и др. нтервальни (непрерывного).

. Дискретные вариационные ряды - это такие ряды распределения, в которых варианта как величина количественного признака может принимать только определенное значение. Варианты различаются между собой на одну или несколько единиц

Так, количество произведенных деталей за смену конкретным рабочим может выражаться только одним определенным числом (6, 10, 12 и тд). Примером дискретного вариационного ряда может быть распределение работников по к количеством произведенных деталей (табл 18 18).

. Таблица 18

. Дискретный ряд распределения_

Сделано деталей за смену, шт (х)

Количество рабочих

чел, ()

6

16

7

10

8

8

9

10

10

12

11

16

12

3

. Интервальные (непрерывного) вариационные ряды - такие ряды распределения, в которых значение варианты даны в виде интервалов, т.е. значения признаков могут отличаться друг от друга на сколь угодно малую величину. При построении вариационного ряда нэп переривнои признаки невозможно указать каждое значение варианты, поэтому совокупность распределяется по интервалам. Последние могут быть равны и неравны. Для каждого из них указываются частоты или частости (табл. 1 9 19).

В интервальных рядах распределения с неравными интервалами вычисляют такие математические характеристики, как плотность распределения и относительная плотность распределения на данном интервале. Первая характеристика определи ся отношением частоты до величины того же интервала, вторая - отношением частости к величине того же интервала. Для приведенного выше примера плотность распределения на первом интервале составит 3: 5 = 0,6, а относительная плотность на этом интервале - 7,5:5 = 1,55%.

. Таблица 19

. Интервальный ряд распределения _

Численность работающих, чел (х)

Количество цехов

(",)

%

к итогу

20-25

3

7,5

25-30

9

22,5

30-35

16

40,0

35-40

8

20,0

40-45

4

10,0

Всего

40

100,0

uchebnikirus.com

Дискретный вариационный ряд

i

1

2

3

4

5

6

7

8

9

10

11

12

148

155

156

157

158

159

160

161

162

163

164

165

1

1

2

2

1

3

3

6

6

9

15

15

i

13

14

15

16

17

18

19

20

21

22

23

24

166

167

168

169

170

171

172

173

174

175

176

177

8

14

10

15

15

11

12

9

6

6

10

1

i

25

26

27

28

29

30

31

32

33

34

35

178

179

180

181

182

183

184

185

186

187

190

4

3

3

2

1

1

1

1

1

1

1

В данном примере случайные величины сплошь заполняют промежуток (148;190). Число возможных значений велико. Их нельзя представить в виде случайных величин, принимающих отдельные, изолированные значения, тем самым отделить одно возможное значение от другого промежутком, не содержащим возможных значений случайной величины. Поэтому для построения вариационного ряда будем использовать интервальный ряд распределения. Весь возможный интервал варьирования разобьём на конечное число интервалов и подсчитаем частоту попадания значений величины в каждый интервал. Минимальное и максимальное значения случайной величины: Тогда интервал варьированияR («размах») будет равен R=Длину интервала рассчитывают по формуле:

(6)

При этом значение признака, находящегося на границе интервалов относят к правой границе интервала.

На практике считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов. Часто интервальный вариационный ряд заменяют дискретным вариационным рядом, выбирая средние значения интервала (таблица №7).

Для данного примера , округлим до 3, т.е. размер интервалаh=3, а число интервалов будет равно 14. Соответствующий интервальный вариационный ряд приведён в таблице №5.

Таблица 5

Интервальный вариационный ряд

Индекс интервала

i

Число покупателей

(интервалы)

Частота

Относительная частота

1

148-151

1

1/200

2

151-154

0

0

3

154-157

5

5/200

4

157-160

7

7/200

5

160-163

21

21/200

6

163-166

38

38/200

7

166-169

39

39/200

8

169-172

38

38/200

9

172-175

21

21/200

10

175-178

15

15/200

Окончание таблицы 5

Индекс интервала

i

Число покупателей

(интервалы)

Частота

Относительная частота

11

178-181

8

8/200

12

181-184

3

3/200

13

184-187

3

3/200

14

187-190

1

1/200

=1

2) После составления вариационного ряда необходимо построить функцию распределения выборки или эмпирическую функцию F*(x)=, то есть функцию найденную опытным путём. Здесь – относительная частота события Х< х,n - общее число значений.

Эмпирическое распределение можно изобразить в виде полигона, гистограммы или ступенчатой кривой.

Построим выборочную функцию распределения. Очевидно, что для функциятак как. На концах интервалов значения функциирассчитаем в виде «нарастающей относительной частоты» (Таблица 6).

Таблица 6

Расчёт эмпирической функции распределения

Индекс интервала

i

1

1/200

2

1/200

3

1/200+5/200=6/200

4

6/200+7/200=13/200

5

13/200+21/200=34/200

6

34/200+38/200=72/200

Окончание таблицы 6

Индекс интервала

i

7

72/200+39/200=111/200

8

111/200+38/200=149/200

9

149/200+21/200=170/200

10

170/200+15/200=185/200

11

185/200+8/200=193/200

12

193/200+3/200=196/200

13

196/200+3/200=199/200

14

199/200+1/200=200/200

Табличные значения не полностью определяют выборочную функцию распределения непрерывной случайной величины, поэтому при графическом изображении её доопределяют, соединив точки графика, соответствующие концам интервала, отрезками прямой (рис.1).

Полученные данные, представленные в виде вариационного ряда, изобразим графически в виде ломаной линии (полигона), связывающей на плоскости точки с координатами , где- среднее значение интервала , а - относительная частота.(таблица 7 и рис.2). На этом же рисунке отобразим пунктирной линией выравнивающие (теоретические) частоты.

Таблица 7

studfiles.net

Дискретный вариационный ряд

i

1

2

3

4

5

6

7

8

9

10

11

12

148

155

156

157

158

159

160

161

162

163

164

165

1

1

2

2

1

3

3

6

6

9

15

15

i

13

14

15

16

17

18

19

20

21

22

23

24

166

167

168

169

170

171

172

173

174

175

176

177

8

14

10

15

15

11

12

9

6

6

10

1

i

25

26

27

28

29

30

31

32

33

34

35

178

179

180

181

182

183

184

185

186

187

190

4

3

3

2

1

1

1

1

1

1

1

В данном примере случайные величины сплошь заполняют промежуток (148;190). Число возможных значений велико. Их нельзя представить в виде случайных величин, принимающих отдельные, изолированные значения, тем самым отделить одно возможное значение от другого промежутком, не содержащим возможных значений случайной величины. Поэтому для построения вариационного ряда будем использовать интервальный ряд распределения. Весь возможный интервал варьирования разобьём на конечное число интервалов и подсчитаем частоту попадания значений величины в каждый интервал. Минимальное и максимальное значения случайной величины: Тогда интервал варьированияR («размах») будет равен R=Длину интервала рассчитывают по формуле:

(6)

При этом значение признака, находящегося на границе интервалов относят к правой границе интервала.

На практике считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов. Часто интервальный вариационный ряд заменяют дискретным вариационным рядом, выбирая средние значения интервала (таблица №7).

Для данного примера , округлим до 3, т.е. размер интервалаh=3, а число интервалов будет равно 14. Соответствующий интервальный вариационный ряд приведён в таблице №5.

Таблица 5

Интервальный вариационный ряд

Индекс интервала

i

Число покупателей

(интервалы)

Частота

Относительная частота

1

148-151

1

1/200

2

151-154

0

0

3

154-157

5

5/200

4

157-160

7

7/200

5

160-163

21

21/200

6

163-166

38

38/200

7

166-169

39

39/200

8

169-172

38

38/200

9

172-175

21

21/200

10

175-178

15

15/200

Окончание таблицы 5

Индекс интервала

i

Число покупателей

(интервалы)

Частота

Относительная частота

11

178-181

8

8/200

12

181-184

3

3/200

13

184-187

3

3/200

14

187-190

1

1/200

=1

2) После составления вариационного ряда необходимо построить функцию распределения выборки или эмпирическую функцию F*(x)=, то есть функцию найденную опытным путём. Здесь – относительная частота события Х< х,n - общее число значений.

Эмпирическое распределение можно изобразить в виде полигона, гистограммы или ступенчатой кривой.

Построим выборочную функцию распределения. Очевидно, что для функциятак как. На концах интервалов значения функциирассчитаем в виде «нарастающей относительной частоты» (Таблица 6).

Таблица 6

Расчёт эмпирической функции распределения

Индекс интервала

i

1

1/200

2

1/200

3

1/200+5/200=6/200

4

6/200+7/200=13/200

5

13/200+21/200=34/200

6

34/200+38/200=72/200

Окончание таблицы 6

Индекс интервала

i

7

72/200+39/200=111/200

8

111/200+38/200=149/200

9

149/200+21/200=170/200

10

170/200+15/200=185/200

11

185/200+8/200=193/200

12

193/200+3/200=196/200

13

196/200+3/200=199/200

14

199/200+1/200=200/200

Табличные значения не полностью определяют выборочную функцию распределения непрерывной случайной величины, поэтому при графическом изображении её доопределяют, соединив точки графика, соответствующие концам интервала, отрезками прямой (рис.1).

Полученные данные, представленные в виде вариационного ряда, изобразим графически в виде ломаной линии (полигона), связывающей на плоскости точки с координатами , где- среднее значение интервала , а - относительная частота.(таблица 7 и рис.2). На этом же рисунке отобразим пунктирной линией выравнивающие (теоретические) частоты.

Таблица 7

studfiles.net

Дискретный вариационный ряд

Номер интервала

i

Среднее значение интервала

Относительная частота

Выборочная

оценка плотности вероятности

1

149,5

0,005

0,002

2

152,5

0

0

3

155,5

0,025

0,008

Окончание таблицы 7

4

158,5

0,035

0,012

5

161,5

0,105

0,035

6

164,5

0,19

0,063

7

167,5

0,195

0,065

8

170,5

0,19

0,063

9

173,5

0,105

0,035

10

176,5

0,075

0,025

11

179,5

0,04

0,013

12

182,5

0,015

0,005

13

185,5

0,015

0,005

14

188,5

0,005

0,002

Рис.1

Рис.2

На основании полученных выборочных данных необходимо сделать предположение, что изучаемая величина распределена по некоторому определённому закону. Для того чтобы проверить, согласуется ли это предположение с данными наблюдений, вычисляют частоты полученных в наблюдениях значений, т.е. находят теоретически сколько раз величина Х должна была принять каждое из наблюдавшихся значений, если она распределена по предполагаемому закону. Для этого находят выравнивающие (теоретические) частоты по формуле:

(7)

где n – число испытаний,

- вероятность наблюдаемого значения , вычисленная при допущении, чтоХ имеет предполагаемое распределение.

Эмпирические (полученные из таблицы) и выравнивающие частоты сравнивают, и при небольшом расхождении данных делают заключение о выбранном законе распределения.

Предположим, что случайная величина Х распределена нормально (см. комментарии к задаче № 4). В этом случае выравнивающие частоты находят по формуле:

(8)

где n-число испытаний,

h-длина частичного интервала,

-выборочное среднее квадратичное отклонение,

(- серединаi – го частичного интервала)

–функция Лапласа (9)

Результаты вычислений отобразим в таблице №8.

Сравнение графиков (рис.2) наглядно показывает близость выравнивающих частот к наблюдавшимся и подтверждает правильность допущения о том, что обследуемый признак распределён нормально.

Таблица 8

Расчёт выравнивающих частот

149,5

152,5

155,5

158,5

161,5

164,5

167,5

170,5

173,5

176,5

179,5

182,5

185,5

188,5

-19,5

-16,5

-13,5

-10,5

-7,05

-4,05

-1,05

1,95

4,95

7,95

10,95

13,95

16,95

19,95

-3

-2,53

-2,06

-1,59

-1,11

-0,64

-0,17

0,31

0,78

1,25

1,73

2,2

2,67

3,15

0,004

0,02

0,048

0,11

0,22

0,33

0,396

0,38

0,3

0,18

0,09

0,04

0,011

0,003

0,42

1,55

4,54

10,68

20,37

31,0

37,48

36,0

28,0

17,34

8,44

3,37

1,06

0,26

1

2

5

11

20

31

37

36

28

17

8

3

1

0

0,05

0,01

0,025

0,055

0,1

0,155

0,185

0,18

0,14

0,085

0,04

0,015

0,005

0

Интервальный вариационный ряд графически изобразим в виде гистограммы (рис.3). На оси Х отложим интервалы длиной h=3, а на оси Y значения ,расчёт которых представлен в таблице №7. Площадь под гистограммой равна сумме всех относительных частот, т.е. единице.

Графическое изображение вариационных рядов в виде полигона и гистограммы позволяет получать первоначальное представление о закономерностях, имеющих место в совокупности наблюдений.

Рис.3

3) Найдём числовые характеристики вариационного ряда, используя таблицу №4.

Выборочная средняя ():

или , (10)

где - частоты,

а -объём выборки. Выборочная средняя является оценкой математического ожидания (среднего значения теоретического закона распределения).

В некоторых случаях удобнее рассчитать с помощью условных вариант. В нашем случае варианты- большие числа, поэтому используем разность:

(11)

где С – произвольно выбранное число (ложный нуль). В этом случае

. (12)

Для изменения значения варианты можно ввести также условные варианты путём использования масштабного множителя:

, (13)

где (b выбирается положительным или отрицательным числом).

. Здесь С – середина 8-го интервала.

Выборочная дисперсия ():

(14)

также может быть рассчитана с помощью условных вариант:

(15)

=(1*441+0*324+…+1*324)- 1,95²=40,21

Среднеквадратическое отклонение:

=(16)

==6,34

Найдем несмещённую оценку дисперсии и среднеквадратического отклонения («исправленную» выборочную дисперсию и среднеквадратическое отклонение) по формулам:

и (17)

==40,41иS=6,34=6,36

Доверительный интервал для оценки математического ожидания с надёжностью 0,95 определяют по формуле:

P(-tФ(t)= (18)

Из соотношения Ф(z)=/2 вычисляют значение функции Лапласа: Ф(z)=0,475. По таблице значений функции Лапласа ( Приложение А) находят z=1,96. Таким образом,

168,55-1,96,

167,67<a<169,43.

Доверительный интервал для оценки среднего квадратичного отклонения случайной величины находят по формуле:

, (19)

где S – несмещённое значение выборочного среднего квадратичного отклонения;

q – параметр, который находится по таблице (Приложение В) на основе известного объёма выборки n и заданной надёжности оценки .

На основании данных значений =0,95 иn=200 по таблице (Приложение В) можно найти значениеq=0,099. Таким образом,

,

5,79<

V=(20)

4) Проведём статистическую проверку гипотезы о нормальном распределении. Нормальный закон распределения имеет два параметра (r=2): математическое ожидание и среднее квадратическое отклонение. По выборочным данным (таблицы 5 и 7) полученные оценки параметров нормального распределения, вычисленные выше:

, ,S=6,36.

Для расчёта теоретических частот используют табличные значения функции ЛапласаФ(z). Алгоритм вычисления состоит в следующем:

, =0,5+Ф().

Например,

; ; Ф(-3,0)=-0,4987;

;

- далее вычисляют вероятности =P(;

  • находят числа , и если некоторое <5, то соответствующие группы объединяются с соседними.

Результаты вычисления ,, иприведены в таблице 9.

По формуле

=(21)

можно сделать проверку расчетов.

По таблице (приложения Г) можно найти число по схеме: для уровня значимостиα=0,05 и числа степеней свободы l=k-r-1=9-2-1=6=12,6. Следовательно, критическая область - (12,6;). Величина=15,61 входит в критическую область, поэтому гипотеза о том, что случайная величина Х подчинена нормальному закону распределения, отвергается.

При α=0,1 =10,6. Критическая область - (10,6;). Величина=15,61 также входит в критическую область и гипотеза о нормальном законе распределения величины Х отвергается.

При α=0,01 =16,8, (16,8;). В этом случае нет оснований отвергать гипотезу о нормальном законе распределения.

Таблица 9

Определение

i

Ф()

0

149,5

0

-0,500

0,000

0,0013

0,0013

0,26

-

1

149,5

152,5

1

-0,449

0,0013

0,0059

0,0046

0,92

-

2

152,5

155,5

0

-0,494

0,0059

0,02

0,014

2,8

-

3

155,5

158,5

5

-0,48

0,02

0,057

0,037

7,4

2,54

4

158,5

161,5

7

-0,44

0,057

0,134

0,077

15,4

4,58

5

161,5

164,5

21

-0,37

0,134

0,26

0,126

25,2

0,7

6

164,5

167,5

38

-0,24

0,26

0,433

0,1725

34,5

0,36

7

167,5

170,5

39

-0,07

0,433

0,62

0,188

37,6

0,06

8

170,5

173,5

38

0,12

0,62

0,78

0,16

32

1,125

9

173,5

176,5

21

0,28

0,78

0,89

0,11

22

0,045

10

176,5

179,5

15

0,39

0,89

0,96

0,07

14

0,071

11

179,5

182,5

8

0,46

0,96

0,99

0,03

6

6,125

12

182,5

185,5

3

0,49

0,99

0,996

0,006

1,2

-

13

185,5

188,5

3

0,496

0,996

0,999

0,003

0,6

-

14

188,5

1

0,5

0,999

1,0

0,001

0,2

-

,0000

2 часть

1) Данные таблицы 3 сгруппируем в корреляционную таблицу 10.

2) Строим в системе координат множество, состоящее из 200 экспериментальных точек (рисунок 4).

По расположению точек делаем заключение о том, что экономико-математическую модель можно искать в виде .

3) Найдём выборочные уравнения линейной регрессии.

Для упрощения расчётов разобьём случайные величины на интервалы и выберем средние значения. Для величины Х указанные действия были выполнены в 1 части задания.

Таблица 10

studfiles.net

Пример дискретного вариационного ряда

xi

1,5

3,5

5,5

7,5

9,5

ni

4

10

3

2

1

0,2

0,5

0,15

0,1

0,05

Строим соответствующий полигон частот.

0.5

0.3

0.2

0.1

1 2 3 4 5 6 7 8 9 10 Xi

Рисунок 1.Полигон частот

Полигон используется при графическом представлении дискретных вариационных рядов, когда число вариант невелико (n≤30).

Для графического представления интервального вариационного ряда служит гистограмма - ступенчатая фигура, которая состоит из прямоугольников, основаниями которых являются интервалы длиной , а высоты равны отношению(см. рис. 2). Площадьi-го частичного прямоугольника численно равна относительной частоте попадания в интервал:

(3)

Рисунок 2.Гистограмма

Площадь всей гистограммы численно равна суме всех частот ряда, т.е. должна быть равна единице (исходя из условия нормировки):

где к=1,2,3,…,L.

Интервальный вариационный ряд можно преобразовать в дискретный.

Для этого надо вычислить в каждом интервале среднее значение и:

; , (4)

где - значения вариант, попавших вi-ый интервал,- количество вариант, попавших вi-ый интервал.

Полигон и гистограмма являются приближенными оценками плотности распределения вероятностей.

Среднее арифметическоезначений вариант характеризует приближенно математическое ожидание случайной величины, т.е. является его оценкой:

(5)

Оценка дисперсии. Исправленная дисперсия характеризует рассеивание случайной величины и находится по формуле:

(6)

или дляn>30 (7)

Дисперсия имеет размерность квадрата измеряемой величины. Чтобы характеризовать рассеивание в тех же единицах, что и измеряемая величина, вычисляют среднее квадратичное отклонение:

(8)

Все эти величины необходимо вычислить, т.е. определить характеристики экспериментального распределения заданных хi, а также определить, отличается ли полученная эмпирически оценка плотности распределения от нормального закона.

Порядок расчета этих характеристик поясним на примере. По известным данным измерения роста 1000 взрослых мужчин оценим характеристики распределения и сравним его с нормальным.

В первой строке таблицы приводятся интервалы роста в сантиметрах, во второй – число мужчин, имеющих рост в пределах этого интервала.

Рост x

(см)

143-152

152-161

161-170

170-179

179-188

Число niмужчин

11

211

522

212

14

Таблица 2

Распределение роста мужчин

Находим относительную частоту в каждом интервале и записываем полученный интервальный вариационный ряд.

Таблица 3

Интервальный вариационный ряд

Рост x (см)

143-152

152-161

161-170

170-179

179-188

Частота

0.011

0.211

0.522

0.212

0.014

Проверим условие нормировки :

0.011+0.221+0.552+0.212+0.014=1

Преобразуем данный интервальный ряд в дискретный. Для этого в качестве вариант берем среднее значение в каждом интервале, получаем:

Таблица 4

studfiles.net

Дискретный вариационный ряд

i

1

2

3

4

5

6

7

8

9

10

11

12

148

155

156

157

158

159

160

161

162

163

164

165

1

1

2

2

1

3

3

6

6

9

15

15

i

13

14

15

16

17

18

19

20

21

22

23

24

166

167

168

169

170

171

172

173

174

175

176

177

8

14

10

15

15

11

12

9

6

6

10

1

i

25

26

27

28

29

30

31

32

33

34

35

178

179

180

181

182

183

184

185

186

187

190

4

3

3

2

1

1

1

1

1

1

1

В данном примере случайные величины сплошь заполняют промежуток (148;190). Число возможных значений велико. Их нельзя представить в виде случайных величин, принимающих отдельные, изолированные значения, тем самым отделить одно возможное значение от другого промежутком, не содержащим возможных значений случайной величины. Поэтому для построения вариационного ряда будем использовать интервальный ряд распределения. Весь возможный интервал варьирования разобьём на конечное число интервалов и подсчитаем частоту попадания значений величины в каждый интервал. Минимальное и максимальное значения случайной величины: Тогда интервал варьированияR («размах») будет равен R=Длину интервала рассчитывают по формуле:

(6)

При этом значение признака, находящегося на границе интервалов относят к правой границе интервала.

На практике считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов. Часто интервальный вариационный ряд заменяют дискретным вариационным рядом, выбирая средние значения интервала (таблица №7).

Для данного примера , округлим до 3, т.е. размер интервалаh=3, а число интервалов будет равно 14. Соответствующий интервальный вариационный ряд приведён в таблице №5.

Таблица 5

Интервальный вариационный ряд

Индекс интервала

i

Число покупателей

(интервалы)

Частота

Относительная частота

1

148-151

1

1/200

2

151-154

0

0

3

154-157

5

5/200

4

157-160

7

7/200

5

160-163

21

21/200

6

163-166

38

38/200

7

166-169

39

39/200

8

169-172

38

38/200

9

172-175

21

21/200

10

175-178

15

15/200

Окончание таблицы 5

Индекс интервала

i

Число покупателей

(интервалы)

Частота

Относительная частота

11

178-181

8

8/200

12

181-184

3

3/200

13

184-187

3

3/200

14

187-190

1

1/200

=1

2) После составления вариационного ряда необходимо построить функцию распределения выборки или эмпирическую функцию F*(x)=, то есть функцию найденную опытным путём. Здесь – относительная частота события Х< х,n - общее число значений.

Эмпирическое распределение можно изобразить в виде полигона, гистограммы или ступенчатой кривой.

Построим выборочную функцию распределения. Очевидно, что для функциятак как. На концах интервалов значения функциирассчитаем в виде «нарастающей относительной частоты» (Таблица 6).

Таблица 6

Расчёт эмпирической функции распределения

Индекс интервала

i

1

1/200

2

1/200

3

1/200+5/200=6/200

4

6/200+7/200=13/200

5

13/200+21/200=34/200

6

34/200+38/200=72/200

Окончание таблицы 6

Индекс интервала

i

7

72/200+39/200=111/200

8

111/200+38/200=149/200

9

149/200+21/200=170/200

10

170/200+15/200=185/200

11

185/200+8/200=193/200

12

193/200+3/200=196/200

13

196/200+3/200=199/200

14

199/200+1/200=200/200

Табличные значения не полностью определяют выборочную функцию распределения непрерывной случайной величины, поэтому при графическом изображении её доопределяют, соединив точки графика, соответствующие концам интервала, отрезками прямой (рис.1).

Полученные данные, представленные в виде вариационного ряда, изобразим графически в виде ломаной линии (полигона), связывающей на плоскости точки с координатами , где- среднее значение интервала , а - относительная частота.(таблица 7 и рис.2). На этом же рисунке отобразим пунктирной линией выравнивающие (теоретические) частоты.

Таблица 7

studfiles.net

Дискретный вариационный ряд

Номер интервала

i

Среднее значение интервала

Относительная частота

Выборочная

оценка плотности вероятности

1

149,5

0,005

0,002

2

152,5

0

0

3

155,5

0,025

0,008

Окончание таблицы 7

4

158,5

0,035

0,012

5

161,5

0,105

0,035

6

164,5

0,19

0,063

7

167,5

0,195

0,065

8

170,5

0,19

0,063

9

173,5

0,105

0,035

10

176,5

0,075

0,025

11

179,5

0,04

0,013

12

182,5

0,015

0,005

13

185,5

0,015

0,005

14

188,5

0,005

0,002

Рис.1

Рис.2

На основании полученных выборочных данных необходимо сделать предположение, что изучаемая величина распределена по некоторому определённому закону. Для того чтобы проверить, согласуется ли это предположение с данными наблюдений, вычисляют частоты полученных в наблюдениях значений, т.е. находят теоретически сколько раз величина Х должна была принять каждое из наблюдавшихся значений, если она распределена по предполагаемому закону. Для этого находят выравнивающие (теоретические) частоты по формуле:

(7)

где n – число испытаний,

- вероятность наблюдаемого значения , вычисленная при допущении, чтоХ имеет предполагаемое распределение.

Эмпирические (полученные из таблицы) и выравнивающие частоты сравнивают, и при небольшом расхождении данных делают заключение о выбранном законе распределения.

Предположим, что случайная величина Х распределена нормально (см. комментарии к задаче № 4). В этом случае выравнивающие частоты находят по формуле:

(8)

где n-число испытаний,

h-длина частичного интервала,

-выборочное среднее квадратичное отклонение,

(- серединаi – го частичного интервала)

–функция Лапласа (9)

Результаты вычислений отобразим в таблице №8.

Сравнение графиков (рис.2) наглядно показывает близость выравнивающих частот к наблюдавшимся и подтверждает правильность допущения о том, что обследуемый признак распределён нормально.

Таблица 8

Расчёт выравнивающих частот

149,5

152,5

155,5

158,5

161,5

164,5

167,5

170,5

173,5

176,5

179,5

182,5

185,5

188,5

-19,5

-16,5

-13,5

-10,5

-7,05

-4,05

-1,05

1,95

4,95

7,95

10,95

13,95

16,95

19,95

-3

-2,53

-2,06

-1,59

-1,11

-0,64

-0,17

0,31

0,78

1,25

1,73

2,2

2,67

3,15

0,004

0,02

0,048

0,11

0,22

0,33

0,396

0,38

0,3

0,18

0,09

0,04

0,011

0,003

0,42

1,55

4,54

10,68

20,37

31,0

37,48

36,0

28,0

17,34

8,44

3,37

1,06

0,26

1

2

5

11

20

31

37

36

28

17

8

3

1

0

0,05

0,01

0,025

0,055

0,1

0,155

0,185

0,18

0,14

0,085

0,04

0,015

0,005

0

Интервальный вариационный ряд графически изобразим в виде гистограммы (рис.3). На оси Х отложим интервалы длиной h=3, а на оси Y значения ,расчёт которых представлен в таблице №7. Площадь под гистограммой равна сумме всех относительных частот, т.е. единице.

Графическое изображение вариационных рядов в виде полигона и гистограммы позволяет получать первоначальное представление о закономерностях, имеющих место в совокупности наблюдений.

Рис.3

3) Найдём числовые характеристики вариационного ряда, используя таблицу №4.

Выборочная средняя ():

или , (10)

где - частоты,

а -объём выборки. Выборочная средняя является оценкой математического ожидания (среднего значения теоретического закона распределения).

В некоторых случаях удобнее рассчитать с помощью условных вариант. В нашем случае варианты- большие числа, поэтому используем разность:

(11)

где С – произвольно выбранное число (ложный нуль). В этом случае

. (12)

Для изменения значения варианты можно ввести также условные варианты путём использования масштабного множителя:

, (13)

где (b выбирается положительным или отрицательным числом).

. Здесь С – середина 8-го интервала.

Выборочная дисперсия ():

(14)

также может быть рассчитана с помощью условных вариант:

(15)

=(1*441+0*324+…+1*324)- 1,95²=40,21

Среднеквадратическое отклонение:

=(16)

==6,34

Найдем несмещённую оценку дисперсии и среднеквадратического отклонения («исправленную» выборочную дисперсию и среднеквадратическое отклонение) по формулам:

и (17)

==40,41иS=6,34=6,36

Доверительный интервал для оценки математического ожидания с надёжностью 0,95 определяют по формуле:

P(-tФ(t)= (18)

Из соотношения Ф(z)=/2 вычисляют значение функции Лапласа: Ф(z)=0,475. По таблице значений функции Лапласа ( Приложение А) находят z=1,96. Таким образом,

168,55-1,96,

167,67<a<169,43.

Доверительный интервал для оценки среднего квадратичного отклонения случайной величины находят по формуле:

, (19)

где S – несмещённое значение выборочного среднего квадратичного отклонения;

q – параметр, который находится по таблице (Приложение В) на основе известного объёма выборки n и заданной надёжности оценки .

На основании данных значений =0,95 иn=200 по таблице (Приложение В) можно найти значениеq=0,099. Таким образом,

,

5,79<

V=(20)

4) Проведём статистическую проверку гипотезы о нормальном распределении. Нормальный закон распределения имеет два параметра (r=2): математическое ожидание и среднее квадратическое отклонение. По выборочным данным (таблицы 5 и 7) полученные оценки параметров нормального распределения, вычисленные выше:

, ,S=6,36.

Для расчёта теоретических частот используют табличные значения функции ЛапласаФ(z). Алгоритм вычисления состоит в следующем:

, =0,5+Ф().

Например,

; ; Ф(-3,0)=-0,4987;

;

- далее вычисляют вероятности =P(;

  • находят числа , и если некоторое <5, то соответствующие группы объединяются с соседними.

Результаты вычисления ,, иприведены в таблице 9.

По формуле

=(21)

можно сделать проверку расчетов.

По таблице (приложения Г) можно найти число по схеме: для уровня значимостиα=0,05 и числа степеней свободы l=k-r-1=9-2-1=6=12,6. Следовательно, критическая область - (12,6;). Величина=15,61 входит в критическую область, поэтому гипотеза о том, что случайная величина Х подчинена нормальному закону распределения, отвергается.

При α=0,1 =10,6. Критическая область - (10,6;). Величина=15,61 также входит в критическую область и гипотеза о нормальном законе распределения величины Х отвергается.

При α=0,01 =16,8, (16,8;). В этом случае нет оснований отвергать гипотезу о нормальном законе распределения.

Таблица 9

Определение

i

Ф()

0

149,5

0

-0,500

0,000

0,0013

0,0013

0,26

-

1

149,5

152,5

1

-0,449

0,0013

0,0059

0,0046

0,92

-

2

152,5

155,5

0

-0,494

0,0059

0,02

0,014

2,8

-

3

155,5

158,5

5

-0,48

0,02

0,057

0,037

7,4

2,54

4

158,5

161,5

7

-0,44

0,057

0,134

0,077

15,4

4,58

5

161,5

164,5

21

-0,37

0,134

0,26

0,126

25,2

0,7

6

164,5

167,5

38

-0,24

0,26

0,433

0,1725

34,5

0,36

7

167,5

170,5

39

-0,07

0,433

0,62

0,188

37,6

0,06

8

170,5

173,5

38

0,12

0,62

0,78

0,16

32

1,125

9

173,5

176,5

21

0,28

0,78

0,89

0,11

22

0,045

10

176,5

179,5

15

0,39

0,89

0,96

0,07

14

0,071

11

179,5

182,5

8

0,46

0,96

0,99

0,03

6

6,125

12

182,5

185,5

3

0,49

0,99

0,996

0,006

1,2

-

13

185,5

188,5

3

0,496

0,996

0,999

0,003

0,6

-

14

188,5

1

0,5

0,999

1,0

0,001

0,2

-

,0000

2 часть

1) Данные таблицы 3 сгруппируем в корреляционную таблицу 10.

2) Строим в системе координат множество, состоящее из 200 экспериментальных точек (рисунок 4).

По расположению точек делаем заключение о том, что экономико-математическую модель можно искать в виде .

3) Найдём выборочные уравнения линейной регрессии.

Для упрощения расчётов разобьём случайные величины на интервалы и выберем средние значения. Для величины Х указанные действия были выполнены в 1 части задания.

Таблица 10

studfiles.net