THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

Построим в MS EXCEL доверительный интервал для оценки среднего значения распределения в случае известного значения дисперсии.

Разумеется, выбор уровня доверия полностью зависит от решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.

Формулировка задачи

Предположим, что из генеральной совокупности имеющей взята выборка размера n. Предполагается, что стандартное отклонение этого распределения известно. Необходимо на основании этой выборки оценить неизвестное среднее значение распределения (μ, ) и построить соответствующий двухсторонний доверительный интервал .

Точечная оценка

Как известно из , статистика (обозначим ее Х ср ) является несмещенной оценкой среднего этой генеральной совокупности и имеет распределение N(μ;σ 2 /n).

Примечание : Что делать, если требуется построить доверительный интервал в случае распределения, которое не является нормальным? В этом случае на помощь приходит , которая гласит, что при достаточно большом размере выборки n из распределения не являющемся нормальным , выборочное распределение статистики Х ср будет приблизительно соответствовать нормальному распределению с параметрами N(μ;σ 2 /n).

Итак, точечная оценка среднего значения распределения у нас есть – это среднее значение выборки , т.е. Х ср . Теперь займемся доверительным интервалом.

Построение доверительного интервала

Обычно, зная распределение и его параметры, мы можем вычислить вероятность того, что случайная величина примет значение из заданного нами интервала. Сейчас поступим наоборот: найдем интервал, в который случайная величина попадет с заданной вероятностью. Например, из свойств нормального распределения известно, что с вероятностью 95%, случайная величина, распределенная по нормальному закону , попадет в интервал примерно +/- 2 от среднего значения (см. статью про ). Этот интервал, послужит нам прототипом для доверительного интервала .

Теперь разберемся,знаем ли мы распределение, чтобы вычислить этот интервал? Для ответа на вопрос мы должны указать форму распределения и его параметры.

Форму распределения мы знаем – это нормальное распределение (напомним, что речь идет о выборочном распределении статистики Х ср ).

Параметр μ нам неизвестен (его как раз нужно оценить с помощью доверительного интервала ), но у нас есть его оценка Х ср, вычисленная на основе выборки, которую можно использовать.

Второй параметр – стандартное отклонение выборочного среднего будем считать известным , он равен σ/√n.

Т.к. мы не знаем μ, то будем строить интервал +/- 2 стандартных отклонения не от среднего значения , а от известной его оценки Х ср . Т.е. при расчете доверительного интервала мы НЕ будем считать, что Х ср попадет в интервал +/- 2 стандартных отклонения от μ с вероятностью 95%, а будем считать, что интервал +/- 2 стандартных отклонения от Х ср с вероятностью 95% накроет μ – среднее генеральной совокупности, из которого взята выборка . Эти два утверждения эквивалентны, но второе утверждение нам позволяет построить доверительный интервал .

Кроме того, уточним интервал: случайная величина, распределенная по нормальному закону , с вероятностью 95% попадает в интервал +/- 1,960 стандартных отклонений, а не+/- 2 стандартных отклонения . Это можно рассчитать с помощью формулы =НОРМ.СТ.ОБР((1+0,95)/2) , см. файл примера Лист Интервал .

Теперь мы можем сформулировать вероятностное утверждение, которое послужит нам для формирования доверительного интервала :
«Вероятность того, что среднее генеральной совокупности находится от среднего выборки в пределах 1,960 «стандартных отклонений выборочного среднего» , равна 95%».

Значение вероятности, упомянутое в утверждении, имеет специальное название , который связан с уровнем значимости α (альфа) простым выражением уровень доверия =1 . В нашем случае уровень значимости α=1-0,95=0,05 .

Теперь на основе этого вероятностного утверждения запишем выражение для вычисления доверительного интервала :

где Z α/2 стандартного нормального распределения (такое значение случайной величины z , что P (z >=Z α/2 )=α/2 ).

Примечание : Верхний α/2-квантиль определяет ширину доверительного интервала в стандартных отклонениях выборочного среднего. Верхний α/2-квантиль стандартного нормального распределения всегда больше 0, что очень удобно.

В нашем случае при α=0,05, верхний α/2-квантиль равен 1,960. Для других уровней значимости α (10%; 1%) верхний α/2-квантиль Z α/2 можно вычислить с помощью формулы =НОРМ.СТ.ОБР(1-α/2) или, если известен уровень доверия , =НОРМ.СТ.ОБР((1+ур.доверия)/2) .

Обычно при построении доверительных интервалов для оценки среднего используют только верхний α /2-квантиль и не используют нижний α /2-квантиль . Это возможно потому, что стандартное нормальное распределение симметрично относительно оси х (плотность его распределения симметрична относительно среднего, т.е. 0 ). Поэтому, нет нужды вычислять нижний α/2-квантиль (его называют просто α/2-квантиль ), т.к. он равен верхнему α /2-квантилю со знаком минус.

Напомним, что, не смотря на форму распределения величины х, соответствующая случайная величина Х ср распределена приблизительно нормально N(μ;σ 2 /n) (см. статью про ). Следовательно, в общем случае, вышеуказанное выражение для доверительного интервала является лишь приближенным. Если величина х распределена по нормальному закону N(μ;σ 2 /n), то выражение для доверительного интервала является точным.

Расчет доверительного интервала в MS EXCEL

Решим задачу.
Время отклика электронного компонента на входной сигнал является важной характеристикой устройства. Инженер хочет построить доверительный интервал для среднего времени отклика при уровне доверия 95%. Из предыдущего опыта инженер знает, что стандартное отклонение время отклика составляет 8 мсек. Известно, что для оценки времени отклика инженер сделал 25 измерений, среднее значение составило 78 мсек.

Решение : Инженер хочет знать время отклика электронного устройства, но он понимает, что время отклика является не фиксированной, а случайной величиной, которая имеет свое распределение. Так что, лучшее, на что он может рассчитывать, это определить параметры и форму этого распределения.

К сожалению, из условия задачи форма распределения времени отклика нам не известна (оно не обязательно должно быть нормальным ). , этого распределения также неизвестно. Известно только его стандартное отклонение σ=8. Поэтому, пока мы не можем посчитать вероятности и построить доверительный интервал .

Однако, не смотря на то, что мы не знаем распределение времени отдельного отклика , мы знаем, что согласно ЦПТ , выборочное распределение среднего времени отклика является приблизительно нормальным (будем считать, что условия ЦПТ выполняются, т.к. размер выборки достаточно велик (n=25)).

Более того, среднее этого распределения равно среднему значению распределения единичного отклика, т.е. μ. А стандартное отклонение этого распределения (σ/√n) можно вычислить по формуле =8/КОРЕНЬ(25) .

Также известно, что инженером была получена точечная оценка параметра μ равная 78 мсек (Х ср). Поэтому, теперь мы можем вычислять вероятности, т.к. нам известна форма распределения (нормальное ) и его параметры (Х ср и σ/√n).

Инженер хочет знать математическое ожидание μ распределения времени отклика. Как было сказано выше, это μ равно математическому ожиданию выборочного распределения среднего времени отклика . Если мы воспользуемся нормальным распределением N(Х ср; σ/√n), то искомое μ будет находиться в интервале +/-2*σ/√n с вероятностью примерно 95%.

Уровень значимости равен 1-0,95=0,05.

Наконец, найдем левую и правую границу доверительного интервала .
Левая граница: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)= 74,864
Правая граница: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)=81,136

Левая граница: =НОРМ.ОБР(0,05/2; 78; 8/КОРЕНЬ(25))
Правая граница: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРЕНЬ(25))

Ответ : доверительный интервал при уровне доверия 95% и σ =8 мсек равен 78+/-3,136 мсек.

В файле примера на листе Сигма известна создана форма для расчета и построения двухстороннего доверительного интервала для произвольных выборок с заданным σ и уровнем значимости .

Функция ДОВЕРИТ.НОРМ()

Если значения выборки находятся в диапазоне B20:B79 , а уровень значимости равен 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; СЧЁТ(B20:B79))
вернет левую границу доверительного интервала .

Эту же границу можно вычислить с помощью формулы:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРЕНЬ(СЧЁТ(B20:B79))

Примечание : Функция ДОВЕРИТ.НОРМ() появилась в MS EXCEL 2010. В более ранних версиях MS EXCEL использовалась функция ДОВЕРИТ() .

Цель – научить студентов алгоритмам вычисления доверительных интервалов статистических параметров.

При статистической обработке данных вычисленные средняя арифметическая, коэффициент вариации, коэффициент корреляции, критерии различия и другие точечные статистики должны получить количественные границы доверия, которые обозначают возможные колебания показателя в меньшую и большую стороны в пределах доверительного интервала.

Пример 3.1 . Распределение кальция в сыворотке крови обезьян, как было установлено ранее, характеризуется следующими выборочными показателями: = 11,94 мг%;= 0,127 мг%;n = 100. Требуется определить доверительный интервал для генеральной средней () при доверительной вероятностиP = 0,95.

Генеральная средняя находится с определенной вероятностью в интервале:

, где – выборочная средняя арифметическая;t – критерий Стьюдента; – ошибка средней арифметической.

По таблице «Значения критерия Стьюдента» находим значение при доверительной вероятности 0,95 и числе степеней свободы k = 100-1 = 99. Оно равно 1,982. Вместе со значениями среднего арифметического и статистической ошибки подставляем его в формулу:

или 11,69
12,19

Таким образом, с вероятностью 95%, можно утверждать, что генеральная средняя данного нормального распределения находится между 11,69 и 12,19 мг%.

Пример 3.2 . Определите границы 95%-ного доверительного интервала для генеральной дисперсии () распределения кальция в крови обезьян, если известно, что
= 1,60, приn = 100.

Для решения задачи можно воспользоваться следующей формулой:

Где – статистическая ошибка дисперсии.

Находим ошибку выборочной дисперсии по формуле:
. Она равна 0,11. Значениеt - критерия при доверительной вероятности 0,95 и числе степеней свободы k = 100–1 = 99 известно из предыдущего примера.

Воспользуемся формулой и получим:

или 1,38
1,82

Более точно доверительный интервал генеральной дисперсии можно построить с применением (хи-квадрат) - критерия Пирсона. Критические точки для этого критерия приводятся в специальной таблице. При использовании критериядля построения доверительного интервала применяют двусторонний уровень значимости. Для нижней границы уровень значимости рассчитывается по формуле
, для верхней –
. Например, для доверительного уровня= 0,99= 0,010,= 0,990. Соответственно по таблице распределения критических значений, при рассчитанных доверительных уровнях и числе степеней свободыk = 100 – 1= 99, найдем значения
и
. Получаем
равно 135,80, а
равно70,06.

Чтобы найти доверительные границы генеральной дисперсии с помощью воспользуемся формулами: для нижней границы
, для верхней границы
. Подставим данные задачи найденные значенияв формулы:
= 1,17;
= 2,26. Таким образом, при доверительной вероятностиP = 0,99 или 99% генеральная дисперсия будет лежать в интервале от 1,17 до 2,26 мг% включительно.

Пример 3.3 . Среди 1000 семян пшеницы из поступившей на элеватор партии обнаружено 120 семян зараженных спорыньей. Необходимо определить вероятные границы генеральной доли зараженных семян в данной партии пшеницы.

Доверительные границы для генеральной доли при всех возможных ее значениях целесообразно определять по формуле:

,

Где n – число наблюдений; m – абсолютная численность одной из групп; t – нормированное отклонение.

Выборочная доля зараженных семян равна
или 12%. При доверительной вероятностиР = 95% нормированное отклонение (t -критерий Стьюдента при k =
)t = 1,960.

Подставляем имеющиеся данные в формулу:

Отсюда границы доверительного интервала равны= 0,122–0,041 = 0,081, или 8,1%;= 0,122 + 0,041 = 0,163, или 16,3%.

Таким образом, с доверительной вероятностью 95% можно утверждать, что генеральная доля зараженных семян находится между 8,1 и 16,3%.

Пример 3.4 . Коэффициент вариации, характеризующий варьирование кальция (мг%) в сыворотке крови обезьян, оказался равным 10,6%. Объем выборки n = 100. Необходимо определить границы 95%-ного доверительного интервала для генерального параметра Cv .

Границы доверительного интервала для генерального коэффициента вариации Cv определяются по следующим формулам:

и
, гдеK промежуточная величина, вычисляемая по формуле
.

Зная, что при доверительной вероятности Р = 95% нормированное отклонение (критерий Стьюдента при k =
)t = 1,960, предварительно рассчитаем величину К:

.

или 9,3%

или 12,3%

Таким образом, генеральный коэффициент вариации с доверительной вероятностью 95% лежит в интервале от 9,3 до 12,3%. При повторных выборках коэффициент вариации не превысит 12,3% и не окажется ниже 9,3% в 95 случаях из 100.

Вопросы для самоконтроля:

Задачи для самостоятельного решения.

1. Средний процент жира в молоке за лактацию коров холмогорских помесей был следующим: 3,4; 3,6; 3,2; 3,1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4,1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3,8. Установите доверительные интервалы для генеральной средней при доверительной вероятности 95% (20 баллов).

2. На 400 растениях гибридной ржи первые цветки появились в среднем на 70,5 день после посева. Среднее квадратическое отклонение было 6,9 дня. Определите ошибку средней и доверительные интервалы для генеральной средней и дисперсии при уровне значимости W = 0,05 и W = 0,01 (25 баллов).

3. При изучении длины листьев 502 экземпляров садовой земляники были получены следующие данные: = 7,86 см; σ = 1,32 см, =± 0,06 см. Определите доверительные интервалы для средней арифметической генеральной совокупности с уровнями значимости 0,01; 0,02; 0,05. (25 баллов).

4. При обследовании 150 взрослых мужчин средний рост был равен 167 см, а σ = 6 см. В каких пределах находится генеральная средняя и генеральная дисперсия с доверительной вероятностью 0,99 и 0,95? (25 баллов).

5. Распределение кальция в сыворотке крови обезьян характеризуется следующими выборочными показателями: = 11,94 мг%, σ = 1,27, n = 100. Постройте 95%-ный доверительный интервал для генеральной средней этого распределения. Рассчитайте коэффициент вариации (25 баллов).

6. Было изучено общее содержание азота в плазме крови крыс-альбиносов в возрасте 37 и 180 дней. Результаты выражены в граммах на 100 см 3 плазмы. В возрасте 37 дней 9 крыс имели: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. В возрасте 180 дней 8 крыс имели: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1,12. Установите доверительные интервалы для разницы с доверительной вероятностью 0,95 (50 баллов).

7. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения кальция (мг%) в сыворотке крови обезьян, если для этого распределения объем выборки n = 100, статистическая ошибка выборочной дисперсии s σ 2 = 1,60 (40 баллов).

8. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения 40 колосков пшеницы по длине (σ 2 = 40, 87 мм 2). (25 баллов).

9. Курение считают основным фактором, предрасполагающим к обструктивным заболеваниям легких. Пассивное курение таким фактором не считается. Ученые усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков. Для характеристики состояния дыхательных путей взяли один из показателей функции внешнего дыхания – максимальную объемную скорость середины выдоха. Уменьшение этого показателя – признак нарушения проходимости дыхательных путей. Данные обследования приведены в таблице.

Число обследованных

Максимальная объемная скорость середины выдоха, л/с

Стандартное отклонение

Некурящие

работают в помещении, где не курят

работают в накуренном помещении

Курящие

выкуривающие небольшое число сигарет

выкуривающие среднее число сигарет

выкуривающие большое число сигарет

По данным таблицы найдите 95% доверительные интервалы для генеральной средней и генеральной дисперсии для каждой из групп. В чем заключаются различия между группами? Результаты представьте графически (25 баллов).

10. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной дисперсии численности поросят в 64 опоросах, если статистическая ошибка выборочной дисперсии s σ 2 = 8, 25 (30 баллов).

11. Известно, что средняя масса кроликов составляет 2,1 кг. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной средней и дисперсии при n = 30, σ = 0,56 кг (25 баллов).

12. У 100 колосьев измеряли озерненность колоса (Х ), длину колоса (Y ) и массу зерна в колосе (Z ). Найти доверительные интервалы для генеральной средней и дисперсии при P 1 = 0,95, P 2 = 0,99, P 3 = 0,999, если = 19, = 6,766 см, = 0,554 г; σ x 2 = 29, 153, σ y 2 = 2, 111, σ z 2 = 0, 064. (25 баллов).

13. В отобранных случайным образом 100 колосьях озимой пшеницы подсчитывалось число колосков. Выборочная совокупность характеризовалась следующими показателями: = 15 колосков и σ = 2,28 шт. Определите, с какой точностью получен средний результат () и постройте доверительный интервал для генеральной средней и дисперсии при 95% и 99% уровнях значимости (30 баллов).

14. Число ребер на раковинах ископаемого моллюска Orthambonites calligramma :

Известно, что n = 19, σ = 4,25. Определите границы доверительного интервала для генеральной средней и генеральной дисперсии при уровне значимости W = 0,01 (25 баллов).

15. Для определения удоев молока на молочно-товарной ферме ежедневно определялась продуктивность 15 коров. По данным за год каждая корова давала в среднем в сутки следующее количество молока (л): 22; 19; 25; 20; 27; 17; 30; 21; 18; 24; 26; 23; 25; 20; 24. Постройте доверительные интервалы для генеральной дисперсии и средней арифметической. Можно ли ожидать, что среднегодовой удой на каждую корову составит 10000 литров? (50 баллов).

16. С целью определения урожая пшеницы в среднем по агрохозяйству были проведены укосы на пробных участках площадью 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 и 2 га. Урожайность (ц/га) с участков составила 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 соответственно. Постройте доверительные интервалы для генеральных дисперсии и средней арифметической. Можно ли ожидать, что в среднем по агрохозяйству урожай составит 42 ц/га? (50 баллов).

Любая выборка дает лишь приближенное представление о генеральной совокупности, и все выборочные статистические характеристики (средняя, мода, дисперсия…) являются некоторым приближением или говорят оценкой генеральных параметров, которые вычислить в большинстве случаев не представляется возможным из-за недоступности генеральной совокупности (Рисунок 20).

Рисунок 20. Ошибка выборки

Но можно указать интервал, в котором с определенной долей вероятности лежит истинное (генеральное) значение статистической характеристики. Этот интервал называется д оверительный интервал (ДИ).

Так генеральное среднее значение с вероятностью 95% лежит в пределах

от до, (20)

где t – табличное значение критерия Стъюдента для α =0,05 и f = n -1

Может быть найден и 99% ДИ, в этом случае t выбирается для α =0,01.

Какое практическое значение имеет доверительный интервал?

    Широкий доверительный интервал показывает, что выборочная средняя неточно отражает генеральную среднюю. Обычно это связано с недостаточным объемом выборки, или же с ее неоднородностью, т.е. большой дисперсией. И то и другое дают большую ошибку среднего и, соответственно, более широкий ДИ. И это является основанием вернуться на этап планирования исследования.

    Верхние и нижние пределы ДИ дают оценку, будут ли результаты клинически значимы

Остановимся несколько подробнее на вопросе о статистической и клинической значимости результатов исследования групповых свойств. Вспомним, что задачей статистики является обнаружение хоть каких-либо отличий в генеральных совокупностях, опираясь на выборочные данные. Задачей клиницистов является обнаружение таких (не любых) различий, которые помогут диагностике или лечению. И не всегда статистические выводы являются основанием для клинических выводов. Так, статистически значимое снижение гемоглобина на 3 г/л не является поводом для беспокойства. И, наоборот, если какая-то проблема в организме человека не имеет массового характера на уровне всей популяции, это не основание для того, чтобы этой проблемой не заниматься.

Это положение рассмотрим на примере .

Исследователи задались вопросом, не отстают ли в росте от своих сверстников мальчики, перенесшие некое инфекционное заболевание. С этой целью было проведено выборочное исследование, в котором приняли участие 10 мальчиков, перенесших эту болезнь. Результаты представлены в таблице 23.

Таблица 23. Результаты статобработки

нижний предел

верхний предел

Нормативы (см)

среднего

Из этих расчетов следует, что выборочный средний рост мальчиков 10 лет, перенесших некое инфекционное заболевание, близок к норме (132,5 см). Однако нижний предел доверительного интервала (126,6 см) свидетельствует о наличии 95% вероятности того, что истинный средний рост этих детей соответствует понятию «низкий рост», т.е. эти дети отстают в росте.

В этом примере результаты расчетов доверительного интервала клинически значимы.

Предлагают незаменимые и удобные методы для различных статистических расчетов и анализа. Одной из таких особенностей является интервал доверия, который используется для выражения степени неопределенности, связанной с исследованием. Доверительные интервалы в excel — это оценка событий в сочетании с верификацией вероятностей. Они обеспечивают вероятный диапазон выборочной пропорции или выборочного среднего от истинной доли / среднего, найденного в популяции и отображаются как: оценка +/- погрешность.

В любом опросе и исследовании доверительные интервалы — отличный способ понять роль ошибок выборки в средних процентных показателях. Для любого опроса, поскольку исследователи всегда лишь изучают долю из более крупного расчета, в их оценках есть неопределенность, из-за чего будут ошибки выборки.

Доверительный интервал (ДИ) дает понимание о том, насколько может колебаться. Он представляет собой диапазон значений, которые одинаково центрированы от известного среднего числа выборки. Чем выше уровень доверия (в процентах), тем меньше интервал, более точными будут результаты. Исследование образцов с большей изменчивостью или большим стандартным отклонением порождает более широкие доверительные интервалы в excel.

Существует соотношение обратного квадратного корня между ДИ и размерами выборки. Меньшие размеры генерируют более широкие ДИ, поэтому для получения более точных оценок или сокращения пороговой погрешности наполовину, необходимо примерно в четыре раза увеличить размер выборки.

Построение среднего значения совокупности

Чтобы построить доверительный интервал для среднего значения совокупности, предоставленной вероятности и размера выборки, нужно применить функцию "ДОВЕРИТ" в Excel, которая использует нормальное распределение для вычисления значения доверия. Предположим, исследователи случайно выбрали 100 человек, измерили их вес и установили средний в 76 кг. Если нужно узнать средний показатель для людей в конкретном городе, маловероятно, что он для более крупной группы будет иметь такое же среднее значение, как и выборка, состоящая всего из 100 человек.

Гораздо более вероятно, что выборочное среднее в 76 кг может быть приблизительно равно (неизвестному) популяционному среднему, и нужно знать, насколько точным является оценочный ответ. Эта неопределенность, связанная с оценкой интервалов, называется уровнем достоверности, обычно 95%. Функция "ДОВЕРИТ" (альфа, сигма, n) возвращает значение, используемое для построения ДИ среднего числа совокупности. Предполагается, что данные выборок соответствуют стандартным нормальным распределениям с известной сигмой стандартного отклонения, а размер выборки равен n. Перед тем как рассчитать доверительный интервал в excel 95% уровня, принимают альфу как 1 - 0,95 = 0,05.

Форматы функции CONFIDENCE

Функция CONFIDENCE или ДОВЕРИТ, определяется пределами доверия — это нижняя и верхняя границы ДИ и являются 95% показателями. Например, при изучении предпочтении, было обнаружено, что 70% людей предпочитают Боржоми, по сравнению с Пепси при ДИ в 3% и уровнем доверия 95%, тогда существует 95-процентная вероятность того, что истинная пропорция составляет от 67 до 73%.

Функции "ДОВЕРИТ" отображаются под различными синтаксисами в разных версиях Excel. Например, Excel 2010 имеет две функции: "ДОВЕРИТ.НОРМ" и "ДОВЕРИТ.T", которые помогают вычислять ширину "ДИ. ДОВЕРИТ.НОРМ" используется, когда известно стандартное отклонение измерения. В противном случае применяется "ДОВЕРИТ.T", оценка осуществляется по данным выборки. Доверительные интервалы в excel до 2010 года имели только функцию "ДОВЕРИТ". Его аргументы и результаты были аналогичными аргументам функции "ДОВЕРИТ.НОРМ".

Первый по-прежнему доступен в более поздних версиях Excel для обеспечения совместимости. #NUM! Error — происходит, если альфа меньше или равна 0, или больше или равна 0. Данное стандартное отклонение меньше или равно 0. Указанный размер аргумента меньше единицы. #СТОИМОСТЬ! Error — происходит, если любой из предоставленных аргументов не является числовым.

"ДОВЕРИТ." классифицируется по функциям статистики и будет высчитывать и возвращать ДИ для среднего значения. Доверительные интервалы в excel могут быть чрезвычайно полезными для финансового анализа. Как аналитик, "ДОВЕРИТ." помогает в прогнозировании и корректировке для широкого круга целей, путем оптимизации принятия финансовых решений. Это выполняется с применением графического отображения данных в наборе переменных.

Аналитики могут принимать более эффективные решения на основе статистической информации, предоставляемой нормальным распределением. Например, они могут найти связь между полученным доходом и расходами, затрачиваемыми на предметы роскоши. Чтобы вычислить ДИ для среднего значения совокупности, возвращаемое доверительное значение, должно быть добавлено и вычтено из среднего значения выборки. Например, для среднего значения выборки x: Доверительный интервал = x ± ДОВЕРИТ.

Пример расчета доверительного интервала в excel - предположим, что нам даны следующие данные:

  1. Уровень значимости: 0,05.
  2. Стандартное отклонение населения: 2,5.
  3. Размер выборки: 100.

Функция доверительного интервала Excel используется для расчета ДИ со значением 0,05 (т. е. уровень достоверности 95%) для среднего времени выборки для изучения времени коммутации в офисе на 100 человек. Среднее значение образца составляет 30 минут, а стандартное отклонение составляет 2,5 минуты. Доверительный интервал составляет 30 ± 0,48999, что соответствует диапазону 29,510009 и 30,48999 (минут).

Интервалы и нормальное распределение

Наиболее знакомое использование доверительного интервала, означает «погрешность ошибок». В опросах погрешность составляет плюс или минус 3%. ДИ полезны в контекстах, которые выходят за рамки этой простой ситуации. Они могут использоваться с ненормальными распределениями, которые сильно искажены. Для вычисления прогноза доверительного интервала в excel требуются следующие строительные блоки:

  1. Среднее значение.
  2. Стандартное отклонение наблюдений.
  3. Число опросов в выборке.
  4. Уровень доверия, который нужно применить к ДИ.

Перед тем как построить доверительный интервал в excel, изучают его вокруг среднего значения выборки, начинают с принятия решения о том, какой будет принят процент других средств выборки, если они были собраны и рассчитаны в этом интервале. Если это так, то 95% возможных образцов будут захвачены ДИ с 1,96 стандартных отклонений выше и ниже образца.

Стандартная ошибка среднего

Допустимый интервал или погрешность не принимаются с учетом ошибки измерения или смещения обзора, поэтому фактическая неопределенность может быть выше, чем указана. Перед тем как посчитать доверительный интервал в excel, расчет должен быть обеспечен хорошим сбором данных, надежными измерительными системами и удовлетворительным дизайном обследования.

Доверительные интервалы для среднего значения могут быть получены несколькими способами: с помощью SigmaXL, описательной статистики, гистограмм,1-образного t-теста и интервалов доверия, односторонних диаграмм ANOVA и Multi-Vari. Чтобы графически иллюстрировать ДИ для среднего значения «Удовлетворенность», создают диаграмму Multi-Vari (с 95% CI Mean Options) с использованием данных Customer Data.xls. Точки соответствуют отдельным данным. Маркеры показывают максимальный доверительный предел 99%, и средний 95%-ый предел.

Теперь тестирование гипотезы будут использоваться для более точных средних оценок удовлетворенности и определения результатов.

Доверительные интервалы очень важны для понимания полученных данных и принятия решений по ним. Чтобы рассчитать ДИ для дискретной пропорции, используют SigmaXL> Шаблоны и калькуляторы> Основные статистические шаблоны> 1 интервал Перед тем как найти доверительный интервал в excel, выполняют следующие действия:

  1. Открыть Client Data.xls.
  2. Нажать вкладку «Лист 1» или F4, чтобы активировать последний рабочий лист. Нажать SigmaXL> Статистические инструменты> Описательная статистика.
  3. Установить флажок «Использовать всю таблицу данных».
  4. Нажать «Далее».
  5. Выбрать «Общая удовлетворенность», нажать «Числовые переменные данных» (Y).
  6. Выбрать «Тип клиента», нажать «Категория группы» (X1). По умолчанию уровень доверия 95%.
  7. Нажать «ОК».

Обратить внимание, что доверительный интервал в 95% означает: в среднем истинный параметр популяции (средний, стандартное отклонение или пропорция) будет находиться в интервале 19 раз из 20. Будет представлен пользователю: 95%-ый доверительный интервал для каждого отсчета. Среднее значение (95% CI). Доверительный интервал 95% для стандартного отклонения (95% CI Sigma — не путать это с уровнем качества Sigma Process).

Статистика и уровни доверия

Доверительный интервал не является числом, в котором истинное значение параметра найдено с точностью. Действительно, случайная величина теоретически может принимать все возможные значения в рамках законов физики. Доверительный интервал — это фактически область, в которой истинное (неизвестное) значение параметра, изучаемого в популяции, наиболее вероятно с вероятностью, которую выбирают. При его использовании интервал основан на вычислении доверительного порога, погрешности и коэффициента запаса.

Перед тем как определить доверительный интервал в excel, определяют эти элементы, которые зависят от параметров:

  1. Изменчивости измеряемых характеристик.
  2. Размера выборки: чем она больше, тем более высокая точность.
  3. Уровень доверия - s.

Уровень доверия представляет собой гарантированную уверенность. Например, с уровнем достоверности 90%, это означает, что 10% риск будет неправильным. Как правило, хорошей практикой является выбор достоверности в 95%. Таким образом, максимальный доверительный уровень является большим, чем больше размер выборки. Маржинальный коэффициент является индикатором, выведенным непосредственно из доверительного порога. В таблице приведены некоторые примеры для наиболее распространенных значений.

Уровень доверия s

Коэффициент маржи при n> 30

В случае когда нужно оценить среднее значение популяции из ее выборки, определяют доверительный интервал. Он зависит от размера выборки и закона переменной. Формула для расчета доверительного интервала в excel выглядит следующим образом:

  1. Нижняя граница интервала = средний пробег — коэффициент поля * стандартную ошибку.
  2. Верхняя граница диапазона = примерный средний + коэффициент поля * стандартную ошибку.
  3. Значение t будет зависеть от размера выборки: n> 30: коэффициент запаса нормального закона, называемый z. n<30: коэффициент запаса, называемый t для n-1.

В этой ситуации соответствующие единицы сами являются средними значениями. Исследователю необходимо будет знать стандартное отклонение не от первоначальных и индивидуальных наблюдений, а от средств, которые рассчитываются на основе них. Это отклонение имеет название — стандартная ошибка среднего.

Представления изменчивости данных используются на графиках, чтобы указать на ошибку или неопределенность в измерении. Они дают общее представление о том, насколько точным является измерение, или, наоборот, насколько далеки от сообщенного истинного значение и оформляются в виде полос ошибок. Они представляют собой одно стандартное отклонение неопределенности, одну стандартную ошибку или определенный доверительный интервал (например, интервал 95%). Эти величины не совпадают, поэтому выбранная мера должна быть указана в графике или в тексте.

Полосы ошибок могут использоваться для сравнения двух величин, если выполняются статистически значимые условия. Строки ошибок указывают на приемлемость соответствия функции, то есть насколько хорошо она описывает данные. Научные работы в экспериментальных науках, включают в себя ошибки на всех графиках, хотя практика несколько отличается и каждый исследователь имеет собственный стиль ошибок.

Полосы ошибок могут использоваться как интерфейс прямой манипуляции для управления вероятностными алгоритмами для приблизительного вычисления. Полосы ошибок могут быть выражены в знаке плюс-минус(±). Плюс - верхний предел, а минус - нижний предел ошибки.

Для правильного определения ДИ существуют онлайн-калькуляторы, которые значительно упрощают работу. Начинают процесс определения с отбора данных. Он является основой всех исследований. Надежная выборка помогает уверенно принимать бизнес-решения. Первый вопрос, который нужно решить — правильное определение целевой группы, он имеет определяющее значение. Если исследователь проводит опрос с людьми вне этой группы - невозможно успешно выполнить задачу. Следующий шаг — решить, сколько людей нужно для проведения собеседования.

Специалисты знают, что небольшая репрезентативная выборка будет отражать мнения и поведение группы, из которой она была составлена. Чем больше образец, тем точнее он представляет целевую группу. Тем не менее скорость улучшения точности уменьшается по мере увеличения размера выборки. Например, увеличение с 250 до 1000 удваивает точность. Принимают решение о размере выборки на основе таких факторов, как: доступное время, бюджет и необходимая степень точности.

Существует три фактора, которые определяют размер ДИ для этого уровня достоверности:

  • размер выборки;
  • процентная доля выборки;
  • размер популяции.

Если 99% участников опроса сказали «Да» и 1% сказали «Нет», вероятность ошибки мала, независимо от размера выборки. Однако если проценты составляют 51 и 49%, вероятность ошибки намного выше. Легче быть уверенным в крайних ответах, чем в средних. При определении размера выборки, необходимого для заданного уровня точности, нужно использовать наихудший процент (50%).

Ниже показана формула расчета доверительного интервала в excel размера выборки онлайн-калькулятора.

Расчеты доверительного интервала предполагают, что есть подлинная случайная выборка соответствующего населения. Если опрос не является случайным, нельзя полагаться на интервалы. Неслучайные выборки обычно возникают из-за недостатков в процедуре.

Создание линейных диаграмм

Создание графика доверительного интервала в Excel относительно простое. Сначала создают свою линейную диаграмму. Затем с выбранным рядом выбирают «Инструменты диаграммы»> «Макет»> «Панель ошибок»> «Дополнительные параметры панели». В появившемся всплывающем меню можно либо выбрать положительные или отрицательные панели ошибок, либо и то, и другое. Можно выбрать стиль и выбрать сумму, которую нужно отобразить. Это может быть фиксированное значение, процент, стандартное отклонение или настраиваемый диапазон.

Если у данных есть стандартное отклонение по умолчанию для каждой точки, выбирают пользовательский и нажимают кнопку «Определить значение». Затем появляется другое всплывающее меню и можно выбрать диапазон ячеек как для положительных, так и для отрицательных панелей.

  1. Подготовить данные. Сначала в дополнение к средним значениям, понадобится расчет стандартного отклонения (или ошибки).
  2. Затем в строке 4 нужно рассчитать верхний предел группы, то есть для B4 расчет будет: =B2+B3 В строке 5 нужно рассчитать нижний предел диапазона, т. е Для B5 расчет будет: =B2-B4
  3. Создать график. Выделите строки 1, 2, 4 и 5 таблицы, а затем нажать «Вставить»> «График»> «Линейная диаграмма». Excel создаст линейную диаграмму.
  4. Удалить легенду и линии сетки.
  5. Затем щелкнуть правой кнопкой мыши верхнюю группу диапазонов и выбрать «Изменить тип диаграммы».
  6. Отформатировать доверительные диапазоны. Чтобы закончить диаграмму просто отформатировать верхнюю серию с голубым заполнением (в соответствии с синей линией), а нижнюю серию — белой заливкой.

В этой диаграмме легко увидеть пределы ошибок, однако если много данных, вид будет беспорядочный. С первого взгляда доверительный предел гораздо более очевидный, учитывая среднее значение выборки, и он будет становиться все более жестким по мере увеличения количества выборок

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval , ДИ – Доверительный интервал ) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

In statistics, a confidence interval (CI) is a type of interval estimate of a population parameter. It is an observed interval (i.e., it is calculated from the observations), in principle different from sample to sample, that frequently includes the value of an unobservable parameter of interest if the experiment is repeated. How frequently the observed interval contains the parameter is determined by the confidence level or confidence coefficient. More specifically, the meaning of the term «confidence level» is that, if CI are constructed across many separate data analyses of replicated (and possibly different) experiments, the proportion of such intervals that contain the true value of the parameter will match the given confidence level. Whereas two-sided confidence limits form a confidence interval, their one-sided counterparts are referred to as lower/upper confidence bounds (or limits).


Доверительный интервал показывает, в каком диапазоне расположатся результаты выборочных наблюдений (опросов). Если мы проведем 100 одинаковых опросов в одинаковых выборках из единой генеральной совокупности (например, 100 выборок по 1000 человек в каждой в городе с населением 5 миллионов человек), то при 95%-й доверительной вероятности, 95 из 100 результатов попадут в пределы доверительного интервала (например, от 28% до 32% при истинном значении 30%). Например, истинное количество курящих жителей города составляет 30%. Если мы 100 раз подряд выберем по 1000 человек и в этих выборках зададим вопрос «курите ли Вы?», в 95 из этих 100 выборок при 2%-м доверительном интервале значение составит от 28% до 32%.

Формулы для построения доверительных интервалов с практическими примерами можно найти, например, .

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.
Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение. ()

THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама