FAQ: Как определяется значимость? Определение значимости воздействия Что такое уровень значимости

у меня нет ясности в понимании того, как определяется значимость ГОТОВЫХ контекстно-зависимых поведенческих цепочек. как я понимаю, поведенческая цепочна - это некоторая МОЗГОВАЯ активность. поведенческий контекст - это образ поведения при данном состоянии среды. состояние среды, отслеживается рецепторами органов чувств. чтобы определить значимость поведенческого контекста, надо получить предполагаемый результат поведения при данном состоянии среды, причем до того, как запустить поведенческую цепочку на выполнение. для этого к настоящему моменту в мозгу УЖЕ должен быть актевен образ вариантов поведений в некотором спектре состояний среды, содержащих отслеженное органами чувств в настоящий момент. так?


>>поведенческая цепочка - это некоторая МОЗГОВАЯ активность

Нет. Это последовательность звеньев, отвечающих за более элементарные действия в программе всей цепочки. По мере последовательной активности отдельных звеньев начинает выполняться вся программа отдельными подпрограммами.

>>поведенческий контекст - это образ поведения при данном состоянии среды

В одной цепочке в отдельных звеньях может быть ветвления на другие цепочки так, что при одних условиях активность продолжается по одной цепи, а в других условиях - по другим цепям. Это и есть контекст ность выполнения программы в зависимости от условий.

>>чтобы определить значим ость поведенческого контекст а, надо получить предполагаемый результат поведения при данном состоянии среды

С каждым звеном уже закреплена какая-то значим ость - как результат отработки данного звена цепи в определенных условиях. Эта значим ость может быть оценена только осознанным вниманием к данной цепочке. Без осознания значим ость играет разрешительную (положительная значим ость) или запретительную (отрицательная) роль. В случае, если в данных условиях со звеном ассоциирована отрицательная значим ость, то дальнейшая активность цепи прекращается.

Осознанное внимание может сканировать цепочку без выполнения действий (блокируя их) и получать значим ость, в том числе и окончательного звена, прогнозирующего результат действия.

При построении регрессионной модели встает вопрос определения значимости факторов, входящих в уравнение регрессии (1). Определение значимости фактора означает выяснение вопроса о силе влияния фактора на функцию отклика. Если в ходе решения задачи о проверке значимости фактора выясняется, что фактор незначим, то его можно исключить из уравнения. В этом случае считают, что фактор не оказывает существенного влияния на функцию отклика. Если же подтверждается значимость фактора, то его оставляют в модели регрессии. Считается, что в этом случае фактор оказывает влияние на функцию отклика, которым нельзя пренебрегать. Решение вопроса о значимости факторов эквивалентно проверке гипотезы о равенстве нулю коэффициентов регрессии при данных факторах. Таким образом, нулевая гипотеза будет иметь вид: , где подвектор вектора размерности (l*1). Перепишем уравнение регрессии в матричном виде:

Y = Xb+e ,(2)

Y – вектор размера n;

X - матрица размера (p*n);

b - вектор размера p.

Уравнение (2) можно переписать в виде:

,

где X l и X p - l - матрицы размера (n,l) и (n,p-l) соответственно. Тогда гипотеза H 0 эквивалентна предположению, что

.

Определим минимум функции . Так как при соответствующих гипотезах H 0 и H 1 = 1- H 0 оцениваются все параметры некоторой линейной модели, то минимум при гипотезе H 0 равен

,

тогда как при H 1 он равен

.

Для проверки нулевой гипотезы рассчитаем статистику , которая имеет распределение Фишера с (l,n-p) степенями свободы, и критическая область для H 0 образована 100*a процентами наибольших значений величины F. Если FF кр - гипотеза отвергается.

Проверку значимости факторов можно проводить и другим методом, независимо друг от друга. Данный метод основан на исследовании доверительных интервалов для коэффициентов уравнения регрессии. Определим дисперсии коэффициентов , Значения являются диагональными элементами матрицы . Определив оценки дисперсий коэффициентов, можно построить доверительные интервалы для оценок коэффициентов уравнения регрессии. Доверительный интервал для каждой оценки будет равен , где - табличное значение критерия Стьюдента при числе степеней свободы, с которым определялся элемент , и выбранном уровне значимости . Фактор с номером i значим, если абсолютная величина коэффициента при данном факторе больше величины отклонения, рассчитанного при построении доверительного интервала. Другими словами, фактор с номером i значим, если 0 не будет принадлежать доверительному интервалу, построенному для данной оценки коэффициента . На практике, чем уже доверительный интервал при заданном уровне значимости, тем с большей уверенностью можно говорить о значимости фактора. Для проверки значимости фактора по критерию Стьюдента можно воспользоваться формулой . Вычисленное значение t-критерия сравнивается с табличным при заданном уровне значимости и соответствующем числе степеней свободы. Данным методом проверки значимости факторов можно пользоваться лишь в случае независимости факторов. Если есть основания считать ряд факторов зависимыми друг от друга, то данный метод может использоваться только для ранжирования факторов по степени их влияния на функцию отклика. Проверку значимости в этой ситуации необходимо дополнять методом, основанным на критерии Фишера.

Таким образом, рассмотрена задача проверки значимости факторов и сокращения размерности модели в случае несущественного влияния факторов на функцию отклика. Далее здесь было бы логично рассмотреть вопрос о введении в модель дополнительных факторов, которые, по мнению исследователя, в ходе проведения эксперимента не были учтены, но их воздействие на функцию отклика существенно. Предположим, что уже после того, как подобрана модель регрессии

, ,

возникла задача включить в модель дополнительные факторы x j , чтобы модель с введением этих факторов приняла вид:

, (3)

где X - матрица размера n*p ранга p, Z – матрица размера n*g ранга g и столбцы матрицы Z линейно не зависят от столбцов матрицы X, т.е. матрица W размера n*(p+g) имеет ранг (p+g). В выражении (3) использованы обозначения (X,Z)=W, . Имеется две возможности определения оценок вновь введенных коэффициентов модели. Во-первых, можно найти оценку и ее дисперсионную матрицу непосредственно из соотношений

Как вы думаете, что делает вашу «вторую половинку» особенной, значимой? Это связано с ее (его) личностью или с вашими чувствами, которые вы испытываете к этому человеку? А может, с простым фактом, что гипотеза о случайности вашей симпатии, как показывают исследования, имеет вероятность менее 5%? Если считать последнее утверждение достоверным, то успешных сайтов знакомств не существовало бы в принципе:

Когда вы проводите сплит-тестирование или любой другой анализ вашего сайта, неверное понимание «статистической значимости» может привести к неправильной интерпретации результатов и, следовательно, ошибочным действиям в процессе оптимизации конверсии. Это справедливо и для тысяч других статистических тестов, проводимых ежедневно в любой существующей отрасли.

Чтобы разобраться, что же такое «статистическая значимость», необходимо погрузиться в историю появления этого термина, познать его истинный смысл и понять, как это «новое» старое понимание поможет вам верно трактовать результаты своих исследований.

Немного истории

Хотя человечество использует статистику для решения тех или иных задач уже много веков, современное понимание статистической значимости, проверки гипотез, рандомизации и даже дизайна экспериментов (Design of Experiments (DOE) начало формироваться только в начале 20-го столетия и неразрывно связано с именем сэра Рональда Фишера (Sir Ronald Fisher, 1890-1962):

Рональд Фишер был эволюционным биологом и статистиком, который имел особую страсть к изучению эволюции и естественного отбора в животном и растительном мире. В течение своей прославленной карьеры он разработал и популяризировал множество полезных статистических инструментов, которыми мы пользуемся до сих пор.

Фишер использовал разработанные им методики, чтобы объяснить такие процессы в биологии, как доминирование, мутации и генетические отклонения. Те же инструменты мы можем применить сегодня для оптимизации и улучшения контента веб-ресурсов. Тот факт, что эти средства анализа могут быть задействованы для работы с предметами, которых на момент их создания даже не существовало, кажется довольно удивительным. Столь же удивительно, что раньше сложнейшие вычисления люди выполняли без калькуляторов или компьютеров.

Для описания результатов статистического эксперимента как имеющих высокую вероятность оказаться истиной Фишер использовал слово «значимость» (от англ. significance).

Также одной из наиболее интересных разработок Фишера можно назвать гипотезу «сексуального сына». Согласно этой теории, женщины отдают свое предпочтение неразборчивым в половых связях мужчинам (гулящим), потому что это позволит рожденным от этих мужчин сыновьям иметь такую же предрасположенность и произвести на свет больше своих отпрысков (обращаем внимание, что это всего лишь теория).

Но никто, даже гениальные ученые, не застрахованы от совершения ошибок. Огрехи Фишера досаждают специалистам и по сей день. Но помните слова Альберта Эйнштейна: «Кто никогда не ошибался, тот не создавал ничего нового».

Прежде чем перейти к следующему пункту, запомните: статистическая значимость — это ситуация, когда разница в результатах при проведении тестирования настолько велика, что эту разницу нельзя объяснить влиянием случайных факторов.

Какова ваша гипотеза?

Чтобы понять, что значит «статистическая значимость», сначала нужно разобраться с тем, что такое «проверка гипотез», поскольку два этих термина тесно переплетаются.
Гипотеза — это всего лишь теория. Как только вы разработаете какую-либо теорию, вам будет необходимо установить порядок сбора достаточного количества доказательств и, собственно, собрать эти доказательства. Существует два типа гипотез.

Яблоки или апельсины — что лучше?

Нулевая гипотеза

Как правило, именно в этом месте многие испытывают трудности. Нужно иметь в виду, что нулевая гипотеза — это не то, что нужно доказать, как, например, вы доказываете, что определенное изменение на сайте приведет к повышению конверсии, а наоборот. Нулевая гипотеза — это теория, которая гласит, что при внесении каких-либо изменений на сайт ничего не произойдет. И цель исследователя — опровергнуть эту теорию, а не доказать.

Если обратиться к опыту раскрытия преступлений, где следователи также строят гипотезы в отношении того, кто является преступником, нулевая гипотеза принимает вид так называемой презумпции невиновности, концепта, согласно которому обвиняемый считается невиновным до тех пор, пока его вина не будет доказана в суде.

Если нулевая гипотеза заключается в том, что два объекта равны в своих свойствах, а вы пытаетесь доказать, что один из них все же лучше (например, A лучше B), вам нужно отказаться от нулевой гипотезы в пользу альтернативной. Например, вы сравниваете между собой тот или иной инструмент для оптимизации конверсии. В нулевой гипотезе они оба оказывают на объект воздействия одинаковый эффект (или не оказывают никакого эффекта). В альтернативной — эффект от одного из них лучше.

Ваша альтернативная гипотеза может содержать числовое значение, например, B - A > 20%. В таком случае нулевая гипотеза и альтернативная могут принять следующий вид:

Другое название для альтернативной гипотезы — это исследовательская гипотеза, поскольку исследователь всегда заинтересован в доказательстве именно этой гипотезы.

Статистическая значимость и значение «p»

Вновь вернемся к Рональду Фишеру и его понятию о статистической значимости.

Теперь, когда у вас есть нулевая гипотеза и альтернативная, как вы можете доказать одно и опровергнуть другое?

Поскольку статистические данные по самой своей природе предполагают изучение определенной совокупности (выборки), вы никогда не можете быть на 100% уверены в полученных результатах. Наглядный пример: зачастую результаты выборов расходятся с результатами предварительных опросов и даже эксит-пулов.

Доктор Фишер хотел создать определитель (dividing line), который позволял бы понять, удался ли ваш эксперимент или нет. Так и появился индекс достоверности. Достоверность — это тот уровень, который мы принимаем для того, чтобы сказать, что мы считаем «значимым», а что нет. Если «p», индекс достоверности, равен 0,05 или меньше, то результаты достоверны.

Не волнуйтесь, в действительности все не так запутано, как кажется.

Распределение вероятностей Гаусса. По краям — менее вероятные значения переменной, в центре — наиболее вероятные. P-показатель (закрашенная зеленым область) — это вероятность наблюдаемого результата, возникающего случайно.

Нормальное распределение вероятностей (распределение Гаусса) — это представление всех возможных значений некой переменной на графике (на рисунке выше) и их частот. Если вы проведете свое исследование правильно, а затем расположите все полученные ответы на графике, вы получите именно такое распределение. Согласно нормальному распределению, вы получите большой процент похожих ответов, а оставшиеся варианты разместятся по краям графика (так называемые «хвосты»). Такое распределение величин часто встречается в природе, поэтому оно и носит название «нормального».

Используя уравнение на основе вашей выборки и результатов теста, вы можете вычислить то, что называется «тестовой статистикой», которая укажет, насколько отклонились полученные результаты. Она также подскажет, насколько близко вы к тому, чтобы нулевая гипотеза оказалась верной.

Чтобы не забивать свою голову, используйте онлайн-калькуляторы для вычисления статистической значимости:

Один из примеров таких калькуляторов

Буква «p» обозначает вероятность того, что нулевая гипотеза верна. Если число будет небольшим, это укажет на разницу между тестовыми группами, тогда как нулевая гипотеза будет заключаться в том, что они одинаковы. Графически это будет выглядеть так, что ваша тестовая статистика окажется ближе к одному из хвостов вашего колоколообразного распределения.

Доктор Фишер решил установить порог достоверности результатов на уровне p ≤ 0,05. Однако и это утверждение спорное, поскольку приводит к двум затруднениям:

1. Во-первых, тот факт, что вы доказали несостоятельность нулевой гипотезы, не означает, что вы доказали альтернативную гипотезу. Вся эта значимость всего лишь значит, что вы не можете доказать ни A, ни B.

2. Во-вторых, если p-показатель будет равен 0,049, это будет означать, что вероятность нулевой гипотезы составит 4,9%. Это может означать, что в одно и то же время результаты ваших тестов могут быть одновременно и достоверными, и ошибочными.

Вы можете использовать p-показатель, а можете отказаться от него, но тогда вам будет необходимо в каждом отдельном случае высчитывать вероятность осуществления нулевой гипотезы и решать, достаточно ли она большая, чтобы не вносить тех изменений, которые вы планировали и тестировали.

Наиболее распространенный сценарий проведения статистического теста сегодня — это установление порога значимости p ≤ 0,05 до запуска самого теста. Только не забудьте внимательно изучить p-значение при проверке результатов.

Ошибки 1 и 2

Прошло так много времени, что ошибки, которые могут возникнуть при использовании показателя статистической значимости, даже получили собственные имена.

Ошибка 1 (Type 1 Errors)

Как было упомянуто выше, p-значение, равное 0,05, означает: вероятность того, что нулевая гипотеза окажется верной, равняется 5%. Если вы откажетесь от нее, вы совершите ошибку под номером 1. Результаты говорят, что ваш новый веб-сайт повысил показатели конверсии, но существует 5%-ная вероятность, что это не так.

Ошибка 2 (Type 2 Errors)

Эта ошибка является противоположной ошибке 1: вы принимаете нулевую гипотезу, в то время как она является ложной. К примеру, результаты тестов говорят вам, что внесенные изменения в сайт не принесли никаких улучшений, тогда как изменения были. Как итог: вы упускаете возможность повысить свои показатели.

Такая ошибка распространена в тестах с недостаточным размером выборки, поэтому помните: чем больше выборка, тем достовернее результат.

Заключение

Пожалуй, ни один термин среди исследователей не пользуется такой популярностью, как статистическая значимость. Когда результаты тестов не признаются статистически значимыми, последствия бывают самые разные: от роста показателя конверсии до краха компании.

И раз уж маркетологи используют этот термин при оптимизации своих ресурсов, нужно знать, что же он означает на самом деле. Условия проведения тестов могут меняться, но размер выборки и критерий успеха важен всегда. Помните об этом.

Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.

Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.

Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.


Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.

Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Давайте рассмотрим некоторые тонкости практического использования линии тренда. Прежде всего надо выяснить, что определяет значимость этой линии. Ответ на этот вопрос двоякий: с одной стороны, значимость линии тренда зависит от срока ее действия, с другой стороны - от того, сколько раз она была проверена. Если, допустим, линия тренда выдержала восемь проверок, каждая из которых подтвердила ее истинность, то, без сомнения, она более значима, чем линия, которой цены касались всего три раза. Кроме того, линия, которая доказывала свою эффективность на протяжении девяти месяцев, намного важнее, чем та, что просуществовала девять недель или дней. Чем выше значимость линии тренда, тем больше ей можно доверять и тем большее значение будет иметь ее прорыв.

Линии тренда должны включать в себя весь диапазон цен дня

Линии тренда на столбиковых графиках должны вычерчиваться под или над столбиками, обозначающими весь диапазон колебаний цен за день. Некоторые специалисты предпочитают строить линии тренда, соединяя между собой лишь цены закрытия, но этот подход не вполне адекватен. Разумеется, цена закрытия является важнейшим ценовым значением за весь день, но, тем не менее, она представляет собой лишь частный случай динамики цен в рамках целого дня торгов. Поэтому при построении линии тренда принято учитывать весь диапазон колебаний цен за день (см. рис. 4.8).

Рис. 4.8 Правильно вычерченная линия тренда должна включать в себя весь диапазон колебаний цен за день торгов.

Что делать с незначительными прорывами линии тренда?

Иногда в течение дня цены прорывают линию тренда, но на момент закрытия все вновь возвращается на круги своя. Вот и приходится аналитику ломать голову: а был ли прорыв? (см. рис. 4.9). Нужно ли вычерчивать новую линию тренда, учитывающую новые данные, если небольшое нарушение линии тренда носило явно временный или случайный характер? На рисунке 4.9 изображена именно такая ситуация. В течение дня цены "нырнули" ниже восходящей линии тренда, но на момент закрытия вновь оказались выше нее. Надо ли в этом случае заново вычерчивать линию тренда?

К сожалению, тут вряд ли возможно дать какой-либо однозначный совет на все случаи жизни. Иногда таким прорывом можно пренебречь, особенно если последующее движение рынка подтверждает истинность первоначальной линии тренда. В некоторых случаях нужен компромисс, когда аналитик в дополнение к первоначальной вычерчивает новую, пробную линию тренда, которая наносится на график пунктиром (см. рис. 4.9). В этом случае в распоряжении аналитика находятся сразу две линии: исходная (сплошная) и новая (пунктирная). Как правило, практика показывает, что если прорыв линии тренда был сравнительно небольшим и происходил лишь в рамках одного дня, а на момент закрытия цены выровнялись и вновь достигли отметки над линией тренда, то аналитик может пренебречь этим прорывом и продолжать пользоваться исходной линией тренда. Как и во многих других областях анализа рынка, тут вернее всего полагаться на опыт и чутье. В подобных спорных вопросах они - ваши лучшие советчики.

Рис. 4.9 Иногда прорыв линии тренда в пределах одного дня ставит аналитика перед дилеммой: сохранять ли исходную линию тренда, если она по-прежнему верна, или вычерчивать новую? Возможен компромисс, при котором исходная линия тренда сохраняется, но на график пунктиром наносится новая линия. Время покажет, какая из них верней.