Дихотомические переменные: дихотомическая переменная — это… Что такое дихотомическая переменная?

Содержание

дихотомическая переменная — это… Что такое дихотомическая переменная?

дихотомическая переменная
мат. dichotomous variable

Большой англо-русский и русско-английский словарь. 2001.

  • дихотомическая алгебра
  • дихотомическая система

Смотреть что такое «дихотомическая переменная» в других словарях:

  • дихотомическая переменная — Переменная, имеющая только две категории. Например, пол (мужской, женский). См. тж бинарная переменная …   Словарь социологической статистики

  • ДИХОТОМИЧЕСКАЯ ПЕРЕМЕННАЯ — Переменная, которая может принимать только два значения; например, мужской/женский …   Толковый словарь по психологии

  • ПЕРЕМЕННАЯ ДИХОТОМИЧЕСКАЯ — англ. variable, dichotomic; нем. Variable, dichotomistische. Переменная, имеющая только два возможных значения. Antinazi. Энциклопедия социологии, 2009 …   Энциклопедия социологии

  • ПЕРЕМЕННАЯ ДИХОТОМИЧЕСКАЯ — англ. variable, dichotomic; нем. Variable, dichotomistische. Переменная, имеющая только два возможных значения …   Толковый словарь по социологии

  • бинарнаяпеременная — Дихотомическая переменная, значения которой кодируются числами 1 и 0. Как правило, 0 обозначает неудачу или отсутствие, а 1 – успех, наличие. Стандартный пример – бросание монеты, где почему то выпадение орла всегда обозначают кодом 1 …   Словарь социологической статистики

  • КОРРЕЛЯЦИЯ БИСЕРИАЛЬНАЯ — корреляция между дихотомической и количественной переменными , предполагающая, что дихотомическая переменная образовалась в результате группирования количественной переменной в два интервала. Показывает, какой была бы корреляция линейная между… …   Социология: Энциклопедия

  • Социальный класс (social class) — Все известные нам об ва имеют тот или иной тип разделения на классы, или соц. стратификации, отражающей иерархическую орг цию статусов, престижа, ресурсов, привилегий и власти в данном обществе. С. к. это относительно однородные группировки,… …   Психологическая энциклопедия

  • логистическая регрессия — В ситуации, когда отклик – дихотомическая переменная, логистическая регрессия позволяет оценить зависимость вероятности  одной из градаций отклика от совокупности предикторов X1,…,Xk. Логистическая зависимость ищется в виде =, где Y=b0 b1X1 …bkXk …   Словарь социологической статистики

Типы статистических шкал

5.2. Типы статистических шкал

В эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):

Пол1 = мужской
2 = женский
Семейное положение1 = холост/не замужем
2 = женат/замужем
3 = вдовец/вдова
4 = разведен(а)
Курение1 = некурящий
2 = изредка курящий
3 = интенсивно курящий
4 = очень интенсивно курящий
Месячный доход1 = до 3000 DM
2 = 3001 — 5000 DM
3 = более 5000 DM
Коэффициент интеллекта (I.Q.)
Возраст (лет)

Рассмотрим сначала графу «Пол». Мы видим, что назначение соответствия цифр 1 и 2 обоим полам абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами. Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к

номинальной шкале. В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название — дихотомическая.

Такая же ситуация и с переменной «Семейное положение». Здесь также соответствие — между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической — у нее четыре категории вместо двух. Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.

В качестве следующего примера рассмотрим переменную «Курение». Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий — больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к

порядковой шкале.

Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.

К классическими примерами переменных с порядковой шкалой относятся также переменные, полученные в результате объединения величин в классы, как «Месячный доход» в нашем примере.

Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.

Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.

Рассмотрим теперь «Коэффициент интеллекта (IQ)«. Не только его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ганса IQ равен 80, у Фрица — 120 и у Отто — 160, можно сказать, что Фриц в сравнении с Гансом настолько же интеллектуальнее насколько Отто в сравнении с Фрицем (а именно — на 40 единиц IQ). Однако, основываясь только на том, что значение IQ у Ганса в два раза меньше, чем у Отто, исходя из определения IQ нельзя сделать вывод, что Отто вдвое умнее Ганса.

Такие переменные, у которых разность (интервал) между двумя значениями имеет эмпирическую значимость, относятся к интервальной шкале. Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.

Наконец, мы достигли наивысшей статистической шкалы, на которой эмпирическую значимость приобретает и отношение двух значений. Примером переменной, относящейся к такой шкале является «Возраст«: если Максу 30 лет, а Морицу 60, можно сказать, что Мориц вдвое старше Макса. Шкала, к которой относятся данные называется шкалой отношений. К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. Поэтому переменные относящиеся к интервальной шкале, как правило, имеют и шкалу отношений.

Подводя итоги, можно сказать, что существует четыре вида статистических шкал, на которых могут сравниваться численные значения:

Статистическая шкалаЭмпирическая значимостьПримеры
НоминальнаяНетПол, семейное положение
ПорядковаяПорядок чиселКурение, месячный доход
ИнтервальнаяРазность чиселКоэффициент интеллекта (I.Q.)
Шкала отношенийОтношение чиселВозраст (лет)

На практике, в том числе в SPSS, различие между переменными, относящимися к интервальной шкале и шкале отношений обычно несущественно. То есть в дальнейшем практически всегда речь будет идти о переменных, относящихся к интервальной шкале.

Пользователь SPSS должен четко разбираться в видах статистических шкал и при выборе метода обращать внимание на то, чтобы были определены надлежащие виды шкал.

Мы уже указывали, что переменные, относящиеся к номинальной шкале допускают весьма ограниченные возможности для проведения анализа. Исключение в некоторых ситуациях составляют дихотомические переменные. Для них можно, по крайней мере, определять ранговую корреляцию. Если, например, обнаруживается корреляция коэффициента интеллекта с полом, то положительный коэффициент корреляции означает, что женщины интеллектуальнее, чем мужчины. Однако если переменные, относящиеся к номинальной шкале не являются дихотомическими, вычисление коэффициентов ранговой корреляции не имеет смысла.


Как создать дихотомические переменные на основе некоторых факторов в r?



Начальный dataframe-это:

Factor1   Factor2   Factor3
  A           B        C
  B           C        NA
  A           NA       NA
  B            C        D
  E           NA       NA

Я хочу создать 5 дихотомических переменных, основанных на вышеуказанных факторных переменных. Правило должно быть таким: новая переменная A получит 1, Если либо Factor1 , либо Factor2 , либо Factor3 содержит A , иначе A должно быть 0, и так далее. Вновь созданные переменные должны выглядеть следующим образом:

A    B    C    D    E
1    1    1    0    0
0    1    1    0    0
1    0    0    0    0
0    1    1    1    0
0    0    0    0    1
r
Поделиться Источник Amirul Islam     14 июля 2016 в 08:10

1 ответ


  • Преобразования числовых факторов в R

    У меня есть 100 столбцов в моей базе данных в качестве факторов. Они на самом деле содержат числа, но R рассматривает их как факторы. Для моего требования к проекту я хочу преобразовать их в числовые. Я могу сделать это оптом, используя sapply / for loop. Однако я не уверен, как проверить, что…

  • R преобразование факторов в новые переменные

    У меня есть две переменные с несколькими уровнями; V1 имеет 400 уровней, а V2 имеет ≈ 250 уровней. Как я могу преобразовать факторы V2 в несколько различных переменных и использовать переменную V1 в качестве уникального идентификатора? V1 V2 Garza, Mike a Garza, Mike b Smith, James a Smith, James…



1

Для этого мы можем использовать table . Мы реплицируем последовательность строк с количеством столбцов, unlist набор данных и получаем частоту значений.

table(rep(1:nrow(df1), ncol(df1)), unlist(df1))
#    A B C D E
#  1 1 1 1 0 0
#  2 0 1 1 0 0
#  3 1 0 0 0 0
#  4 0 1 1 1 0
#  5 0 0 0 0 1

Если у нас есть более 1 значения в строке, то преобразуйте их в логические, а затем снова преобразуйте в двоичные.

 +(!!table(rep(1:nrow(df1), ncol(df1)), unlist(df1)))

данные

df1 <- structure(list(Factor1 = c("A", "B", "A", "B", "E"),
 Factor2 = c("B", 
"C", NA, "C", NA), Factor3 = c("C", NA, NA, "D", NA)), 
 .Names = c("Factor1", 
 "Factor2", "Factor3"), class = "data.frame", row.names = c(NA, -5L))

Поделиться akrun     14 июля 2016 в 08:46


Похожие вопросы:


Как получить доступ к фактической внутренней хэш-таблице поиска факторов в R

Уважаемое сообщество Stackoverflow, Я искал везде, но не могу найти ответа на этот вопрос. Я пытаюсь получить доступ к таблице поиска факторов, которую R использует при изменении строкового вектора…


В R: как создать новые переменные на основе условий для существующих переменных

В R я хотел бы создать две новые переменные (var3 и var4) на основе условий, которые я применяю к существующим переменным (var1 и var2), которые имеют повторяющиеся записи. Вот как выглядят мои…


Изменение меток факторов на эффектах plot в R

Я использую пакет effects в R для создания хороших графиков эффектов. Когда один из предикторов в моей модели является фактором, plot использует метки факторов в качестве меток тиков оси. В…


Преобразования числовых факторов в R

У меня есть 100 столбцов в моей базе данных в качестве факторов. Они на самом деле содержат числа, но R рассматривает их как факторы. Для моего требования к проекту я хочу преобразовать их в…


R преобразование факторов в новые переменные

У меня есть две переменные с несколькими уровнями; V1 имеет 400 уровней, а V2 имеет ≈ 250 уровней. Как я могу преобразовать факторы V2 в несколько различных переменных и использовать переменную V1 в…


Почему r добавляет \n в конце столбца факторов?

R добавляет \n в конце некоторых символьных значений после импорта данных (он делает это только для некоторых, а не для всех). Он не появляется, когда я смотрю на набор данных из среды, но когда я…


Соберите переменные на основе условия (R)

Я работаю над книгой R for Data Science и хотел бы gather несколько переменных из набора данных на основе условия (аналогично select). В частности, я хочу выбрать только непрерывные переменные, а не…


Как создать многоходовые таблицы на основе факторов?

Я пытался создать многоходовые таблицы с результатами, основанными на факторных данных. Мои данные выглядят так: Trial Room Mechanism Result A 1 Straight 0,5 A 1 Bendy 0,2 A 2 Straight 0.7 A 2 Bendy…


R психические тетрахорические-дихотомические переменные

У меня есть dataframe дихотомических переменных, соответствующих пунктам личностного опросника. Вот первые строки. head(mixclinic) # A tibble: 6 x 15 CMS_1 CMS_2 CMS_3 CMS_4 CMS_5 CMS_6 CMS_7 CMS_8…


Переименование уровней факторов на основе условия в R

Предположим, что мы имеем следующее dataframe: data1 <- data.frame(S1 = sample(c(A, B, C), size = 20, replace = TRUE), S2 = sample(c(A, B, C), size = 20, replace = TRUE), number = rnorm(20, 10,…

Фомина Е.Е. О возможности применения факторного анализа для обработки результатов анкетирования

Фомина Елена Евгеньевна
Тверской государственный технический университет
кандидат технических наук, доцент кафедры информатики и прикладной математики

Fomina Elena Evgenevna
Tver State Technical University
PhD in Technical Sciences, Assistant Professor of the department of informatics and applied mathematics

Библиографическая ссылка на статью:
Фомина Е.Е. О возможности применения факторного анализа для обработки результатов анкетирования // Современные научные исследования и инновации. 2017. № 1 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2017/01/77488 (дата обращения: 31.07.2021).

Факторный анализ (ФА), как метод интерпретации, позволяющий придать содержательный смысл результатам исследования, имеющим числовую природу, нашел широкое применение во многих областях научных исследований [1 — 4]. Так, например, в психологии рассматриваемый метод применяется для изучения свойств личности, её поведения с помощью ответов на вопросы психологических тестов [1]. В социологии факторный анализ активно применяется для обработки результатов анкетирования, которое является одним из основных инструментов изучения состояния общественного мнения [2].

Такая популярность метода объясняется в первую очередь тем, что он реализован в прикладных программах статистической обработки данных, например, таких, как SPSS и STATISTICA. Вследствие чего, пользователи, не имеющие специальной математической подготовки и не владеющие математическим аппаратом метода, но понимающие его назначение, сущность и возможности могут использовать факторный анализ в своих исследованиях.

Тем не менее, метод имеет ряд ограничений, которые, главным образом, связаны с метризуемостью пространства исходных переменных. Для адекватного применения метода ФА необходимо точно определить тип шкалы, в которой они были измерены.

В связи с этим проблема применимости метода для обработки таблиц с результатами анкетирования, данные в которых представлены в порядковых, номинальных и дихотомических шкалах является актуальной.

Согласно алгоритму метода процедура ФА включает в себя следующие этапы:

1. Построение корреляционной матрицы системы переменных с использованием коэффициента линейной корреляции Пирсона;

2. Определение новых признаков, являющихся линейными комбинациями первоначальных и включающих в себя большую часть общей дисперсии наблюдаемых данных. Этот этап реализуется с использованием методов главных компонент, главных факторов, максимального правдоподобия и других [4 — 6].

3. В случае, если выделенные факторы, невозможно достаточно наглядно интерпретировать, то используют их вращение, позволяющее найти более наглядное объяснение факторной структуры [4 — 6].

Таким образом, в основе процедуры факторного анализа лежит этап построения матрицы коэффициентов линейной корреляции Пирсона, которая и определяет в дальнейшем процесс выделения новых латентных переменных, а, следовательно, и содержательный смысл исходных данных. В свою очередь, коэффициент линейной корреляции Пирсона рассчитывается только для нормально распределенных данных, представленных в интервальной шкале.

Однако, при обработке результатов анкетирования, часто приходится иметь дело с порядковыми, номинальными и дихотомическими шкалами. Например, респондентам предлагается оценить предложенные суждения по шкале Р. Лайкерта, содержащей несколько градаций (3, 5, 7, 9 и т.д.) или выразить свое отношение к проблеме одним из высказываний – «согласен»-«не согласен», «да»-«нет».

В связи с этим возникает вопрос о правомерности применения метода для обработки результатов анкетирования. Т.е. правомерно ли использовать ФА для исследования структуры данных, представленных в порядковой, номинальной и дихотомической шкале.

Включение в исследование порядковых переменных будет зависеть от балльности шкалы. В зависимости от количества используемых баллов порядковые шкалы условно можно разделить на шкалы с низким и высоким числом градаций. Установлено, что шкалы с 5-ю градациями и выше, обладают свойствами как порядковых, так и интервальных шкал [6, 7], иначе говоря, являются псевдо-интервальными. Переменные, измеренные в таких шкалах, допустимо использовать в качестве исходных данных для процедуры ФА. Причем чем больше выбор ответов на порядковой шкале, тем ниже вероятность серьезных ошибок при интерпретации результатов. Тем не менее, перед применением метода рекомендуется проводить предварительный этап анализа корреляционной зависимости между переменными. Для этого сравниваются матрицы коэффициентов корреляции, рассчитанные для переменных таблицы исходных данных по формулам Пирсона и Спирмена (или Кендалла). Если расхождение между элементами матриц незначительны, то есть искажения, полученные из-за шкалирования не слишком велики, то использование ФА является правомерным. В свою очередь шкалы с низким числом градаций не обладают свойствами интервальных, кроме того, данные, измеренные в таких шкалах, нарушают допущение о нормальности, а, следовательно, не могут служить базой для проведения ФА, т.к. его результаты могут привести к получению ошибок в факторном решении, а, следовательно, к неверным выводам.

При использовании номинальных шкал каждый объект исследования относится к определенной группе (например, при ответе на вопрос об образовании респондент выбирает один из вариантов: 1 – высшее, 2 – среднее специальное, 3 – среднее). То есть номинальная шкала представляет собой конечный набор состояний или свойств объекта. Для нее невозможно установить отношение порядка, нулевую точку и интервальность. Следовательно, коэффициент линейной корреляции Пирсона нельзя использовать в качестве характеристики зависимости между переменными, классифицированными по этой шкале. Таким образом, применение ФА для номинальных переменных невозможно.

В случае анализа дихотомических переменных, следует отметить, что согласно сущности метода, каждая переменная оказывается под влияние двух типов факторов – общего и частного:

,

где

x – переменная,

n – количество факторов,

k – номер фактора (k=1,…n),

Fk – общий фактор,

U – частный фактор.

Если предположить, что k=1 и факторы F и U принимают только два значения, то итоговые переменные должны принимать, четыре различных значения, что приводит к противоречивости использования дихотомических переменных в качестве исходных данных для анализа [5]. Кроме того, дихотомические переменные значительно ослабляют коэффициент линейной корреляции Пирсона. Поэтому применение метода для их анализа данных невозможно [5].

Необходимо отметить, что в общем случае все переменные, для которых проводится ФА, должны быть измерены в одной шкале. Тем не менее, на практике это требование в большинстве случаев не выполняется. Если в таблице исходных данных преобладают интервальные и ранговые переменные с большим числом градаций, то применение ФА является обоснованным. Тем не менее, нужно учитывать возможное искажение факторной структуры, связанное с искажение коэффициента корреляции.

Несмотря на все ограничения для исходных данных, некоторые исследователи говорят о допустимости применения ФА в отношении порядковых и номинальных переменных в эвристических целях, при условии получения простой факторной структуры и высоких значений факторных нагрузок переменных, определяющих каждый фактор [5, 6].

Подводя итог, можно сделать следующие выводы о возможности использования ФА для обработки результатов анкетирования. Применение метода считается правомерным, если он используется для анализа переменных, измеренных в интервальной шкале или в порядковой с большим числом градаций и имеющих согласованные матрицы корреляции, построенные с использованием коэффициента линейной корреляции Пирсон и Спирмена (или Кендалла).

Использование ФА для обработки порядковых переменных с низким числом градаций, номинальных или дихотомических переменных может привести к получению искаженной информации, которая на самом деле не содержится в данных и, как следствие, к получению неверных выводов. Анализ таких переменных осуществляется с применением других методов, в частности нелинейного метода главных компонент, не накладывающего ограничений на тип используемой шкалы.


Библиографический список
  1. Митина О. В., Михайловская И.Б. Факторный анализ для психологов. – М.: Учебно-методический коллектор «Психология». – 2001. – 169 с.
  2. Фомина Е. Е. Применение факторного анализа для обработки результатов анкетирования // Социосфера. – 2016. – № 3. – С. 122-127.
  3. Самсонова А. В. Факторный анализ. Направления применения и неиспользованные возможности // Вестник Балтийской Педагогической Академии. – 2005. – вып. 62. – С. 67-75.
  4. Буреева Н. Н. Многомерный статистический анализ с использованием ППП «STATISTICA». Учебно-методический материал по программе повышения квалификации «Применение программных средств в научных исследованиях и преподавании математики и механики». – Нижний Новгород. – 2007. – 112 с.
  5. Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др.; Под ред. И. С. Енюкова. – М.: Финансы и статистика.  – 1989. – 215 с.
  6. Иберла К. Факторный анализ / Пер. с нем. В.М. Ивановой; Предисл. А.М. Дуброва. – М.: Статистика. – 1980. – 389 с.
  7. Толстова Ю. Н. Измерение в социологии. – М.: КДУ. – 2007. – 288 с.


Количество просмотров публикации: Please wait

Все статьи автора «Фомина Елена Евгеньевна»

Иллюстрированный самоучитель по SPSS 10/11 › Непараметрические тесты › Биномиальный тест [страница — 199] | Самоучители по математическим пакетам

Биномиальный тест

Этот тест проверяет дихотомические переменные на наличие различия между частотами обоих проявлений признака. Недихотомические переменные могут быть диэтомизированы (разделены на две категории) при помощи задания некоторой разделительной величины.

Представьте себе, что Вы играете со своим партнером по теннису 50 матчей и выигрываете 29. Ваш партнер, выигравший 21 раз, думает, что Вы ничем не лучше, а эта разница является случайной.

Чтобы это проверить можно выполнить биномиальный тест.

  • Откройте файл match.sav, содержащий две переменные: spieler и n.

Первая переменная имеет кодировки 1 и 2, которые соответствуют двум игрокам. Переменная n указывает на частоту выигрыша; ей присваивается статус весовой переменной.

  • Сначала выберите в меню Data (Данные) › Weight Cases (Взвесить наблюдения)
  • Укажите переменную n как частотную переменную (см. гл. 8.7).
  • Затем выберите в меню Analyze (Анализ) › Nonparametric Tests (Непараметрические тесты) › Binomial (Биномиальное распределение)

Откроется диалоговое окно Binomial Test (Тест на биномиальное распределение) см. рис. 14. 7.

  • Перенесите щелчком переменную spieler в поле тестируемых переменных.

Если бы эта переменная не была дихотомической, Вы бы могли в поле Определить дихотомию (Define Dichotomy) ввести разделительную величину для проведения раздвоения (дихотомизации). Предварительно установленная тестовая пропорция (0.50) показывает на ожидаемую относительную частоту появления первой из двух дихотомических категорий. Здесь Вы можете задать и другое значение. После нажатия кнопки Options… (Опции) Вы можете организовать вывод (абсолютно бессмысленных) характеристик дескриптивной статистики.

  • Запустите расчет путем нажатия ОК.

В окне просмотра появятся следующие результаты:

Binomial Test (Тест на биномиальное распределение)

 Category (Категория)NObserved Prop. (Наблюдаемая пропорция)Test Prop. (Тестовая пропорция)Asymp. Sig. (2-tailed) (Статистическая значимость (2-сторонняя))
SPIELER (Игрок)Группа 11290.580.500.322а
Группа 22210.42  
Total (Сумма) 501.00  
  • a. Based on Z Approximation. (Основываясь на Z-аппроксимации.)


Рис. 14.7: Диалоговое окно Тест на биномиальное распределение

В выводимые результаты включают наблюдаемые абсолютные и относительные частоты обеих категорий, а так же ожидаемую относительную частоту первой категории Полученная вероятность ошибки (р = 0.322) говорит о том, что между наблюдаемой и ожидаемой относительными частотами не существует значимого различия. Стало быть и разница между обеими частотами выигрыша не является значимой.

Маркетинговые исследования с применением SPSS

1.1 Подготовка данных к анализу

Анализ маркетинговой информации с применением программы SPSS включает выполнение следующих необходимых шагов, представленных на рисунке 1.1:

Рисунок 1.1 — Анализ данных с применением программы SPSS

  1. На первом этапе необходимо проверить правильность составления анкет, полноту заполнения и качество интервьюирования, а также репрезентативность выборки.
  2. На этапе кодирования необходимо присвоить код каждому возможному варианту ответа по каждому вопросу. С этой целью используются следующие типы шкал измерения переменных:
    • Номинальная
    • Порядковая (ранговая)
    • Интервальная
    • Относительная
    От выбора шкалы (таблица 1.1) зависит вся последующая методика изучения данных и определение возможности расчета статистических показателей.
    Тип шкалыОсобенности построения
    1НоминальнаяКаждому свойству потребителя ставится в соответствие некоторый код, позволяющий отличить одно значение от другого. По данной шкале измеряются как правило качественные характеристики объекта исследования. Например, значению свойства пол «мужской» присваивается код «1», «женский» — код «2».
    2ПорядковаяПрисваивает значения свойствам потребителя, находящимся на разных уровнях по отношению друг к другу. Ответы респондентов можно упорядочить по уровню изучаемого свойства переменной. Например, по степени предпочтений покупателей различных марок товара, «наиболее предпочитаемой» присваиваем код «1», коды 2, 3, 4 присваиваются маркам по степени убывания предпочтений.
    3ИнтервальнаяПозволяет дать количественную оценку различиям между переменными, т.е. определить насколько одно значение схоже или отличается от другого. Например, шкала Цельсия, календарь. Данная шкала также используется при кодировании ответов респондентов, полученных в результате применения в процессе анкетирования семантического дифференциала. Например, когда от респондентов требуется оценить качество продукта по семибалльной шкале.
    4ОтносительнаяПредполагает существование естественного нуля. Поэтому в данной шкале можно сравнивать значения переменной по отношению друг к другу. Это могут быть физические характеристики (вес, длина, объем и пр.) и экономические характеристики (цена, объем продаж, прибыль и пр.).

    Таблица 1.1 — Типы шкал

    В программе SPSS интервальная и относительная шкалы объединяются в метрическую шкалу.
  3. Выбор метода обработки данных основывается на итогах предыдущих этапов маркетинговых исследований, характеристиках информации, а также задачах, поставленных перед маркетинговым исследованием. Могут быть использованы следующие виды анализа: описательные статистики, корреляционный анализ, построение таблиц сопряженности, кросс—табуляция, проверка статистических гипотез о виде распределения, дисперсионный анализ, дискриминантный анализ, кластерный анализ, многомерное шкалирование, факторный анализ, анализ соответствий, регрессионный анализ, совместный анализ.
  4. В результате проведенного анализа исследователь получает массив данных, доступный осмыслению и содержательной интерпретации. На данном этапе необходимо представить, отредактировать и сохранить полученные данные, так как исчерпывающий анализ обычно требует многократной обработки данных с применением разных методов.
  5. Интерпретация результата обработки данных — самостоятельная задача исследователя. Опираясь на полученные статистические данные важно выявить причинно—следственные отношения между изучаемыми признаками, факторы, оказывающие наибольшее влияние на исследуемую проблему, дать грамотную обоснованную оценку ситуации и выстроить прогноз.

1.2 Структура редактора данных

Вверх

Файл исходной базы данных для проведения анализа в SPSS формируется в редакторе данных (Data Editor). Редактор данных имеет две вкладки: «Переменные» (Variable View) и «Данные» (Date View). Вкладки представляют собой таблицы, содержащие информацию о данных, собранных для проведения анализа.

Во вкладке «Переменные» представлена таблица с данными, котрые описывают свойства переменных. Каждая строка отображает переменную (вопрос анкеты), каждый столбец — ее свойства.

В столбце «Имя» (Name) записывают имя переменной — это может быть номер или часть вопроса в анкете. Например, переменная «пол», «занятость», «марка». Имя переменной не является произвольным, оно может содержать буквы латинского алфавита и цифры, а также некоторые символы: $, #. Длина имени не более 64 знаков. Не допускаются пробелы и буквы других алфавитов. Имя переменной должно начинаться с буквы и не может заканчиваться знаком подчеркивания «__» и точкой.

В столбце «Тип» (Туре) задается тип переменной; текущим типом является числовой (Numeric). В подавляющем большинстве случаев лучше иметь дело с числовыми переменными. Если требуется изменить тип переменной, нужно нажать на кнопку «Тип переменной» (Van ible Type).

В столбце «Ширина» (Width) задается максимальное количество знаков, которые может иметь переменная, включая дробную часть.

В столбце «Десятичные» (Decimal) выбирается количество десятичных знаков после запятой, в случае если тип переменной допускает использование дробных чисел.

В столбце «Метка» (Label) можно задать метку переменной. Метка используется для того, чтобы боле подробно отразить смысл переменной. Это своего рода комментарий к имени переменной. При задании меток переменных часто используются формулировки вопросов, содержащихся в анкете.

В столбце «Значения» (Values) отображаются значения меток переменных. В поле «Значения» указываются коды возможных вариантов ответа на этот вопрос. Для заполнения данного столбца необходимо произвести кодировку вариантов ответа. В диалоговом окне «Значение меток переменных» в поле «Значение» указываются числовые коды вариантов ответа, а в поле «Метка» — их формулировки.

В столбце «Пропущенные значения» (Missing) следует указать, какие коды вариантов ответов следует исключить из анализа. Например, отсутствие определенного ответа: «98» — не знаю, «99» — нет ответа.

В столбце «Столбцы» (Columns) таблицы «Переменные» указывается ширина столбца, содержащего значения соответствующей переменной в таблице другой вкладки редактора данных: «Данные» (Date View). По умолчанию ширина столбца задается «8».

В столбце «Выравнивание» (Alignment задается положение кодов ответов в таблице «Значения переменных» во вкладке редактора данных «Данные». Они могут быть выровнены по правому краю (Right), по левому краю (Left) или по центру (Center). По умолчанию задается выравнивание по правому краю.

В столбце «Шкала измерения» (Measure) указывается тип шкалы, по которой измеряется переменная. По умолчанию задается метрическая шкала (Scale). В случае необходимости тип шкалы можно изменить

Основное правило создания файла данных в SPSS: переменные должны быть одновариантными, каждая переменная может иметь только одну метку. Таким образом, если вопрос может иметь несколько вариантов ответа каждого респондента, необходимо создать несколько одновариантных переменных (дихотомическая кодировка данных).

Например, на вопрос «Какую марку одежды Вы предпочитаете?» может быть закодирован следующим образом: «1» —предпочитаю, «0» — не предпочитаю. Следовательно, ответы респондентов так, как показано в таблице 1.2.

РеспондентыМарка AМарка BМарка C
Респондент 1101
Респондент 2011
Респондент 3011
Респондент 4101

Таблица 1.2 — Дихотомическая кодировка данных. Вопрос анкеты «Какую марку одежды Вы предпочитаете?»


НОУ ИНТУИТ | Лекция | Данные

Аннотация: В лекции подробно рассматривается понятие данных. Объясняется значение понятий объект и атрибут, выборка, зависимая и независимая переменная. Подробно обсуждаются типы шкал. Приводятся различные типы наборов данных. Кратко рассмотрены понятия базы данных и СУБД.

Что такое данные?

В широком понимании данные представляют собой факты, текст, графики, картинки, звуки, аналоговые или цифровые видео-сегменты.

Данные могут быть получены в результате измерений, экспериментов, арифметических и логических операций.

Данные должны быть представлены в форме, пригодной для хранения, передачи и обработки.

Иными словами, данные — это необработанный материал, предоставляемый поставщиками данных и используемый потребителями для формирования информации на основе данных.

Набор данных и их атрибутов

В таблице 2.1 представлена двухмерная таблица, представляющая собой набор данных.

Таблица 2.1. Двухмерная таблица «объект-атрибут»
Атрибуты
Объекты
Код клиентаВозрастСемейное положениеДоходКласс
118Single1251
222Married1001
330Single701
432Married1201
524Divorced952
625Married601
732Divorced2201
819Single852
922Married751
1040Single902

По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы — объекты.

Объект описывается как набор атрибутов.

Объект также известен как запись, случай, пример, строка таблицы и т.д.

Атрибут — свойство, характеризующее объект.

Например: цвет глаз человека, температура воды и т.д.

Атрибут также называют переменной, полем таблицы, измерением, характеристикой.

В результате операционализации понятий [6], т.е. перехода от общих категорий к конкретным величинам, получается набор переменных изучаемого понятия.

Переменная (variable) — свойство или характеристика, общая для всех изучаемых объектов, проявление которой может изменяться от объекта к объекту.

Значение (value) переменной является проявлением признака.

При анализе данных, как правило, нет возможности рассмотреть всю интересующую нас совокупность объектов. Изучение очень больших объемов данных является дорогостоящим процессом, требующим больших временных затрат, а также неизбежно приводит к ошибкам, связанным с человеческим фактором.

Вполне достаточно рассмотреть некоторую часть всей совокупности, то есть выборку, и получить интересующую нас информацию на ее основании.

Однако размер выборки должен зависеть от разнообразия объектов, представленных в генеральной совокупности. В выборке должны быть представлены различные комбинации и элементы генеральной совокупности.

Генеральная совокупность (population) — вся совокупность изучаемых объектов, интересующая исследователя.

Выборка (sample) — часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности.

Параметры — числовые характеристики генеральной совокупности.

Статистики — числовые характеристики выборки.

Часто исследования основываются на гипотезах. Гипотезы проверяются с помощью данных.

Гипотеза — предположение относительно параметров совокупности объектов, которое должно быть проверено на ее части.

Гипотеза — частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов.

Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. В этом случае целью исследования может быть объяснение изменений конкретной переменной, в данном случае — продолжительности жизни. Допустим, существует гипотеза, что зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т.д.), которые и являются независимыми переменными.

Однако переменная изначально не является зависимой или независимой. Она становится таковой после формулировки конкретной гипотезы. Зависимая переменная в одной гипотезе может быть независимой в другой.

Дихотомическая переменная: Определение — Статистика Как к

Типы переменных> Дихотомические переменные

Дихотомические переменные — это тип категориальных переменных. Если вы не знакомы с категориальными переменными, вы можете прочитать предыдущую статью:
Что такое категориальная переменная?

Что такое дихотомическая переменная?

Дихотомические переменные — это категориальные переменные с двумя категориями или уровнями . Уровни — это разные группы внутри одной и той же независимой переменной (дополнительные сведения об уровнях и группировке см. В разделе «Что такое дисперсионный анализ?»).

Примеры дихотомических переменных

  • Орел или решка.
  • Мужчина или женщина.
  • Богатые или бедные.
  • Демократ или республиканец.
  • Пройден или не пройден.
  • В возрасте 65 или 65 лет и старше.

Двоичные переменные — это подтип дихотомической переменной; переменные, которым присвоено значение 0 или 1, считаются находящимися в двоичном состоянии. Например, мужской (0) и женский (1).

Дихотомические переменные могут быть далее описаны либо как дискретная дихотомическая переменная , либо как непрерывная дихотомическая переменная .Идея очень похожа на обычные дискретные переменные и непрерывные переменные. Когда две дихотомические переменные дискретны, между ними нет ничего, а когда они непрерывны, между ними есть возможности.


  • «Жив или мертв» — дискретная дихотомическая переменная. Ты можешь только умереть. Или ты можешь быть только живым.
  • «Сдать или не сдать экзамен» — это непрерывная дихотомическая переменная. Оценки за тест могут варьироваться от 0 до 100% с любым возможным процентным соотношением между ними.Вы можете получить 74% и пройти. Вы можете получить 69% и проиграть. Или 69,5% и сдать (если ваш профессор округляет!).

Граница между дискретными и непрерывными дихотомическими переменными очень тонкая. Например, можно утверждать, что человек, который умер в течение трех дней, «более» мертв, чем тот, у кого был объявлен мертвый мозг и который находится на аппарате жизнеобеспечения.

Размещение дихотомических переменных в дискретных или непрерывных категориях становится важным при использовании коэффициента точечной бисериальной корреляции; Следует позаботиться о том, чтобы отнести дихотомические переменные к их «естественной категории».Например, республиканцы или демократы по своей природе дискретны — попытка поместить их в непрерывную категорию (исходя из предположения, что многие люди не на 100% ни одна из сторон) может помешать корреляции.

————————————————— —————————-

Нужна помощь с домашним заданием или контрольным вопросом? С помощью Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области. Ваши первые 30 минут с репетитором Chegg бесплатны!

Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .


Что такое «дихотомическая переменная»?

Рубен Герт ван ден Берг в разделе Т-тест и статистика А-Я

Дихотомическая переменная — это переменная, которая содержит ровно два различных значения. Давайте сначала рассмотрим несколько примеров, иллюстрирующих этот момент. Далее мы укажем, почему отличие дихотомических переменных от других упрощает анализ ваших данных и выбор соответствующего статистического теста.

Примеры

По поводу данных на скриншоте:

  • завершено — это , а не — дихотомическая переменная.Он содержит только одно отличное значение, поэтому мы называем его константой, а не переменной.
  • пол — это дихотомическая переменная, поскольку она содержит ровно 2 различных значения.
  • женат — это , а не — дихотомическая переменная: она содержит 3 различных значения. Было бы дихотомией, если бы мы просто делили различие между в настоящее время женатыми и в настоящее время не состоящими в браке.
  • q1 — дихотомическая переменная: поскольку пустые ячейки (пропущенные значения) всегда исключаются из анализа, у нас остается два различных значения.
  • q2 является дихотомической переменной, если мы исключаем категорию «нет ответа» из анализа, и не дихотомической в ​​противном случае.

Дихотомические переменные — что делает их особенными?

Дихотомические — это простейшие возможные переменные. Дело в том, что — с учетом размера выборки — частотное распределение дихотомической переменной можно точно описать одним числом: если у нас 100 наблюдений по полу и 45% — мужчины, то мы знаем все, что нужно знать о эта переменная.

Обратите внимание, что это не относится к другим категориальным переменным: если мы знаем, что 45% нашей выборки (n = 100) имеют карие глаза, то мы не знаем процентное соотношение голубых глаз, зеленых глаз и так далее. То есть мы не можем описать точное частотное распределение одним числом.
Нечто подобное справедливо и для метрических переменных: если мы знаем, что средний возраст нашей выборки (n = 100) составляет ровно 25 лет, то мы не знаем дисперсии, асимметрии, эксцесса и т. Д., Необходимых для построения гистограммы.

Дихотомические переменные являются категориальными и метрическими

Выбор правильных методов анализа данных становится намного проще, если мы знаем об уровнях измерения задействованных переменных. Обычная классификация включает категориальные (номинальные, порядковые) и метрические (интервалы, отношения) переменные. Однако дихотомические переменные не вписываются в эту схему, потому что они обе являются категориальной метрикой и .
Эта странная особенность (которую мы проиллюстрируем через минуту) также оправдывает рассмотрение дихотомических переменных как отдельного уровня измерения.

Дихотомические переменные результата

Некоторые вопросы исследования связаны с дихотомическими зависимыми (исходными) переменными. Если это так, мы используем пропорции или проценты в качестве описательной статистики для суммирования таких переменных. Например, люди могут или могут подумать о покупке нового автомобиля в 2017 году. Нам может быть интересно узнать о процентах людей, которые это сделают. На этот вопрос ответят либо биномиальным тестом, либо z-критерием для одной пропорции.

Вышеупомянутые и некоторые другие тесты используются исключительно для дихотомических зависимых переменных.Они являются одними из наиболее широко используемых (и простейших) статических тестов.

Дихотомические входные переменные

Примером теста с использованием дихотомической независимой (входной) переменной является t-тест независимых выборок, показанный ниже.

В этом тесте дихотомическая переменная определяет группы наблюдений и, следовательно, используется как категориальная переменная. Строго говоря, t-критерий независимых выборок является избыточным, поскольку он эквивалентен одностороннему дисперсионному анализу. Однако независимая переменная, содержащая только 2 различных значения, значительно упрощает соответствующие вычисления.Вот почему в большинстве учебников этот тест рассматривается отдельно от более общего ANOVA.

Те, кто знаком с регрессией, могут знать, что предикторы (или независимые переменные) должны быть метрическими или дихотомическими. Чтобы включить категориальный предиктор, он должен быть преобразован в ряд дихотомических переменных, обычно называемых фиктивными переменными.

Это показывает, что в регрессии дихотомические переменные рассматриваются как метрические, а не категориальные переменные.

Дихотомические переменные

И последнее, но не менее важное: иногда проводится различие между естественно дихотомическими переменными и неестественно дихотомическими переменными. Переменная естественно дихотомическая , если в природе встречаются ровно 2 значения (пол, состояние в браке или живучесть). Если переменная содержит ровно 2 значения в ваших данных, но, возможно, больше в реальном мире, это неестественно дихотомический .
Создание неестественно дихотомических переменных из недихотомических переменных известно как дихотомия.На последнем снимке экрана показан удобный, но малоизвестный трюк для этого в SPSS.

Надеюсь, вы нашли это руководство полезным. Спасибо за чтение!

Понимание различных типов переменных в статистике

Во всех экспериментах исследуются какие-то переменные. Переменная — это не только то, что мы измеряем, но также то, чем мы можем манипулировать и что мы можем контролировать. Чтобы понять характеристики переменных и то, как мы используем их в исследованиях, это руководство разделено на три основных раздела.Во-первых, мы проиллюстрируем роль зависимых и независимых переменных. Во-вторых, мы обсуждаем разницу между экспериментальным и неэкспериментальным исследованием. Наконец, мы объясняем, как переменные можно охарактеризовать как категориальные или непрерывные.

Зависимые и независимые переменные

Независимая переменная , иногда называемая экспериментальной переменной или предиктором , представляет собой переменную, которой манипулируют в эксперименте, чтобы наблюдать влияние на зависимую переменную , иногда называемую исходной переменной .

Представьте, что репетитор просит 100 учеников пройти тест по математике. Репетитор хочет знать, почему одни ученики успевают лучше, чем другие. Хотя репетитор не знает ответа на этот вопрос, она думает, что это может быть по двум причинам: (1) некоторые ученики тратят больше времени на проверку для своего теста; и (2) некоторые студенты от природы более умны, чем другие. Таким образом, наставник решает изучить влияние времени проверки и интеллекта на результаты теста 100 студентов.Зависимые и независимые переменные для исследования:

Зависимая переменная: Тестовая отметка (измеряется от 0 до 100)

Независимые переменные: Время пересмотра (измеряется в часах) Интеллект (измеряется с использованием оценки IQ)

Зависимая переменная — это просто переменная, которая зависит от независимых переменных. Например, в нашем случае тестовая отметка, которую получает студент, зависит от времени проверки и интеллекта.Хотя время проверки и интеллект (независимые переменные) могут (или не могут) вызвать изменение тестовой отметки (зависимая переменная), обратное утверждение маловероятно; Другими словами, хотя количество часов, которые студент тратит на повторение, и более высокий показатель IQ студента может (или не может) изменить контрольную отметку, которую получает студент, изменение контрольной отметки студента не влияет на то, исправляет ли студент более или более умный (это просто не имеет смысла).

Таким образом, цель исследования преподавателя состоит в том, чтобы проверить, приводят ли эти независимые переменные — время проверки и IQ — к изменению зависимой переменной, результатов тестов студентов.Однако стоит также отметить, что, хотя это и является основной целью эксперимента, преподавателю также может быть интересно узнать, связаны ли каким-либо образом независимые переменные — время проверки и IQ.

В следующем разделе, посвященном экспериментальным и неэкспериментальным исследованиям, мы узнаем немного больше о природе независимых и зависимых переменных.

Что такое дихотомические переменные? (Определение и пример)


Дихотомическая переменная — это тип переменной, которая принимает только два возможных значения.

Некоторые примеры дихотомических переменных включают:

  • Пол: мужской или женский
  • Подбрасывание монет: решка или решка
  • Тип недвижимости: Жилая или коммерческая
  • Статус спортсмена: профессионал или любитель
  • Результаты экзамена: сдано или не сдано

Эти типы переменных встречаются на практике постоянно. Например, рассмотрим следующий набор данных, содержащий 10 наблюдений и 4 переменные:

Переменные , пол, и , выигранный чемпионат , дихотомичны, потому что каждая из них может принимать только два возможных значения:

Однако переменные Раздел и Средние точки не являются дихотомическими, поскольку они могут принимать несколько значений.

Бонусный совет:

Вы можете помнить, что дихотомические переменные могут принимать только два значения, помня, что префикс «ди» — это греческое слово, которое означает «два», «дважды» или «дважды».

Как создавать дихотомические переменные

Стоит отметить, что мы можем создать дихотомическую переменную из непрерывной переменной, просто разделив значения на основе некоторого порога.

Например, в предыдущем наборе данных мы могли превратить переменную Средние баллы в дихотомическую переменную, классифицируя игроков со средним баллом выше 15 как «высокие баллы», а игроков со средним баллом ниже 15 как «с низким баллом»:

Как визуализировать дихотомические переменные

Обычно мы визуализируем дихотомические переменные, используя простую гистограмму, чтобы представить частоту каждого значения, которое она может принимать.

Например, следующая гистограмма показывает частоту появления каждого пола в предыдущем наборе данных:

Мы также можем отображать частоты в процентах по оси Y:

Это позволяет нам легко увидеть, что 70% всех спортсменов в наборе данных — мужчины, а 30% — женщины.

Как анализировать дихотомические переменные

Есть несколько способов анализа дихотомических переменных. Два наиболее распространенных способа включают:

1.Z-тест одной пропорции

Z-тест одной пропорции определяет, равна ли какая-то наблюдаемая пропорция теоретической.

Например, мы могли бы использовать этот тест, чтобы определить, равна ли истинная доля спортсменов-мужчин в некоторой популяции 50%.

2. Точечно-бисериальная корреляция

Точечно-бисериальная корреляция используется для измерения взаимосвязи между дихотомической переменной и непрерывной переменной.

Этот тип корреляции принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную корреляцию между двумя переменными
  • 0 указывает на отсутствие корреляции между двумя переменными
  • 1 указывает на абсолютно положительную корреляцию между двумя переменными

Например, мы могли бы вычислить двухрядную корреляцию между полом и средним количеством очков за игру, чтобы понять, насколько сильно связаны эти две переменные.

уровней измерения — статистические решения

Существует множество способов описания и анализа ваших данных в зависимости от уровня их измерения. Уровень измерения вашей переменной описывает характер информации, которую предоставляет переменная. Есть два основных типа переменных: категориальные и непрерывные.

Категориальные переменные — это переменные, которые имеют дискретные категории или уровни. Категориальные переменные могут быть определены как номинальные, дихотомические или порядковые.Номинальные переменные описывают категории, для которых нет определенного порядка. К ним относятся этническая принадлежность или пол. Чтобы запомнить, какой тип данных описывают номинальные переменные, подумайте, что nominal = name . Дихотомические переменные — это категориальные переменные с двумя уровнями. Они могут включать да / нет, высокий / низкий или мужской / женский. Чтобы запомнить это, подумайте, что di = two. У порядковых переменных есть еще две категории, которые можно упорядочить или ранжировать. Например, переменная с данными ответа в диапазоне от Я категорически не согласен с до Я полностью согласен, что будет считаться порядковым номером.Имейте в виду, что исследователи могут иногда рассматривать порядковые переменные как непрерывные, если у них более пяти категорий. Чтобы запомнить этот тип переменной, представьте, что порядковый номер = порядок.

Получите одобрение вашей диссертации

Мы ежедневно работаем с аспирантами и знаем, что нужно сделать, чтобы ваше исследование было одобрено.

  • Отзыв адресной комиссии
  • Дорожная карта до завершения
  • Узнайте о своих потребностях и сроках

Непрерывные переменные измеряются численно и имеют бесконечное количество возможных значений.Например, возрастная переменная, измеряемая непрерывно, может иметь значение 23 487 лет — если вы хотите получить это конкретное значение! Непрерывная переменная считается коэффициентом, если у нее есть значимая нулевая точка (например, возраст или расстояние). Непрерывная переменная считается интервалом, если ее можно измерить вдоль континуума, который имеет фиксированные значения между двумя точками, но не имеет значимой нулевой точки (например, температура, измеренная в градусах Фаренгейта или Цельсия).

Уровень измерения ваших переменных влияет на то, какой анализ вы можете проводить.В таблице ниже представлены некоторые примеры комбинаций уровней измерения и предлагаемый анализ для проведения.

Независимый уровень переменной Зависимый уровень переменной Анализ
Дихотомический Непрерывный Независимые выборки или

d 9018 Линейный 9018 Регрессионный 9017 Nest323 Непрерывный

ANOVA
Непрерывный Непрерывный Линейная регрессия, корреляция Пирсона
Непрерывная или категориальная Дихотомическая Логистическая или логическая Бинарная или логическая 3
Категориальная Категориальная Хи-квадрат

Типы переменных и часто используемые статистические модели — StatPearls

Проблемы, вызывающие озабоченность

Лица, которые пытаются провести исследование и выбрать неправильный дизайн, могут выбрать ошибочный тест и сделать ошибочные выводы.Это решение может привести к отклонению работы для публикации или (что еще хуже) к ошибочному принятию клинических решений, что приведет к небезопасной практике [1]. Понимая типы переменных и выбирая тесты, соответствующие данным, люди могут делать соответствующие выводы и продвигать свою работу для приложения. [3]

Переменные

Чтобы определить, какой статистический план подходит для данных и плана исследования, необходимо сначала изучить масштабы каждого измерения.[4] Несколько типов переменных определяют подходящий дизайн.

Порядковые данные (также иногда называемые дискретными) обеспечивают ранги и, следовательно, уровни степени между измерениями. [5] Элементы Лайкерта могут служить порядковыми переменными, но шкалу Лайкерта, результат постоянного сложения, можно рассматривать как непрерывную переменную [6]. Например, по шкале из 20 пунктов, где каждый элемент находится в диапазоне от 1 до 5, сам элемент может быть порядковой переменной, тогда как если вы сложите все элементы, это может привести к диапазону от 20 до 100.Общее руководство для определения того, является ли переменная порядковой или непрерывной: если переменная имеет более десяти вариантов, ее можно рассматривать как непрерывную переменную [7]. Следующие примеры являются порядковыми переменными:

  • Элементы Лайкерта

  • Стадии рака

  • Год проживания

Номинальный, Категориальный, Дихотомический, Двоичный

Другие типы переменных взаимозаменяемы. Номинальные и категориальные переменные описывают образцы в группах на основе подсчетов, которые попадают в каждую категорию, не имеют количественных соотношений и не могут быть ранжированы.[8] Примеры этих переменных:

  • Услуги (например, неотложная помощь, внутренняя медицина, психиатрия и т. Д.)

  • Этническая принадлежность

  • Способ прибытия (скорая помощь, вертолет, автомобиль)

Дихотомическая или двоичная переменная принадлежит к тому же семейству, что и номинальная / категориальная, но у этого типа есть только два варианта. Бинарная логистическая регрессия, о которой будет сказано ниже, имеет два варианта интересующего результата / анализа. Часто используемые как (да / нет) примеры дихотомических или бинарных переменных:

  • Живые (да vs.нет)

  • Страхование (да и нет)

  • Повторное принятие (да или нет)

В этом обзоре типов переменных мы представим часто используемые статистические модели для различных масштабов измерения . Важно отметить, что перед тем, как принять решение о статистическом тесте, люди должны выполнить исследовательский анализ данных, чтобы убедиться в отсутствии проблем с данными, и рассмотреть ошибки типа I, типа II и анализ мощности. Кроме того, исследователи должны обеспечить соответствующие статистические допущения.[9] [10] Например, параметрические тесты, в том числе некоторые из них, обсуждаемые ниже (t-тесты, дисперсионный анализ (ANOVA), корреляция и регрессия), требуют, чтобы данные имели нормальное распределение и чтобы дисперсии внутри каждой группы были аналогично. [6] [11] После устранения любых проблем на основе исследовательского анализа данных и снижения вероятности совершения ошибок типа I и типа II можно выбрать статистический тест. Ниже приводится краткое введение в каждый из обычно используемых статистических планов с примерами каждого типа.Пример одного направления исследования с обсуждением каждого типа статистического дизайна можно найти в таблице 1, чтобы предоставить больше примеров обычно используемых статистических планов.

Обычно используемые статистические модели

Т-тест независимых выборок

Т-тест независимых выборок позволяет сравнивать две группы субъектов по одной (непрерывной) переменной. Примеры биомедицинских исследований включают сравнение результатов лечения с контрольной группой и сравнение различий, основанных на полу (мужчины или мужчины.женский пол).

Пример: Имеет ли соблюдение кетогенной диеты (да / нет; две группы) различное влияние на общее время сна (минуты; непрерывный)?

Парный T-тест

Парный t-тест анализирует одну совокупность выборок, измеряя одну и ту же переменную в двух разных случаях; это часто полезно для интервенционных и образовательных исследований.

Пример : Улучшает ли участие в исследовательской программе (одна группа с вмешательством) результаты теста для измерения исследовательской компетентности (непрерывно)?

Односторонний дисперсионный анализ (ANOVA)

Дисперсионный анализ (ANOVA), как расширение t-критерия, определяет различия между более чем двумя группами или независимыми переменными на основе зависимой переменной.[11] ANOVA предпочтительнее проведения нескольких t-тестов, поскольку он снижает вероятность совершения ошибки типа I.

Пример: Существуют ли различия в продолжительности пребывания в больнице (непрерывно) в зависимости от способа прибытия (автомобиль, скорая помощь, вертолет, три группы)?

ANOVA с повторными измерениями

Другая процедура, обычно используемая, если данные для отдельных лиц повторяются (многократно измеряются), — это ANOVA с повторными измерениями. [1] В этих исследованиях у участников собираются множественные измерения зависимой переменной.[11] ANOVA с повторными измерениями внутри субъектов определяет эффекты, основанные только на переменной лечения, тогда как смешанные ANOVA позволяют учитывать как межгрупповые эффекты, так и внутри субъектов.

Внутри-субъекты Пример: Как кетамин влияет на среднее артериальное давление (непрерывная переменная) с течением времени (повторное измерение)?

Смешанный пример: Различается ли среднее артериальное давление (постоянное) у мужчин и женщин (две группы; смешанное) на кетамине на протяжении хирургической процедуры (с течением времени; повторное измерение)?

Непараметрические критерии

Непараметрические критерии, такие как U-критерий Манна-Уитни (две группы; непараметрический t-критерий), критерий Краскала Уоллиса (несколько групп; непараметрический ANOVA), ро Спирмена (непараметрический коэффициент корреляции). использоваться, когда данные являются порядковыми или ненормальными.[3] [5] Отсутствие требования о нормальности означает, что эти тесты позволяют анализировать искаженные данные; они требуют соответствия меньшему количеству предположений. [11]

Пример: существует ли связь между страховым статусом (две группы) и стадией рака (порядковый номер)?

Хи-квадрат

Тест хи-квадрат определяет влияние отношений между категориальными переменными, которое определяет частоты и пропорции, в которые эти переменные попадают. [11] Подобно другим обсуждаемым тестам, варианты и расширения теста хи-квадрат (например,g., точный критерий Фишера, критерий Макнемара) может быть подходящим в зависимости от переменных. [8]

Пример: существует ли связь между людьми, принимающими метамфетамин в их организме (да или нет; дихотомия) и полом (мужчина или женщина; дихотомия)?

Корреляция

Корреляционные (взаимозаменяемые с «ассоциациями») образцы сигналов в данных между переменными. [1] Положительная связь возникает, если значения одной переменной увеличиваются, как и значения другой.Отрицательная ассоциация возникает, если переменные в одном случае уменьшаются, а другие увеличиваются. Коэффициент корреляции, выраженный как r, , описывает силу связи: значение 0 означает отсутствие связи, и связь усиливается по мере приближения r к 1 (положительная связь) или -1 (отрицательная связь) [5].

Пример: Существует ли взаимосвязь между возрастом (непрерывно) и удовлетворенностью результатами обследования жизни (непрерывно)?

Линейная регрессия

Регрессия позволяет исследователям определять степень взаимосвязи между зависимой переменной и независимыми переменными и приводит к уравнению для прогнозирования.[11] В методах регрессии можно использовать большое количество переменных.

Пример: Какие показатели госпитализации (многократные непрерывные) лучше всего предсказывают общую продолжительность пребывания (минуты; непрерывно)?

Двоичная логистическая регрессия

Этот тип регрессии, целью которого является прогнозирование результата, подходит, когда зависимая переменная или интересующий результат является бинарным или дихотомическим (да / нет; вылечено / не вылечено) [12].

Пример: какие результаты панели (кратные непрерывные, порядковые, категориальные, дихотомические) лучше всего предсказывают, будет ли у человека положительный посев крови (дихотомический / бинарный)?

Пример одного направления исследования с обсуждаемым типом статистического дизайна можно найти в таблице 1, чтобы предоставить больше примеров обычно используемых статистических планов.

(см. Типы переменных и статистические схемы, Таблицу 1)

Стоимость дихотомии непрерывных переменных

Измерения непрерывных переменных проводятся во всех отраслях медицины, что помогает в диагностике и лечении пациентов. В клинической практике полезно маркировать людей как имеющих или не имеющих признак, например, «гипертоник», «ожирение» или «высокий холестерин», в зависимости от значения непрерывной переменной.

Категоризация непрерывных переменных также обычна в клинических исследованиях, но здесь такая простота достигается за счет некоторой цены.Хотя группировка может помочь в представлении данных, особенно в таблицах, категоризация не требуется для статистического анализа и имеет ряд серьезных недостатков. Здесь мы рассматриваем влияние преобразования непрерывных данных в две группы (дихотомия), поскольку это наиболее распространенный подход в клинических исследованиях. 1

Каковы очевидные преимущества разделения всех людей на две группы? Распространенным аргументом является то, что это значительно упрощает статистический анализ и приводит к легкой интерпретации и представлению результатов.Бинарное разбиение — например, по медиане — приводит к сравнению групп лиц с высокими или низкими значениями измерения, что в простейшем случае приводит к тесту t или критерию χ 2 и оценке разница между группами (с ее доверительным интервалом). Однако в целом нет веских оснований предполагать, что существует основная дихотомия, а если она существует, то нет причин, по которым она должна быть на медиане. 2

Дихотомия приводит к нескольким проблемам.Во-первых, теряется много информации, поэтому статистическая мощность для обнаружения связи между переменной и исходом для пациента снижается. Действительно, разделение переменной на медианное значение снижает мощность на ту же величину, что и отбрасывание трети данных. 2 , 3 Умышленное отбрасывание данных, безусловно, нецелесообразно, когда исследования уже имеют тенденцию быть слишком маленькими. Дихотомизация также может увеличить риск того, что положительный результат окажется ложноположительным. 4 Во-вторых, можно серьезно недооценить степень различий в результатах между группами, таких как риск какого-либо события, и значительная вариативность может быть отнесена к каждой группе.Особи, находящиеся рядом с точкой отсечения, но по разные стороны от нее, характеризуются скорее как очень разные, чем очень похожие. В-третьих, использование двух групп скрывает любую нелинейность в отношении между переменной и результатом. Предположительно, многие из тех, кто проводит дихотомию, не осознают последствий.

Если используется дихотомизация, где должна быть точка отсечения? Для нескольких переменных существуют признанные пороговые значения, такие как> 25 кг / м 2 для определения «избыточного веса» на основе индекса массы тела.Для некоторых переменных, таких как возраст, обычно берется круглое число, обычно кратное пяти или 10. Можно принять точку отсечения, использованную в предыдущих исследованиях. В отсутствие предварительной точки отсечения наиболее распространенным подходом является выбор медианы. Однако использование медианы выборки подразумевает, что в разных исследованиях будут использоваться различные пороговые значения, так что их результаты будет нелегко сравнивать, что серьезно затрудняет метаанализ наблюдательных исследований. 5 Тем не менее, все эти подходы предпочтительнее выполнения нескольких анализов и выбора того, который дает наиболее убедительный результат.Использование этой так называемой «оптимальной» точки отсечки (обычно такой, которая дает минимальное значение P) сопряжено с высоким риском ложно значимого результата; разница в переменной результата между группами будет переоценена, возможно, значительно; и доверительный интервал будет слишком узким. Эту стратегию никогда не следует использовать. 6 , 7

Когда регрессия используется для корректировки эффекта смешивающей переменной, дихотомизация несет риск того, что существенная часть смешивающей переменной останется. 4 , 7 Дихотомизация мало используется в эпидемиологических исследованиях, где предпочтительнее использовать несколько категорий. Использование нескольких категорий (для создания «порядковой» переменной) обычно предпочтительнее дихотомии. При использовании четырех или пяти групп потеря информации может быть довольно небольшой, но анализ сопряжен со сложностями.

Вместо категоризации непрерывных переменных мы предпочитаем сохранять их непрерывными. Тогда мы могли бы использовать линейную регрессию, а не, например, двухвыборочный тест t .Если бы мы были обеспокоены тем, что линейная регрессия не будет действительно отражать связь между результатом и переменной-предиктором, мы могли бы изучить, может ли какое-либо преобразование (например, логарифмическое преобразование) быть полезным.

Написать ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *