5 видов регрессии и их свойства. При помощи построения регрессионных… | by Margarita M | NOP::Nuances of Programming
Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются эффективными, так как их легко понять и использовать. Однако, такая простота также имеет несколько недостатков, и во многих случаях лучше выбирать другую регрессионную модель. Существует множество видов регрессии, каждый из которых имеет свои достоинства и недостатки.
Мы познакомимся с 7 наиболее распространенными алгоритмами регрессии и опишем их свойства. Также мы узнаем, в каких ситуация и с какими видами данных лучше использовать тот или иной алгоритм. В конце мы расскажем о некоторых инструментах для построения регрессии и поможем лучше разобраться в регрессионных моделях в целом!
Линейная регрессияРегрессия — это метод, используемый для моделирования и анализа отношений между переменными, а также для того, чтобы увидеть, как эти переменные вместе влияют на получение определенного результата. Линейная регрессия относится к такому виду регрессионной модели, который состоит из взаимосвязанных переменных. Начнем с простого. Парная (простая) линейная регрессия — это модель, позволяющая моделировать взаимосвязь между значениями одной входной независимой и одной выходной зависимой переменными с помощью линейной модели, например, прямой.
Более распространенной моделью является множественная линейная регрессия, которая предполагает установление линейной зависимости между множеством входных независимых и одной выходной зависимой переменных. Такая модель остается линейной по той причине, что выход является линейной комбинацией входных переменных. Мы можем построить модель множественной линейной регрессии следующим образом:
Y = a_1*X_1 + a_2*X_2 + a_3*X_3 ……. a_n*X_n + b
Где a_n — это коэффициенты, X_n — переменные и b — смещение. Как видим, данная функция не содержит нелинейных коэффициентов и, таким образом, подходит только для моделирования линейных сепарабельных данных. Все очень просто: мы взвешиваем значение каждой переменной X_n с помощью весового коэффициента a_n. Данные весовые коэффициенты a_n, а также смещение b вычисляются с применением стохастического градиентного спуска. Посмотрите на график ниже в качестве иллюстрации!
Иллюстрация поиска оптимальных параметром для линейной регрессии с помощью градиентного спускаНесколько важных пунктов о линейной регрессии:
- Она легко моделируется и является особенно полезной при создании не очень сложной зависимости, а также при небольшом количестве данных.
- Обозначения интуитивно-понятны.
- Чувствительна к выбросам.
Для создания такой модели, которая подойдет для нелинейно разделяемых данных, можно использовать полиномиальную регрессию. В данном методе проводится кривая линия, зависимая от точек плоскости. В полиномиальной регрессии степень некоторых независимых переменных превышает 1. Например, получится что-то подобное:
Y = a_1*X_1 + (a_2)²*X_2 + (a_3)⁴*X_3 ……. a_n*X_n + b
У некоторых переменных есть степень, у других — нет. Также можно выбрать определенную степень для каждой переменной, но для этого необходимы определенные знания о том, как входные данные связаны с выходными. Сравните линейную и полиномиальную регрессии ниже.
Линейная и полиномиальная регрессии с нелинейно разделенными даннымиНесколько важных пунктов о полиномиальной регрессии:
- Моделирует нелинейно разделенные данные (чего не может линейная регрессия). Она более гибкая и может моделировать сложные взаимосвязи.
- Полный контроль над моделированием переменных объекта (выбор степени).
- Необходимо внимательно создавать модель. Необходимо обладать некоторыми знаниями о данных, для выбора наиболее подходящей степени.
- При неправильном выборе степени, данная модель может быть перенасыщена.
В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии становятся неэффективными. Коллинеарность — это отношение независимых переменных, близкое к линейному. Наличие высокой коллинеарности можно определить несколькими путями:
- Коэффициент регрессии не важен, несмотря на то, что, теоретически, переменная должна иметь высокую корреляцию с Y.
- При добавлении или удалении переменной из матрицы X, коэффициент регрессии сильно изменяется.
- Переменные матрицы X имеют высокие попарные корреляции (посмотрите корреляционную матрицу).
Сначала можно посмотреть на функцию оптимизации стандартной линейной регрессии для лучшего понимания того, как может помочь гребневая регрессия:
min || Xw — y ||²
Где X — это матрица переменных, w — веса, y — достоверные данные. Гребневая регрессия — это корректирующая мера для снижения коллинеарности среди предикторных переменных в регрессионной модели. Коллинеарность — это явление, в котором одна переменная во множественной регрессионной модели может быть предсказано линейно, исходя из остальных свойств со значительной степенью точности. Таким образом, из-за высокой корреляции переменных, конечная регрессионная модель сведена к минимальным пределам приближенного значения, то есть она обладает высокой дисперсией.
Гребневая регрессия добавляет небольшой фактор квадратичного смещения для уменьшения дисперсии:
min || Xw — y ||² + z|| w ||²
Такой фактор смещения выводит коэффициенты переменных из строгих ограничений, вводя в модель небольшое смещение, но при этом значительно снижая дисперсию.
Несколько важных пунктов о гребневой регрессии:
- Допущения данной регрессии такие же, как и в методе наименьших квадратов, кроме того факта, что нормальное распределение в гребневой регрессии не предполагается.
- Это уменьшает значение коэффициентов, оставляя их ненулевыми, что предполагает отсутствие отбора признаков.
В регрессии лассо, как и в гребневой, мы добавляем условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели. Но вместо квадратичного смещения, мы используем смещение абсолютного значения:
min || Xw — y ||² + z|| w ||
Существует несколько различий между гребневой регрессией и лассо, которые восстанавливают различия в свойствах регуляризаций L2 и L1:
- Встроенный отбор признаков — считается полезным свойством, которое есть в норме L1, но отсутствует в норме L2. Отбор признаков является результатом нормы L1, которая производит разреженные коэффициенты. Например, предположим, что модель имеет 100 коэффициентов, но лишь 10 из них имеют коэффициенты отличные от нуля. Соответственно, «остальные 90 предикторов являются бесполезными в прогнозировании искомого значения». Норма L2 производит неразряженные коэффициенты и не может производить отбор признаков. Таким образом, можно сказать, что регрессия лассо производит «выбор параметров», так как не выбранные переменные будут иметь общий вес, равный 0.
- Разряженность означает, что незначительное количество входных данных в матрице (или векторе) имеют значение, отличное от нуля. Норма L1 производит большое количество коэффициентов с нулевым значением или очень малые значения с некоторыми большими коэффициентами. Это связано с предыдущим пунктом, в котором указано, что лассо исполняет выбор свойств.
- Вычислительная эффективность: норма L1 не имеет аналитического решения в отличие от нормы L2. Это позволяет эффективно вычислять решения нормы L2. Однако, решения нормы L1 не обладают свойствами разряженности, что позволяет использовать их с разряженными алгоритмами для более эффективных вычислений.
Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии. Она использует как L1, так и L2 регуляризации, учитывая эффективность обоих методов.
min || Xw — y ||² + z_1|| w || + z_2|| w ||²
Практическим преимуществом использования регрессии лассо и гребневой регрессии является то, что это позволяет эластичной сети наследовать некоторую стабильность гребневой регрессии при вращении.
Несколько важных пунктов о регрессии эластичной сети:
- Она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как метод лассо.
- Нет ограничений по количеству выбранных переменных.
Вот и все! 5 распространенных видов регрессии и их свойства. Все данные методы регуляризации регрессии (лассо, гребневая и эластичной сети) хорошо функционирует при высокой размерности и мультиколлинеарности среди переменных в наборе данных.
Перевод статьи George Seif: 5 Types of Regression and their properties
10 типов регрессии – какой выбрать?
Сегодня мы расскажем о десяти основных видах регрессии и подскажем, какой из них выбрать исходя из контекста поставленной задачи.
Линейная или логистическая? Видов регрессии – сотни, и разобраться с ними порой бывает очень сложно. На основании практического опыта аналитиков и специалистов в области Data Science мы составили список из десяти самых распространенных регрессий, подкрепив их примерами использования для решения различных задач.
1. Линейная регрессия – «старейший» тип, появившийся два с половиной века назад. Вычисления на малых наборах данных с ее помощью легко провести даже вручную. Современные примеры использования включают интерполяцию, однако для реальных прогнозов и упреждающего анализа линейная регрессия не подходит. Плюс ко всему, на современных данных, которым свойственна весьма хаотичная структура, этот тип регрессии склонен «лагать»: сверхточность линейной регрессии, когда модель слишком хорошо работает на одном наборе данных, и из рук вон плохо на другой, тогда как она должна бы описывать общие закономерности, делает ее нестабильной практически во всех случаях.
Целевая функция линейной регрессионной модели (, где — параметры модели, — случайная ошибка модели ) имеет вид , где — параметры (коэффициенты) регрессии, — регрессоры (факторы модели), k — количество факторов модели.
2. Логистическая регрессия широко используется в клинических испытаниях, определении количественных показателей и, например, определении мошенничества, когда ответ может быть получен в двоичном виде («да»/«нет») – для тестируемого препарата или транзакции по кредитной карте. Обладает некоторыми недостатками, свойственными линейной регрессии – низкая устойчивость к ошибкам, зависимость от набора данных, но в общем работает лучше, и может быть приведена к виду линейной регрессии для упрощения вычислений. Некоторые версии – к примеру, регрессия Пуассона – усовершенствованы для использования в случае необходимости получения недвоичного ответа – классификации, возрастных групп и даже регрессионных деревьев.
Делается предположение, что вероятность наступления события равна: где , и — векторы-столбцы значений независимых переменных и параметров (коэффициентов регрессии) — вещественных чисел , соответственно, а — так называемая логистическая функция (иногда также называемая логит-функцией):
Ридж-регрессия или гребневая регрессия предполагает оценку параметров по следующей формуле:
4. Лассо-регрессия сходна с гребневой, за исключением того, что коэффициенты регрессии могут равняться нулю (часть признаков при этом исключается из модели).
5. Так называемая экологическая регрессия используется в случаях, когда данные разделены на достаточно большие пласты или группы (регрессия применяется к каждой из них по отдельности) – к примеру, этот тип регрессии используется в политологии для оценки группового поведения избирателей исходя из сводных данных. Следует, однако, остерегаться «проклятия больших данных»: если происходит подсчет миллионов регрессий, какие-то из моделей могут быть абсолютно неточными, и удачные модели окажутся «задавленными» моделями шумными c высокой (и, естественно, искусственной) степенью согласия. Поэтому такой вид регрессии не подходит для прогнозирования экстремальных событий (землетрясения) и исследования причинных взаимосвязей (глобальное потепление).
6. Байесовская регрессия похожа на гребневую регрессию, однако основана на том допущении, что в данных шум (ошибка) распределен нормально – соответственно, предполагается, что общее понимание о структуре данных уже имеется, и это дает возможность получать более точную модель (по сравнению с линейной регрессией уж точно). Однако на практике, особенно если мы имеем дело с большими данными, первоначальные знания о данных не могут похвастаться точностью, поэтому предположение строится на основании сопряженных величин, то есть оно искусственно по своей сути – и это существенный недостаток данного типа регрессии.
Наблюдаемая переменная вычисляется так:
ошибка распределена нормально:
7. Логическая регрессия используется, когда все переменные имеют двоичную природу – в особенности, в алгоритмах определения количественных показателей. Это специализированная, более точная форма логистической регрессии, использующаяся для определения случаев мошенничества, когда все переменные приведены к двоичному виду.
, где – булева комбинация сопряженных величин
8. Квантильная регрессия используется в связи с экстремальными событиями – этот тип предполагает намеренное введение смещения в результат, повышая точность модели.
9. LAD-регрессия
10. Джекнайф-регрессия (метод складного ножа) – новый тип регрессии, использующийся в целях кластеризации и прореживания данных. При этом «складной нож» не обладает недостатками классических типов, предоставляя приблизительное, но при этом очень точное и устойчивое к ошибкам решение задач на регрессию, отлично работает с «независимыми» переменными, которые коррелируют или не могут «похвастать» нормальным распределением. Считается, что этот тип регрессии идеален для алгоритмов прогнозирования типа «черный ящик» — он прекрасно аппроксимирует линейную регрессию без потери точности и работает даже в тех случаях, когда допущения традиционной регрессии (не коррелирующие переменные, нормальное распределение данных, постоянная условная дисперсия) принять невозможно в силу особенностей данных.
Пусть дана выборка . В вероятностно-статистической теории предполагаем, что это — набор независимых одинаково распределенных случайных величин. Пусть интересует некоторая статистика Идея, которую предложил в 1949 г. М. Кенуй (это и есть «метод складного ножа») состоит в том, чтобы из одной выборки сделать много, исключая по одному наблюдению (и возвращая ранее исключенные). Перечислим выборки, которые получаются из исходной:
Всего n новых (размноженных) выборок объемом (n-1) каждая. По каждой из них можно рассчитать значение интересующей эконометрика статистики (с уменьшенным на 1 объемом выборки):
Полученные значения статистики позволяют судить о ее распределении и о характеристиках распределения — о математическом ожидании, медиане, квантилях, разбросе, среднем квадратическом отклонении.
Автор: Елизавета Филиппова
Общие регрессионные модели
Общие регрессионные моделиОбщие регрессионные модели (GRM)
Модуль Общие регрессионные модели (GRM) включает в себя методы анализа общих линейных моделей и позволяет строить модели планов эффектов с множественными степенями свободы для категориальных предикторов и планы анализа эффектов с одной степенью свободы непрерывных предикторов. В GRM используется пошаговая техника и методы наилучшего подмножества Дисперсионного анализа (ANOVA), регрессии и анализа ковариаций (ANCOVA). Для построения и оценки включенных в модель итоговых эффектов в GRM используется метод наименьших квадратов общих линейных моделей.
Основные идеи: Использование простых моделей
Хорошая теория является результатом процесса сложных и одновременно красивых исследований. Мы начинаем наши исследования с модели, которая включает все возможные, поддающиеся изучению факторов влияющих на цель нашего исследования. Затем, проводим тестирования элементов начальной модели, с целью выявления менее сложных моделей, адекватно описывающих цель исследований. В итоге из упрощенных моделей выделяем наипростейшую модель, которая по принципу «простоты» будет являться «наилучшей» интерпретацией нашей цели исследования.
Выбирая более простую модель, мы руководствуемся не только философскими побуждениями, а скорее практическими. Простые модели намного легче тестировать во время кросс-проверки и повторного использования. С другой стороны, простые модели намного легче использовать в будущем с точки зрения стоимости получения отклика и значений предикторов. Так же не стоит преуменьшать философские основы простых моделей. Простые модели намного легче для понимания и зачастую намного «красивее» более сложных.
Процесс исследования, описанный выше, сосредоточен в технике построения модели пошаговой регрессии или регрессии наилучшего подмножества. Использование данной техники начинается с момента задания плана «общей модели.» Затем производится тестирование упрощенных подмоделей, с целью определить адекватность описания. В итоге принимаем одну из простых моделей в качестве «наилучшей.»
Построение модели в GRM
В отличие от модели множественной регрессии, в которой анализируются планы с непрерывными предикторами, планы общих линейных моделей используются при анализе планов Дисперсионного анализа с категориальными предикторами, планов Ковариационного анализа с категориальными и непрерывными предикторами и регрессионных планов с непрерывными предикторами. Эффекты категоризованных предикторов представляются в виде матрицы плана X используя либо перепараметризованную модель, либо сигма-ограниченную модель.
Для построения модели используется сигма-ограниченная параметризация. На основе точного определения, общие линейные модели используются для анализа планов эффектов категориальных предикторов, которые закодированы каким либо методом. В большинстве случаев использования общих линейных моделей, метод параметризации категориальных предикторов, будь то сигма-ограниченный метод или перепараметризованный метод, выбирается произвольным образом. При построение модели, выбор перепараметризованной модели в качестве параметризации является не самым удачным решением; эффекты низких порядков категориальных предикторов вместе с эффектами высокого порядка, содержащих взаимодействия, будут избыточными, что может привести к резкой потери качества оценивания.
При использовании сигма-ограниченной параметризации категориальных предикторов, данная проблема не возникает, поэтому данный вид параметризации используется в модуле GRM.
Планы, которые нельзя представить при помощи сигма-ограниченной параметризации. Сигма-ограниченный тип параметризации используется в большинстве планов, но не во всех. Например, планы, которые нельзя представить при помощи сигма-ограниченной параметризации, основываются на планах гнездовых эффектов, такие как: гнездовой ДА, неоднородные коэффициенты наклона и смешанные модели со случайными эффектами. Все остальные типы планов Дисперсионного анализа, Ковариационного анализа или регрессионного анализа можно представить при помощи сигма-ограниченной параметризации и проанализировать в модуле GRM.
Построение модели планов с несколькими зависимыми переменными. Построение модели при помощи пошаговой и наилучшего подмножества техники является наиболее разработанным методом построения регрессионных планов для одной зависимой переменной (например, смотри Cooley и Lohnes, 1971; Darlington, 1990; Hocking Lindeman, Merenda и Gold, 1980; Morrison, 1967; Neter, Wasserman и Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). При помощи сигма-ограниченного кодирования и методов общих линейных моделей, данные способы построения моделей можно применять ко всем моделям Дисперсионного анализа с одним категориальным предиктором, моделям Ковариационного анализа и регрессионных планов для непрерывных переменных. Построение планов с несколькими зависимыми переменными требует рассуждений и предположений, которые, как правило, не входят в общие линейные модели. Методы построения и анализа планов с несколькими зависимыми переменными вы найдете в модуле Моделирование структурными уравнениями.
Виды анализа
При помощи сигма-ограниченного кодирования матрицы плана X можно представить большинство различных видов планов. Все эти планы можно проанализировать при помощи общих линейных моделей. Ниже приведены разделы, в которых описываются данные планы и их различия. Несколько основных типов различий следуют из того, что почти все планы можно представить в виде «гибридов» или комбинаций различных типов основных планов.
Межгрупповые планы
Вводный обзор
Уровни или значения предикторных переменных анализа описывают различия между анализируемыми n объектами или n допустимыми наблюдениями одного объекта. Таким образом, когда мы говорим об анализе межгруппового плана, мы подразумеваем природу, число и порядок предикторных переменных.
Планы, содержащие только категориальные предикторы, называются планами Дисперсионного анализа (ANOVA/MANOVA планы), межгрупповые планы, содержащие только непрерывные предикторы, называются регрессионными планами и межгрупповые планы, содержащие оба типа предикторов, называются ковариационными планами (ANCOVA планы).
Межгрупповые планы, содержащие только один предиктор, называются простыми (например, простые регрессионные планы), планы, содержащие несколько предикторов — составными или множественными планами (например, планы множественной регрессии).
Относительно порядка предикторов: некоторые межгрупповые планы содержат только «главные эффекты» или предикторы первого порядка, что эквивалентно тому что, значения различных предикторов независимы и входят в модель в первой степени. Некоторые межгрупповые планы могут содержать высокого порядка элементы предикторов, путем возведения значений исходных предикторов в степень больше 1 (например, планы полиномиальной регрессии) или включать произведения различных предикторов (т.е., элементы взаимодействия). Стандартным типом планов для Дисперсионного анализа является полный факторный план, в который входят все возможные комбинации уровней каждого категориального предиктора. Планы, не содержащие некоторых комбинаций, называются дробными планами.
Данное описание имеющихся различий в природе, числе и порядке предикторов характеризует все основные типы межгрупповых планов. Ниже приведены более подробные описания основных типов планов.
Простая регрессия
В планах простой регрессии используется только один непрерывный предиктор. Предположим, что у нас есть три наблюдения непрерывного предиктора P: 7, 4, и 9, и есть план анализа для эффекта первого порядка P. Тогда матрица X будет выглядеть следующим образом:
уравнения регрессии с использованием P для X1 будет выглядеть следующим образом:
Y = b0 + b1P
Если план простой регрессии использует эффекты более высокого порядка P, например, квадратичный эффект то, значения столбца X1 матрицы плана будут возведены во 2ую степень:
уравнения регрессии с использованием P2 для X1 будет выглядеть следующим образом:
Y = b0 + b1P2
В регрессионных планах, значения непрерывного предиктора возводятся в необходимую степень и затем используются в качестве X переменных. Как вы видите, при описании регрессионного плана, намного проще использовать регрессионное уравнение в отличие от матрицы плана X.
Множественная регрессия
Планы Множественной регрессии используются для анализа непрерывных предикторов, так же как, планы Дисперсионного анализа главных эффектов предназначены для категориальных предикторов. Множественная регрессия является простой регрессией для 2 или большего числа непрерывных предикторов. Например, уравнение регрессии для эффектов первого порядка 3 непрерывных предикторов P, Q и R будет выглядеть следующим образом
Y = b0 + b1P + b2Q + b3R
Более полная информация о методах множественной регрессии приведена описании модуля Множественная регрессия.
Факторная регрессия
Факторная регрессия является аналогом факторного Дисперсионного анализа, планы регрессии содержат различные комбинации уровней факторов. Однако, в факторной регрессии, возможное число сочетаний уровней непрерывного предиктора может быть намного больше числа наблюдений. Не вдаваясь в подробности, полный факторный регрессионный план определяется как, план в котором представлены все возможные наблюдения непрерывных предикторов. Например, полный факторный регрессионный план для двух непрерывных предикторов P и Q будет содержать главные эффекты (т.е., эффекты первого порядка) P и Q и эффект их 2-го P на Q взаимодействия, который является произведением значений P и Q, для каждого наблюдения. Уравнение регрессии будет выглядеть следующим образом:
Y = b0 + b1P + b2Q + b3P*Q
Факторный регрессионный план может быть также и дробным, при этом эффекты более высокого порядка можно убрать из плана. Например, дробный факторный регрессионный план 2 степени для 3 непрерывных предикторов P, Q и R будет содержать главные эффекты и все 2-ые взаимодействия предикторов:
Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R
Полиномиальная регрессия
Планы полиномиальной регрессии содержат как главные эффекты, так и эффекты более высоких порядков непрерывных переменных, но при этом не включают в себя взаимодействия предикторов. Например, план полиномиальной регрессии 2 порядка для трех непрерывных предикторов P, Q и R будет содержать главные эффекты (т.е., эффекты первого порядка) переменных P, Q, R и их квадратические (т.е., второго порядка) эффекты но, при этом в план не будут включены 2-ые взаимодействия и эффект тройного взаимодействия P на Q на R.
Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2
Максимальная степень эффектов полиномиальной регрессии может быть разной для разных предикторов. Например, для одного предиктора заданы все эффекты до третьего порядка, а для другого — до четвертого порядка.
Регрессия поверхности отклика
План регрессии поверхности отклика второго порядка является гибридом плана полиномиальной регрессии и плана дробной факторной регрессии. План квадратичной регрессии поверхности отклика содержит эффекты 2-го порядка полиномиальной регрессии и эффекты взаимодействия 2-го порядка предикторов. Например, регрессионное уравнение поверхности отклика второго порядка для 3 непрерывных предикторов P, Q, R будет выглядеть следующим образом:
Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R
Данные типы планов используются в прикладных исследованиях (например, в промышленном планировании и анализе экспериментов). Более подробное описание данных планов представлено в разделе Обзор модуля Планирование эксперимента (смотри Центральные композиционные планы).
Регрессия поверхности смеси
Регрессии поверхности смеси является аналогом факториальной регрессии 2-го порядка без свободного члена. Смеси, как отображено в название, соответствую некоторой константе; сумма пропорций ингредиентов должна составлять 100%. Таким образом, пропорция одного из ингредиентов соответствует остатку от остальных ингредиентов, т.е. число степеней свободы пропорций ингредиентов меньше числа ингредиентов на 1. Понижение размерности модели поверхности смеси обходят путем опущения свободного члена в плане регрессии. Матрица плана для поверхности смеси для 3 непрерывных предикторов P, Q, R будет выглядеть следующим образом:
Y = b1P + b2P2 + b3Q + b4P*Q + b5P*R + b6Q*R
Данные типы планов используются в прикладных исследованиях (например, в промышленном планирование и анализе экспериментов). Более подробное описание данных планов представлено в разделе Обзор модуля Планирование эксперимента (смотри Планы для смесей).
Однофакторный Дисперсионный анализ
Планами однофакторного Дисперсионного анализа называют планы с одним категориальным предиктором. Например, изучение эффектов воздействия 4 различных удобрений на различные виды растений, можно проанализировать при помощи однофакторного ДА, с четырьмя уровнями фактора Удобрение.
Рассмотри категориальный предиктор A, содержащего по 1 наблюдению в каждой из 3 его категорий. Используя сигма-ограниченный способ кодирования A на 2 контрастных переменных, получим матрицу X, задающую матрицу плана:
То есть, наблюдения в группах A1, A2 и A3 соответствуют 1 в столбце X0 (свободный член), наблюдения в группе A1 соответствуют 1 в X1 и значению 0 в X2, наблюдения в группе A2 соответствуют 0 в X1 и 1 в X2 и наблюдения в группе A3 соответствуют -1 в X1 и -1 в X2. Каждое дополнительное наблюдение будет закодировано аналогичным образом. Например, если было бы 1 наблюдение в группе A1, 2 наблюдения в группе A2 и 1 наблюдение в группе A3 то, матрица X выглядела бы так:
где первый индекс A соответствует номеру повторного эксперимента в каждой группе. Для краткости описания, повторные измерения обычно не отображаются при описании матрицы плана Дисперсионного анализа.
Заметьте, что в однофакторных планах, с одинаковым числом наблюдений в каждой группе, сигма-ограниченное кодирование выделяет переменные X1 … Xk со средним равным 0.
Данный простой пример показывает, что использование X матрицы преследует две основных цели. Задание (1) кодирования для каждого уровня предиктора при помощи переменных X, используемых в анализе и (2) отображение природы, числа и порядка расположения переменных X, которые характеризуют межгрупповой план.
Дисперсионный анализ главных эффектов
Дисперсионный анализ главных эффектов предназначен для анализа планов с 2 или большим числом категориальных предикторов. Пример анализа главных эффектов основывается на типичном анализе отсеивающих планов, описанном в контексте модуля Планирование эксперимента.
Рассмотрим 2 категориальных предиктора A и B с 2 категориями, каждый. Использование сигма-ограниченное кодирование X матрицы, задает межгрупповой план:
Заметьте, если в каждой группе содержится одинаковое число наблюдений то, сумма построчных произведений столбцов X1 на X2 равна 0, например, с 1 наблюдением в каждой группе (1*1)+(1*-1)+(-1*1)+(-1*-1) = 0.
Факторный Дисперсионный анализ
Планы факторного Дисперсионного анализа содержат переменные, содержащиеся в X матрице, характеризующие комбинации уровней 2 или более категориальных предикторов (например, изучение мальчиков и девочек в четырех возрастных группах является 2 (Пол) x 4 (Группа) планом). В частности, полный факторный план представляет собой набор всех возможных комбинаций уровней категориальных предикторов. Полный факторный план с 2 категориальными предикторами A и B, каждый с 2 уровнями, называется 2 x 2 полным факторным планом. Используя сигма-ограниченного кодирование, матрица X будет выглядеть так:
Следует прокомментировать некоторые особенности матрицы X. Заметьте что, столбцы X1 и X2 представляют собой главные эффекты (т.е., A и B, соответственно) свертывая по уровням других переменных. Столбец X3 представляет контраст между различными комбинациями уровней A и B. Значения X3 являются результатом произведения значений X1 и X2. Переменная X3 представляет собой взаимодействие эффектов мультипликаторов, в таком случае X3 называют 2-ым взаимодействием A и B. Взаимодействия такого рода произведения переменных и зависимой переменной отображает интерактивное воздействие факторов на отклик до и после их независимого влияния (т.е., главные эффекты) на отклик. Таким образом, факторные планы предоставляют больше информации о взаимодействиях между категориальными предикторами и их откликом на зависимую переменную, чем однофакторные планы или планы главных эффектов.
При изучении влияния большого числа факторов, зачастую, полный факторный план требует очень большого числа наблюдений, чем реально можно получить для анализа, для представления всех возможных комбинаций уровней факторов и взаимодействий между всеми факторами. При большом числе факторов, наиболее приемлемой альтернативой является дробный факторный план. Например, рассмотрим 2 x 2 x 2 дробный факторный план степени 2 с 3 категориальными предикторами, каждый из которых имеет 2 уровня. План будет содержать главные эффекты всех переменных и все 2-ые взаимодействия, но не будут включать 3-ые взаимодействия между всеми тремя переменными. Более детальное рассмотрение данных планов приводится в разделе 2(k-p) Дробные факторные планы главы Вводный обзор модуля Планирование эксперимента.
Ковариационный анализ (ANCOVA)
Межгрупповые планы, содержащие категориальные и непрерывные предикторы, называют ANCOVA планами. Традиционно, ANCOVA планы используются при анализе, в котором при оценке эффектов категориальных предикторов учитываются эффекты первого порядка одного или нескольких непрерывных предикторов. Основные элементы ковариационного анализа, вы сможете найти в главе Ковариационный анализ (ANCOVA) в описании модуля Дисперсионный анализ.
Проиллюстрируем выше сказанное, предположим что, исследователь хочет оценить влияние категориального предиктора A с 3 уровнями на некоторый выход, кроме того, известно, что непрерывный предиктор P коррелируют с выходом. Пусть файл данных представлен следующим образом:
Тогда, матрица плана сигма-ограниченной модели X, содержащего раздельные эффекты первого порядка P и A, будет выглядеть следующим образом:
Коэффициенты b2 и b3 уравнения регрессии
Y = b0 + b1X1 + b2X2 + b3X3
представляют собой влияние, оказываемое элементами группы на категориальный предиктор A, контролирующий влияние значений на непрерывный предиктор P. Аналогичным образом, коэффициент b1 представляет собой влияние значений P на элементы группы A. Данный стандартный пример Ковариационного анализа представляет собой более качественную проверку воздействия A по мере того, как P уменьшает ошибку предсказания, характеризуемую остатками выхода.
Однородность угловых коэффициентов
Данный тип планов используется при анализе влияния непрерывных и категориальных предикторов и их взаимодействий на отклик. Традиционный ковариационный анализ (ANCOVA) для непрерывных и категориальных предикторов используется при отсутствии значимого влияния их взаимодействия на отклик. Для данного типа планов, используем тот же пример что, и для стандартного плана ANCOVA, сигма-ограниченная X матрица для однородных углов наклона будет выглядеть так:
Использование данной матрицы плана X, в случае когда, регрессионные коэффициенты b4 и b5
Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5
равны нулю, эквивалентно использованию плана Ковариационного анализа ANCOVA.
Многомерные планы
План называется многомерным, если в нем присутствует несколько зависимых переменных. Показатели многомерной взаимосвязи, по своей природе, являются намного более сложными структурами, чем одномерные аналоги (например, корреляционные коэффициенты). Это связано с тем что, многомерные показатели должны учитывать не только воздействия предикторов на отклики но, и взаимосвязи среди зависимых переменных. Используя данный подход, получаем что, показатели взаимосвязи должны отражать информацию о силе взаимосвязи между предикторами и зависимыми переменными независимо от взаимосвязи между зависимыми переменными. Обзорную информацию о многомерных планах вы сможете найти в разделе Многомерные планы в описании модуля Дисперсионный анализ.
Наиболее часто используемые показатели меры многомерной зависимости можно представить при помощи функций от собственных значений матрицы произведения E-1H, где E — матрица ошибок SSCP (т.е., матрица суммы квадратов и кросс-произведений зависимых переменных, которые не были учтены в межгрупповом плане), H — SSCP матрица гипотезы (т.е., матрица суммы квадратов и кросс-произведений зависимых переменных, которые были учтены в межгрупповом плане или тоже самое для конкретного эффекта). Если
li = упорядоченные собственные значения матрицы E-1H, и E-1 существует
тогда, наиболее часто используемыми показателями являются:
Лямбда Уилкса = Х1/(1 + li)
След Пиллая = S li / (1 + li)
След Хотеллинга — Лоули = S li
Максимальный корень Роя = li
Данные 4 показателя обладают различными верхними и нижними границами и степенью интерпретации. Например, легче всего интерпретируется Лямбда Уилкса, для которого значения изменяются от 0 и до 1, 1 характеризует отсутствие зависимости, а 0 наличие сильной взаимосвязи между предикторами и откликом. Показатель равный 1 — Лямбда Уилкса иногда интерпретируется как многомерный аналог одномерного показателя R-квадрат, т.е., отражает отношение обобщенной дисперсии зависимых переменных вычисленной на основе предикторов.
Данные 4 показателя используются при построении многомерных критериев значимости, описание которых вы сможете найти в большом количестве различных источников (например, Finn, 1974; Tatsuoka, 1971).
Построение общей модели
Ниже приведены разделы, в которых описывается построение и тестирование гипотез «общей модели» в модуле GRM, например, каким образом разбиты квадраты и насколько хорошо подогнана общая модель.
Разбиение суммы квадратов
В основе метода наименьших квадратов лежит принцип разделения дисперсии зависимой переменной. Предположим, что зависимая переменная является откликом одного или нескольких предикторов и для удобства будем считать что, среднее зависимой переменной равно 0. Последнее предположения является вполне естественным, так как мы всегда можем вычесть из зависимой переменной ее среднее и затем оценивать уже усредненную переменную. В таком случае, сумма квадратов усредненной зависимой переменной идентична сумме квадратов предсказанных значений плюс сумма квадратов остатков. Более формально:
где в левой части стоит сумма квадратов отклонений от среднего наблюдаемых значений зависимой переменной, и соответствующие элементы в правой части (1) сумма квадратов отклонений предсказанных значений зависимой переменной и (2) сумма квадратов отклонений наблюдаемых значений от предсказанных значений зависимой переменной, что эквивалентно сумме квадратов остатков. Формально:
Общая SS = SS Модели + SS Ошибки
Заметьте, что Общая SS является всегда одним и тем же числом для выбранных данных, но при этом SS Модели и SS Ошибки зависят от уравнении регрессии. Полагая, что зависимая переменная имеет среднее 0, получим что, SS Модели и SS Ошибки можно вычислить следующим образом
SS Модели = b’X’Y
SS Ошибки = Y’Y — b’X’Y
Тестирование Общей модели
Обладая компонентами SS Модели и SS Ошибки, вы можете проверить гипотезу о том что, все регрессионные коэффициенты X переменных (с b1 по bk, кроме коэффициента b0 — свободного члена) равны нулю. Данный критерий эквивалентен проверке качества подгонки поверхности регрессии (определяемой уравнением регрессии модели). Предположим, что X’ X является полно-ранговой (не вырожденной) матрицей, тогда гипотеза средних квадратов модели:
MSH = (SS Модели)/k,
где k — число столбцов матрицы X (не включая столбец свободного члена), является оценкой дисперсии предсказанных значений. Усредненный квадрат ошибки:
s2 = MSE = (SS Ошибки) / (n — k — 1),
где n — число наблюдений, оценка дисперсии ошибки или остатков. Проверочная статистика:
F = MSH / MSE,
где F имеет (k, n — k — 1) степеней свободы.
Если X’ X не является полно ранговой, то r + 1 заменяется на k, где r — ранг или число линейно-независимых столбцов X’ X.
Если критерий модели не значим, то проводить дальнейший анализ не имеет смысла, т.е. модель подгоняет данные не лучше, чем модель, содержащая только среднее значение зависимой переменной. Дальнейший поиск адекватной подмодели является бессмысленным, так как общая модель является неадекватной.
Некоторые модели без свободного члена, например, некоторые модели множественной регрессии вычисляют критерии проверки на основе отношения дисперсии без учета средних значений; для получения более полной информации (смотри Kvеlseth, 1985; OKunade, Chang, and Evans, 1993).
Ограничения Общей модели
Для планов, таких как Однофакторный ДА или простой регрессии, проверка общей гипотезы о взаимосвязи предикторов и отклика вложена в саму модель. Для сложных планов, поиск статистически значимых критериев проверки подгонки общей модели является первым шагом анализа; иногда приходится определять более простую подмодель адекватной подгонки данных (смотри Основные идеи: Использование простых моделей). К данному случаю, методы поиска наилучших подмоделей, относятся модели такие как: пошаговый и регрессии наилучших подмножеств.
Построение модели при помощи пошаговой регрессии
Описание пошаговой системы построения регрессионных планов с единственной зависимой переменной приводится в большом количестве статей и различного рода литературе (например, смотри Darlington, 1990; Hocking, 1966, Lindeman, Merenda и Gold, 1980; Morrison, 1967; Neter, Wasserman и Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). Основные процедуры включают: (1) определение и инициализация модели, (2) итеративный «пошаговый,» то есть, повторяющееся преобразование модели путем добавления или вычитание предиктора, исходя из результатов применения «пошагового критерия» и (3) остановка алгоритма после отсутствия возможных следующих итераций или достижения максимального числа шагов.
Начальная модель пошаговой регрессии
Начальной моделью является модель созданная на Шаге 0. Начальная модель всегда включает регрессионный свободный член (если не указано Без свободного члена). Для методов пошаговый с исключением и только с исключением, начальные модели так же включают в себя все эффекты плана анализа. Начальная модель для данных методов является также и общей моделью.
Для методов пошаговый с включением и только с включением, начальная модель всегда содержит свободный член регрессии (если не указано Без свободного члена). Так же начальная модель содержит 1 или более вовлеченных эффектов модели. Если выбрано j вовлеченных эффектов в модель, то первые j эффектов выбранных из общего числа эффектов для включения будут вовлечены в модель на Шаге 0 (более полную информацию вы найдете в описание опции Количество эффектов). Заметьте, что вовлеченные эффекты нельзя удалить на последующих Шагах.
Метод только с включением
Метод с только с включением является наиболее простым методом построения модели в GRM. На каждом шаге, начиная с Шага 0, для каждого допустимого элемента вычисляется статистика включения. Если начиная с некоторого шага все статистики включения не превышают заданный критический уровень включения, то процесс останавливается, в противном случае, эффект с наибольшей статистикой включается в модель. При достижении максимального числа шагов, процедура включения также останавливается.
Метод только с исключением
Метод с только с исключением является наиболее простым методом построения модели в GRM. На каждом шаге, начиная с Шага 0, для каждого допустимого элемента вычисляется статистика исключения. Если начиная с некоторого шага все статистики исключения превышают заданный критический уровень исключения, то процесс останавливается, в противном случае, эффект с наименьшей статистикой исключается из модели. При достижении максимального числа шагов, процедура исключения также останавливается.
Метод с пошаговым включением
Пошаговый метод с включением является комбинацией процедур используемых в методах только с включением и только с исключением. На Шаге 1 выполняется процедура только с включением. На каждом последующем шаге, на котором 2 или более эффектов было выбрано, производится процедура включения или исключения, если выполнены соответствующие для этого условия. Процедура останавливается, если учтены все эффекты или превышено максимальное число шагов.
Метод с пошаговым исключением
Пошаговый метод с исключением является комбинацией процедур используемых в методах только с включением и только с исключением. На Шаге 1 выполняется процедура только с исключением. На каждом последующем шаге, на котором 2 или более эффектов было выбрано, производится процедура включения или исключения, если выполнены соответствующие для этого условия. Процедура останавливается, если учтены все эффекты или превышено максимальное число шагов.
Критерий включения и исключения
Критические значения F и p задаются для контроля включения и исключения эффектов модели. Для выбранного значения p, реальным значением характеризующим включение и исключение является 1 минусp. Критическое значение для включения в модель должно превышать критическое значение для исключения из модели.
Так же можно указать максимальное число шагов. Остановка пошагового алгоритма происходит при достижении максимального числа шагов, если не произошла ранее по каким-либо причинам.
Построение модели при помощи нахождения Лучшего подмножества
Для поиска «наилучшей модели», которая наилучшим образом описывает реальные данные, используются все возможные комбинации предикторов (подмножества) как альтернатива или как элемент взаимодействия с пошаговым методом.
В работе Neter, Wasserman и Kutner (1985) приведено описание использования метода регрессии наилучшего подмножества во взаимодействии с методом пошаговой регрессии: «Алгоритм метода пошаговой регрессии основывается на том, что существует только одно «наилучшее» подмножество переменных X. Данное предположение является ограничением возможностей алгоритма, как замечено ранее, часто бывает так, что нельзя найти единственное «наилучшее» подмножество. Однако некоторые статистики советуют перебрать поочередно все возможные подмножества, с числом переменных X полученных в пошаговой регрессии, для поиска лучшего подмножества.» (p. 435). Фактически получаем, что после нахождения решения пошаговой регрессии, «наилучшее» среди всех возможных подмножеств с тем же числом эффектов необходимо проверить является ли данное подмножество «наилучшим.» Если это не так, решение пошагового алгоритма стоит отклонить.
Заметьте, что для определения «наилучшего» подмножества можно использовать несколько критериев. Наиболее часто используемыми критериями являются: множественное R-квадрат, скорректированное R-квадрат и Cp Маллоу. При использовании регрессии наилучшего подмножества вместе с пошаговым методом, статистика R-квадрат позволяет упорядочить по качеству подгонки полученные подмножества каждого метода.
Число допустимых подмоделей возрастает очень резко с ростом числа эффектов в общей модели. Объем вычислений требуемых для проведения регрессии наилучшего подмножества так же возрастает с числом допустимых подмножеств, кроме этого увеличение числа уровней категориальных предикторов вызывает быстрый рост числа операций. Например, существует более 2.7 миллионов различных способов задания 12 предикторов из 24 предикторов общей модели, т.е. необходимо обработать 2.7 миллионов моделей для оценки наилучшего подмножества из 12 предикторов.
Все права на материалы электронного учебника принадлежат компании StatSoft
Регрессионные модели в Python: виды регрессий
Регрессия — это один из главных методов прогнозного моделирования и работы с data mining. Он позволяет установить связь между переменными, чтобы прогнозировать развитие какого-либо явления в будущем. Например, таким образом можно узнать, сколько товаров продаст магазин в ближайшие месяцы, как изменения цены повлияют на приток покупателей, какая доля сотрудников может уволиться из компании.
Про линейную и логистическую регрессию знают даже начинающие аналитики. Остальные функции этого класса реже оказываются на слуху, но настоящему профессионалу в области Data Science обязательно нужно знать, что они из себя представляют и для чего используются. Эти знания будут полезны и frontend-программистам, веб-разработчикам и всем, кто работает с данными в Python.
Сегодня мы устроим краткую экскурсию по разным видам регрессии, познакомимся с их возможностями и особенностями применения. Добавляйте эту статью в свою коллекцию шпаргалок и поехали. Инструменты для применения этих моделей в Python реализованы в библиотеках NumPy, scikit-learn, statsmodels.
Начнем с самой простой модели, которая используется, если отношения между переменными линейны по своей природе. Например, линейная регрессия подскажет, сколько операторов колл-центра справятся с нагрузкой в горячий сезон или как пробег машины влияет на частоту ремонтов.
Если у вас одна независимая переменная (дескриптор), вы имеете дело с простой линейной регрессией. Если независимых переменных две и более, то это множественная линейная регрессия.
Главная особенность линейной регрессии в отсутствии выпадающих из общего тренда значений зависимой переменной и минимальном разбросе результатов. Кроме того, в этом случае между независимыми переменными нет взаимосвязи.
Курс
Веб-разработка на Python
Изучите популярный язык программирования и получите постребованную профессию. Дополнительная скидка 5% по промокоду BLOG.
Узнать больше
Вторая по популярности модель используется в тех случаях, когда зависимая переменная бинарна по своей природе, то есть попадает в одну из двух категорий. Например, вы хотите узнать, как те или иные факторы влияют на решение пользователя закрыть сайт или остаться на странице. Или вам нужно оценить шансы на успех у нескольких участников выборов (выиграет/не выиграет).
Логистическую регрессию можно также применять, если конечных вариантов больше двух. Скажем, вам нужно распределить учеников между гуманитарным, техническим и естественно-биологическим классами, используя результаты школьных экзаменов. В этом случае мы говорим о мультиномиальной, или множественной логистической регрессии.
Эта техника позволяет работать с нелинейными уравнениями, используя целые рациональные (полиномиальные) функции независимых переменных. Чтобы понять разницу между полиномиальной и линейной регрессией, взгляните на график ниже. Красная кривая гораздо лучше описывает поведение зависимой переменной, поскольку ее отношения с дескриптором нелинейны.
Полиномиальная регрессия помогает аналитикам и разработчикам решить проблему недообучения (underfitting), когда модель не охватывает значительную часть результатов. С другой стороны, нужно помнить, что неуместное применение этой техники или добавление ненужных, излишних характеристик создает риски переобучения (overfitting), из-за чего модель, которая показывает хорошие результаты на тренировочном сете окажется неприменима для работы с реальными данными.
Этот метод применяется, когда в данных присутствуют сильные искажения, часто встречаются выпадающие значения и случайные ошибки. Другими словами, если среднее значение, с которым работает линейная регрессия, неточно отражает взаимосвязь между переменными. В этих случаях квантильная регрессия позволяет ввести в расчеты целевую погрешность, или задать квантили — значения, которое результирующие переменные не будут превышать.
Для применения квантильной регрессии в Python вам понадобится пакет statsmodels. С его помощью вы сможете анализировать информацию с помощью настраиваемых квантилей, получая возможность смотреть на данные под разными углами.
Эти две техники применяются, если вам нужно уменьшить размерность данных и устранить проблему переобучения. Для этого применяются два способа:
- L1-регуляризация — добавляет штраф к сумме абсолютных значений коэффициентов. Этот метод используется в лассо-регрессии.
- L2-регуляризация — добавляет штраф к сумме квадратов коэффициентов. Этот метод используется в ридж-регрессии.
В большинстве случаев исследователи и разработчики предпочитают L2-функцию — она эффективнее с точки зрения вычислительных функций. С другой стороны, лассо-регрессия позволяет уменьшить значения некоторых коэффициентов до 0, то есть вывести из поля исследования лишние переменные. Это полезно, если на какое-либо явление влияют тысячи факторов и рассматривать все их оказывается бессмысленно.
Оба метода регуляризации объединены в технике эластичной сети. Она оптимально подходит, когда независимые переменные сильно коррелированы между собой. В этих случаях модель сможет попеременно применять L1- и L2-функции, в зависимости от того, какая лучше подходит с учетом входных данных.
Анализ главных компонент (Principal Components Analysis) — это еще один способ уменьшить размерность данных. Он построен на создании ключевых независимых переменных, которые оказывают наибольшее влияние на функцию. Таким образом можно построить регрессионную модель на основе сильно зашумленных данных. На первом этапе аналитик определяет среди них главные компоненты, далее применяет к ним необходимую функцию.
Важно понимать, что основные компоненты, с которыми аналитик работает в этом случае, фактически представляют собой функцию остальных характеристик. Именно поэтому мы говорим о создании ключевых переменных, а не вычленении их из общего числа. По этой причине применение PCA не подходит для объяснения фактических связей между переменными — это скорее создание имитационной модели на основе известных данных о том или ином явлении.
В отличие от предыдущей техники, метод наименьших частичных квадратов (Partial Least Squares, PLS) принимает во внимание зависимую переменную. Это позволяет строить модели с меньшим количеством компонентов, что очень удобно в тех случаях, если количество предикторов сильно превышает количество зависимых переменных или если первые оказываются сильно коррелированы.
Технически PLS сильно напоминает PCR — сначала определяются скрытые факторы, которые объясняют взаимосвязь переменных, затем по этим данным выстраивается прогноз.
Этот метод позволяет изучать явления в привязке к значениям каких-либо шкал. Например, когда речь идет об отношениях пользователей к дизайну сайта — от “совсем не нравится” до “очень нравится”. Или в медицинских исследованиях таким образом можно понять, как меняются ощущения пациентов (от “очень сильной боли” до “совсем нет боли”).
Почему для этого нельзя применять линейную регрессию? Потому что она не учитывает смысловую разницу между разными разрядами шкалы. Возьмем для примера трех людей ростом в 175 см и весом в 55, 70 и 85 кг. 15 килограммов, на которые самый худой и самый тучный человек отстоят от участника со средним показателем, для линейной функции имеют одинаковое значение. А с точки зрения социологии и медицины это разница между ожирением, дистрофичностью и нормальным весом.
Курс
Веб-разработка на Python
Изучите популярный язык программирования и получите постребованную профессию. Дополнительная скидка 5% по промокоду BLOG.
Узнать больше
Еще две техники, которые используются для особых ситуаций, в данном случае — когда вам нужно пересчитать некие события, которые произойдут независимо друг от друга на протяжении заданного промежутка времени. Например, спрогнозировать количество походов покупателей в магазин за каким-то конкретным продуктом. Или количество критических ошибок на корпоративных компьютерах. Такие явления происходят в соответствии с распределением Пуассона, откуда техника и получила свое название.
Недостатком этого метода является то, что при его использовании распределение зависимых переменных оказывается равным их средним значениям. В реальности аналитики нередко сталкиваются с высокой дисперсией наблюдаемых явлений, которая значительно отличается средних показателей. Для таких моделей используется отрицательная биноминальная регрессия.
Специфика этих регрессий обуславливает определенные требования к зависимым переменным: они должны выражаться целыми, положительными числами.
Последняя в нашей подборке модель используется для оценки времени до определенного события. Какова вероятность, что сотрудник проработает в компании 10 лет? Сколько гудков готов ждать клиент, прежде чем положит трубку? Когда у пациента наступит следующий кризис?
Модель работает на основе двух параметров: один отражает течение времени, второй, бинарный показатель определяет, случилось событие или нет. Это напоминает механику логистической регрессии, однако та техника не использует время. Основополагающие предположения для регрессии Кокса состоят в том, что между независимыми переменными нет корреляции и все они линейно влияют на ожидаемое событие. Кроме того, в любой отрезок времени вероятность наступления события для любых двух объектов должна быть пропорциональна.
Это не полный список регрессий, которые доступны разработчикам и аналитикам в Python. Однако даже этот перечень дает представление о том, какие возможности для изучения самых разных данных открывает этот язык.
Текст: Помогаев Дмитрий
Основы регрессионного анализа—ArcGIS Pro | Документация
Набор инструментов Пространственная статистика предоставляет эффективные инструменты количественного анализа пространственных структурных закономерностей. Инструмент Анализ горячих точек, например, поможет найти ответы на следующие вопросы:
- Есть ли в США места, где постоянно наблюдается высокая смертность среди молодежи?
- Где находятся «горячие точки» по местам преступлений, вызовов 911 (см. рисунок ниже) или пожаров?
- Где находятся места, в которых количество дорожных происшествий превышает обычный городской уровень?
Анализ данных звонков в службу 911, показывающий горячие точки (красным), холодные точки (синим) и локализацию пожарных/полиции, ответственных за реагирование (зеленые круги)
Каждый из вопросов спрашивает «где»? Следующий логический вопрос для такого типа анализа – «почему»?
- Почему в некоторых местах США наблюдается повышенная смертность молодежи? Какова причина этого?
- Можем ли мы промоделировать характеристики мест, на которые приходится больше всего преступлений, звонков в 911, или пожаров, чтобы помочь сократить эти случаи?
- От каких факторов зависит повышенное число дорожных происшествий? Имеются ли какие-либо возможности для снижения числа дорожных происшествий в городе вообще, и в особо неблагополучных районах в частности?
Инструменты в наборе инструментов Моделирование пространственных отношений помогут вам ответить на вторую серию вопросов «почему». К этим инструментам относятся Метод наименьших квадратов и Географически взвешенная регрессия.
Пространственные отношения
Регрессионный анализ позволяет вам моделировать, проверять и исследовать пространственные отношения и помогает вам объяснить факторы, стоящие за наблюдаемыми пространственными структурными закономерностями. Вы также можете захотеть понять, почему люди постоянно умирают молодыми в некоторых регионах страны, и какие факторы особенно влияют на особенно высокий уровень диабета. При моделирование пространственных отношений, однако, регрессионный анализ также может быть пригоден для прогнозирования. Моделирование факторов, которые влияют на долю выпускников колледжей, на пример, позволяют вам сделать прогноз о потенциальной рабочей силе и их навыках. Вы также можете использовать регрессионный анализ для прогнозирования осадков или качества воздуха в случаях, где интерполяция невозможна из-за малого количества станций наблюдения (к примеру, часто отсутствую измерительные приборы вдоль горных хребтов и в долинах).
МНК – наиболее известный метод регрессионного анализа. Это также подходящая отправная точка для всех способов пространственного регрессионного анализа. Данный метод позволяет построить глобальную модель переменной или процесса, которые вы хотите изучить или спрогнозировать (уровень смертности/осадки). Он создает уравнение регрессии, отражающее происходящий процесс. Географически взвешенная регрессия (ГВР) — один из нескольких методов пространственного регрессионного анализа, все чаще использующегося в географии и других дисциплинах. Метод ГВР (географически взвешенная регрессия) создает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. При подходящем использовании, эти методы являются мощным и надежным статистическим средством для проверки и оценки линейных взаимосвязей.
Линейные взаимосвязи могут быть положительными или отрицательными. Если вы обнаружили, что количество поисково-спасательных операций увеличивается при возрастании среднесуточной температуры, такое отношение является положительным; имеется положительная корреляция. Другой способ описать эту положительную взаимосвязь — сказать, что количество поисково-спасательных операций уменьшается при уменьшении среднесуточной температуры. Соответственно, если вы установили, что число преступлений уменьшается при увеличении числа полицейских патрулей, данное отношение является отрицательным. Также, можно выразить это отрицательное отношение, сказав, что количество преступлений увеличивается при уменьшении количества патрулей. На рисунке ниже показаны положительные и отрицательные отношения, а также случаи, когда две переменные не связаны отношениями:
Диаграммы рассеяния: положительная связь, отрицательная связь и пример с 2 не связанными переменными.Корреляционные анализы, и связанные с ними графики, отображенные выше, показывают силу взаимосвязи между двумя переменными. С другой стороны, регрессионные анализы дают больше информации: они пытаются продемонстрировать степень, с которой 1 или более переменных потенциально вызывают положительные или негативные изменения в другой переменной.
Применения регрессионного анализа
Регрессионный анализ может использоваться в большом количестве приложений:
- Моделирование числа поступивших в среднюю школу для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
- Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д., чтобы проинформировать полицию и снизить несчастные случаи.
- Моделирование потерь от пожаров как функции от таких переменных как степень вовлеченности пожарных департаментов, время обработки вызова, или цена собственности. Если вы обнаружили, что время реагирования на вызов является ключевым фактором, возможно, существует необходимость создания новых пожарных станций. Если вы обнаружили, что вовлеченность – главный фактор, возможно, вам нужно увеличить оборудование и количество пожарных, отправляемых на пожар.
Существует три первостепенных причины, по которым обычно используют регрессионный анализ:
- Смоделировать некоторые явления, чтобы лучше понять их и, возможно, использовать это понимание для оказания влияния на политику и принятие решений о наиболее подходящих действиях. Основная цель — измерить экстент, который при изменениях в одной или более переменных связанно вызывает изменения и в другой. Пример. Требуется понять ключевые характеристики ареала обитания некоторых видов птиц (например, осадки, ресурсы питания, растительность, хищники) для разработки законодательства, направленного на защиту этих видов.
- Смоделировать некоторые явления, чтобы предсказать значения в других местах или в другое время. Основная цель — построить прогнозную модель, которая является как устойчивой, так и точной. Пример: Даны прогнозы населения и типичные погодные условия. Каким будет объем потребляемой электроэнергии в следующем году?
- Вы также можете использовать регрессионный анализ для исследования гипотез. Предположим, что вы моделируете бытовые преступления для их лучшего понимания и возможно, вам удается внедрить политические меры, чтобы остановить их. Как только вы начинаете ваш анализ, вы, возможно, имеете вопросы или гипотезы, которые вы хотите проверить:
- «Теория разбитого окна» указывает на то, что испорченная общественная собственность (граффити, разрушенные объекты и т.д.) притягивает иные преступления. Имеется ли положительное отношение между вандализмом и взломами в квартиры?
- Имеется ли связь между нелегальным использованием наркотических средств и взломами в квартиры (могут ли наркоманы воровать, чтобы поддерживать свое существование)?
- Совершаются ли взломы с целью ограбления? Возможно ли, что будет больше случаев в домохозяйствах с большей долей пожилых людей и женщин?
- Люди больше подвержены риску ограбления, если они живут в богатой или бедной местности?
Термины и концепции регрессионного анализа
Невозможно обсуждать регрессионный анализ без предварительного знакомства с основными терминами и концепциями, характерными для регрессионной статистики:
Уравнение регрессии. Это математическая формула, применяемая к независимым переменным, чтобы лучше спрогнозировать зависимую переменную, которую необходимо смоделировать. К сожалению, для тех ученых, кто думает, что х и у это только координаты, независимая переменная в регрессионном анализе всегда обозначается как y, а зависимая – всегда X. Каждая независимая переменная связана с коэффициентами регрессии, описывающими силу и знак взаимосвязи между этими двумя переменными. Уравнение регрессии может выглядеть следующим образом (у – зависимая переменная, Х – независимые переменные, β – коэффициенты регрессии), ниже приводится описание каждого из этих компонентов уравнения регрессии):
Элементы Уравнения регрессии по методу наименьших квадратов- Зависимая переменная (y) – это переменная, описывающая процесс, который вы пытаетесь предсказать или понять (бытовые кражи, осадки). В уравнении регрессии эта переменная всегда находится слева от знака равенства. В то время, как вы можете использовать регрессию для предсказания зависимой величины, вы всегда начинаете с набора хорошо известных у-значений и используете их для калибровки регрессионной модели. Известные у-значения часто называют наблюдаемыми величинами.
- Независимые переменные (X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных. В уравнении регрессии они располагаются справа от знака равенства и часто называются независимыми переменными. Зависимая переменная – это функция независимых переменных. Если вас интересует прогнозирование годового оборота определенного магазина, вы можете включить в модель независимые переменные, отражающие, например, число потенциальных покупателей, расстояние до конкурирующих магазинов, заметность магазина и структуру спроса местных жителей.
- Коэффициенты регрессии (β) – это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой. Предположим, что вы моделируете частоту пожаров как функцию от солнечной радиации, растительного покрова, осадков и экспозиции склона. Вы можете ожидать положительную взаимосвязь между частотой пожаров и солнечной радиацией (другими словами, чем больше солнца, тем чаще встречаются пожары). Если отношение положительно, знак связанного коэффициента также положителен. Вы можете ожидать негативную связь между частотой пожаров и осадками (другими словами, для мест с большим количеством осадков характерно меньше лесных пожаров). Коэффициенты отрицательных отношений имеют знак минуса. Когда взаимосвязь сильная, значения коэффициентов достаточно большие (относительно единиц независимой переменной, с которой они связаны). Слабая взаимосвязь описывается коэффициентами с величинами около 0; β0 – это отрезок, отсекаемый линией регрессии.Он представляет ожидаемое значение зависимой величины, если все независимые переменные равны 0.
P-значения. Большинство регрессионных методов выполняют статистический тест для расчета вероятности, называемой р-значением, для коэффициентов, связанной с каждой независимой переменной. Нулевая гипотеза данного статистического теста предполагает, что коэффициент незначительно отличается от нуля (другими словами, для всех целей и задач, коэффициент равен нулю, и связанная независимая переменная не может объяснить вашу модель). Маленькие величины р-значений отражают маленькие вероятности и предполагают, что коэффициент действительно важен для вашей модели со значением, существенно отличающимся от 0 (другими словами, маленькие величины р-значений свидетельствуют о том, что коэффициент не равен 0). Вы бы сказали, что коэффициент с р-значением, равным 0,01, например, статистически значимый для 99 % доверительного интервала; связанные переменные являются эффективным предсказателем. Переменные с коэффициентами около 0 не помогают предсказать или смоделировать зависимые величины; они практически всегда удаляются из регрессионного уравнения, если только нет веских причин сохранить их.
R2/R-квадрат: Статистические показатели составной R-квадрат и скорректированный R-квадрат вычисляются из регрессионного уравнения, чтобы качественно оценить модель. Значение R-квадрат лежит в пределах от 0 до 100 процентов. Если ваша модель описывает наблюдаемые зависимые переменные идеально, R-квадрат равен 1.0 (и вы, несомненно, сделали ошибку; возможно, вы использовали модификацию величины у для предсказания у). Вероятнее всего, вы увидите значения R-квадрат в районе 0,49, например, вы можете интерпретировать подобный результат как «Это модель объясняет 49 % вариации зависимой величины». Чтобы понять, как работает R-квадрат, постройте график, отражающий наблюдаемые и оцениваемые значения у, отсортированные по оцениваемым величинам. Обратите внимание на количество совпадений. Этот график визуально отображает, насколько хорошо вычисленные значения модели объясняют изменения наблюдаемых значений зависимых переменных. Просмотрите иллюстрацию. Скорректированный R-квадрат всегда немного меньше, чем множественный R-квадрат, т.к. он отражает всю сложность модели (количество переменных) и связан с набором исходных данных. Следовательно, скорректированный R-квадрат является более точной мерой для оценки результатов работы модели.
Невязки: Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки ε. См. рисунок. Известные значения зависимой переменной используются для построения и настройки модели регрессии. Используя известные величины зависимой переменной (Y) и известные значений для всех независимых переменных (Хs), регрессионный инструмент создаст уравнение, которое предскажет те известные у-значения как можно лучше. Однако предсказанные значения редко точно совпадают с наблюдаемыми величинами. Разница между наблюдаемыми и предсказываемыми значениями у называется невязка или отклонение. Величина отклонений регрессионного уравнения — одно из измерений качества работы модели. Большие отклонения говорят о ненадлежащем качестве модели.
Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные, которые вы пытаетесь смоделировать или понять, запуская инструмент регрессии, чтобы определить, какие величины являются эффективными предсказателями. Затем пошаговое удаление и/или добавление переменных до тех пор, пока вы не найдете наилучшим образом подходящую регрессионную модель. Т.к. процесс создания модели часто исследовательский, он никогда не должен становиться простым «подгоном» данных. Он должен учитывать теоретические аспекты, мнение экспертов в этой области и здравый смысл. Вы должным быть способны определить ожидаемую взаимосвязь между каждой потенциальной независимой переменной и зависимой величиной до непосредственного анализа, и должны задать себе дополнительные вопросы, когда эти связи не совпадают.
Особенности регрессионного анализа
Регрессия МНК – это простой метод анализа с хорошо проработанной теорией, предоставляющий эффективные возможности диагностики, которые помогут вам интерпретировать результаты и устранять неполадки. Однако, МНК надежен и эффективен, если ваши данные и регрессионная модель удовлетворяют всем предположениям, требуемым для этого метода (смотри таблицу внизу). Пространственные данные часто нарушают предположения и требования МНК, поэтому важно использовать инструменты регрессии в союзе с подходящими инструментами диагностики, которые позволяют оценить, является ли регрессия подходящим методом для вашего анализа, а приведенная структура данных и модель может быть применена.
Как регрессионная модель может не работать
Серьезной преградой для многих регрессионных моделей является ошибка спецификации. Модель ошибки спецификации — это такая неполная модель, в которой отсутствуют важные независимые переменные, поэтому она неадекватно представляет то, что мы пытаемся моделировать или предсказывать (зависимую величину, у). Другими словами, регрессионная модель не рассказывает вам всю историю. Ошибка спецификации становится очевидной, когда в отклонениях вашей регрессионной модели наблюдается статистически значимая пространственная автокорреляция, или другими словами, когда отклонения вашей модели кластеризуются в пространстве (недооценки – в одной области изучаемой территории, а переоценки – в другой). Благодаря картографированию отклонений регрессии или коэффициентов, связанных с географически взвешенной регрессией, вы сможете обратить ваше внимание на какие-то нюансы, которые вы упустили ранее. Запуск Анализа горячих точек по отклонениям регрессии также может раскрыть разные пространственные режимы, которые можно моделировать при помощи метода наименьших квадратов с региональными показателями или исправлять с использованием географически взвешенной регрессии. Предположим, когда вы картографируете отклонения вашей регрессионной модели, вы видите, что модель всегда заново предсказывает значения в горах, и, наоборот, в долинах, что может значить, что отсутствуют данные о рельефе. Однако может случиться так, что отсутствующие переменные слишком сложны для моделирования или их невозможно подсчитать или слишком трудно измерить. В этих случаях, вы можете воспользоваться ГВР (географически взвешенной регрессией) или другой пространственной регрессией, чтобы получить хорошую модель.
В следующей таблице перечислены типичные проблемы с регрессионными моделями и инструменты в ArcGIS:
Типичные проблемы с регрессией, последствия и решения
Ошибки спецификации относительно независимых переменных. | Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять. | Создайте карту и проверьте невязки МНК и коэффициенты ГВР или запустите Анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных. |
Нелинейные взаимосвязи. Просмотрите иллюстрацию. | МНК и ГВР – линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми – нелинейны, результирующая модель будет работать плохо. | Создайте диаграмму рассеяния, чтобы выявить взаимосвязи между показателями в модели.Уделите особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин. Просмотрите иллюстрацию. Альтернативно, используйте нелинейный метод регрессии. |
Выбросы данных. Просмотрите иллюстрацию. | Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии. | Создайте диаграмму рассеяния и другие графики (гистограммы), чтобы проверить экстремальные значения данных. Скорректировать или удалить выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запустить регрессию с и без выбросов, чтобы оценить, как это влияет на результат. |
Нестационарность. Вы можете обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B (см. рисунок). | Если взаимосвязь между вашими зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты. | Инструмент МНК в ArcGIS автоматически тестирует проблемы, связанные с нестационарностью (региональными вариациями) и вычисляет устойчивые стандартные значения ошибок. Просмотрите иллюстрацию. Когда вероятности, связанные с тестом Koenker, малы (например, < 0,05), у вас есть статистически значимая региональная вариация и вам необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Как правило, результаты моделирования можно улучшить с помощью инструмента Географически взвешенная регрессия. |
Мультиколлинеарность. Одна или несколько независимых переменных излишни. Просмотрите иллюстрацию. | Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели. | Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки. Просмотрите иллюстрацию. |
Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений. Просмотрите иллюстрацию. | Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер. | Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Просмотрите иллюстрацию. |
Пространственно автокоррелированные отклонения. Просмотрите иллюстрацию. | Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно. | Запустите инструмент Пространственная автокорреляция (Spatial Autocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели). Просмотрите иллюстрацию. |
Нормальное распределение систематической ошибки. Просмотрите иллюстрацию. | Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны. | Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Жака-Бера является значимым (например, 0,05), скорее всего в вашей модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые вы моделируете, являются нелинейными. Проверьте карту отклонений и возможно карту с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Просмотр диаграмм рассеяния и поиск нелинейных отношений. |
Важно протестировать модель на каждую из проблем, перечисленных выше. Результаты могут быть на 100 % неправильны, если игнорируются проблемы, упомянутые выше.
Пространственная регрессия
Для пространственных данных характерно 2 свойства, которые затрудняют (не делают невозможным) применение традиционных (непространственных) методов, таких как МНК:
- Географические объекты довольно часто пространственно автокоррелированы. Это означает, что объекты, расположенные ближе друг к другу более похожи между собой, чем удаленные объекты. Это создает переоцененный тип систематических ошибок для традиционных моделей регрессии.
- География важна, и часто наиболее важные процессы нестационарны. Эти процессы протекают по-разному в разных частях области изучения. Эта характеристика пространственных данных может относиться как к региональным вариациям, так и к нестационарности.
Настоящие методы пространственной регрессии были разработаны, чтобы устойчиво справляться с этими двумя характеристиками пространственных данных и даже использовать эти свойства пространственных данных, чтобы улучшать моделирование взаимосвязей. Некоторые методы пространственной регрессии эффективно имеют дело с 1 характеристикой (пространственная автокорреляция), другие – со второй (нестационарность). В настоящее время, нет методов пространственной регрессии, которые эффективны с обеими характеристиками. Для правильно настроенной модели ГВР пространственная автокорреляция обычно не является проблемой.
Пространственная автокорреляция
Существует большая разница в том, как традиционные и пространственные статистические методы смотрят на пространственную автокорреляцию. Традиционные статистические методы видят ее как плохую вещь, которая должна быть устранена, т.к. пространственная автокорреляция ухудшает предположения многих традиционных статистических методов. Для географа или ГИС-аналитика, однако, пространственная автокорреляция является доказательством важности пространственных процессов; это интегральная компонента данных. Удаляя пространство, мы удаляем пространственный контекст данных; это как только половина истории. Пространственные процессы и доказательство пространственных взаимосвязей в данных представляют собой особый интерес, и поэтому пользователи ГИС с радостью используют инструменты пространственного анализа данных. Однако, чтобы избежать переоцененный тип систематических ошибок в вашей модели, вы должны определить полный набор независимых переменных, которые эффективно опишут структуру ваших данных. Если вы не можете определить все эти переменные, скорее всего, вы увидите существенную пространственную автокорреляцию среди отклонений модели. К сожалению, вы не можете доверять результатам регрессии, пока все не устранено. Используйте инструмент Пространственная автокорреляция, чтобы выполнить тест на статистически значимую пространственную автокорреляцию для отклонений в вашей регрессии.
Как минимум существует 3 направления, как поступать с пространственной автокорреляцией в невязках регрессионных моделей.
- Изменять размер выборки до тех пор, пока не удастся устранить статистически значимую пространственную автокорреляцию. Это не гарантирует, что в анализе будет полностью устранена проблема пространственной автокорреляции, но она значительно меньше, когда пространственная автокорреляция удалена из зависимых и независимых переменных. Это традиционный статистический подход к устранению пространственной автокорреляции и только подходит, если пространственная автокорреляция является результатом избыточности данных.
- Изолируйте пространственные и непространственные компоненты каждой входящей величины, используя методы фильтрации в пространственной регрессии. Пространство удалено из каждой величины, но затем его возвращают обратно в регрессионную модель в качестве новой переменной, отвечающей за пространственные эффекты/пространственную структуру. ArcGIS в настоящее время не предоставляет возможности проведения подобного рода анализа.
- Внедрите пространственную автокорреляцию в регрессионную модель, используя пространственные эконометрические регрессионные модели. Пространственные эконометрические регрессионные модели будут добавлены в ArcGIS в следующем релизе.
Региональные вариации
Глобальные модели, подобные МНК, создают уравнения, наилучшим образом описывающие общие связи в данных в пределах изучаемой территории. Когда те взаимосвязи противоречивы в пределах территории изучения, МНК хорошо моделирует эти взаимосвязи. Когда те взаимосвязи ведут себя по-разному в разных частях области изучения, регрессионное уравнение представляет средние результаты, и в случае, когда те взаимосвязи представляют 2 экстремальных значения, глобальное среднее не моделирует хорошо эти значения. Когда ваши независимые переменные испытывают нестационарность (региональные вариации), глобальные модели не подходят, а необходимо использовать устойчивые методы регрессионного анализа. Идеально, вы сможете определить полный набор независимых переменных, чтобы справиться с региональными вариациями в ваших зависимых переменных. Если вы не сможете определить все пространственные переменные, вы снова заметите статистически значимую пространственную автокорреляцию в ваших отклонениях и/или более низкие, чем ожидалось, значения R-квадрат. К сожалению, вы не можете доверять результатам регрессии, пока все не устранено.
Существует как минимум 4 способа работы с региональными вариациями в МНК регрессионных моделях:
- Включить переменную в модель, которая объяснит региональные вариации. Если вы видите, что ваша модель всегда «перепредсказывает» на севере и «недопредсказывает» на юге, добавьте набор региональных значений:1 для северных объектов, и 0 для южных объектов.
- Используйте методы, которые включают региональные вариации в регрессионную модель, такие как Географически взвешенная регрессия.
- Примите во внимание устойчивые стандартные отклонения регрессии и вероятности, чтобы определить, являются ли коэффициенты статистически значимыми. ГВР рекомендуется
- Изменить/сократить размер области изучения так, чтобы процессы в пределах новой области изучения были стационарными (не испытывали региональные вариации).
Дополнительные ресурсы
Для большей информации по использованию регрессионных инструментов, см.:
Связанные разделы
Отзыв по этому разделу?
Регрессия в эконометрике
Регрессия и ее виды
Определение 1
Регрессионный анализ – это основной математико-статистический инструмент в эконометрике. Регрессия представляет собой зависимость среднего значения величины $y$ от другой величины $x$ или же нескольких величин $x_i$.
Количество факторов, которые включены в равнение регрессии, определяет вид регрессии, которая может быть простой (парной) и множественной.
Простая регрессия – это модель, в которой среднее значение зависимой переменной y является функцией одной независимой переменной x.
Парная регрессия в неявном виде – это уравнение вида:
$y ̂= f(x)$
В явном виде: $y ̂= a + bx$, где $a$ и $b$ – это оценки коэффициента регрессии.
Множественной регрессией является модель, в которой среднее значение объясняемой переменной $y$ – это функция нескольких объясняющих переменных $x_1, x_2, …, x_n$. Множественная регрессия в неявном виде – это модель типа:
$y ̂= f(x_1, x_2,…, x_n)$
В явном виде: $y ̂= a + b_1x_1 + b_2x_2 + … + b_nx_n$
Примером модели множественной регрессии может выступать зависимость зарплаты работников от их возраста, уровня образования, степени квалификации, стажа работы, отрасли и т.д.
Относительно формы регрессия может быть линейной и нелинейной, предполагающей наличие нелинейных соотношений среди факторов. В большинстве случаев нелинейные модели можно привести к линейному виду.
Предпосылки регрессионного анализа
Чтобы проведение регрессионного анализа было наиболее результативным, необходимо выполнять определенные условия:
- В любом наблюдении математические ожидания случайной ошибки должны быть равны нулю;
- Дисперсия случайной ошибки для всех наблюдений должна быть постоянной;
- Случайные ошибки не должны иметь между собой статической зависимости;
- Объясняющая переменная x должна быть величиной неслучайной.
Если выполняются все вышеперечисленные условия, то модель является линейной классической регрессионной. Рассмотрим подробнее предположения и условия, составляющие основу регрессионного анализа.
Готовые работы на аналогичную тему
Согласно первому условию, случайная ошибка не должна систематически смещаться. Если в уравнении регрессии имеется постоянный член, то данное условие автоматически выполняется.
Второе условие – это наличие в каждом наблюдении только одного значения дисперсии случайной ошибки. Дисперсия – это возможное изменение случайной ошибки до проведения выборки. Величина дисперсии является неизвестной, а задача регрессионного анализа – это ее оценка. Независимость дисперсии случайных ошибок от номера наблюдения – это гомоскедастичность, т.е. одинаковый разброс. Гетероскедастичность – это зависимость дисперсии случайных ошибок от номера наблюдения.
Если не выполняется условие гомоскедастичности, то оценка коэффициентов регрессии будет неэффективной.
Третье условие состоит в некоррелированности случайных отклонений для различных наблюдений. Данное условие часто не выполняется при ситуации, когда данные – это временные ряды. Если оно не выполняется, то это означает автокорреляцию остатков. Чтобы диагностировать и устранить автокорреляцию, существуют специальные методы.
Четвертое условие представляет особую важность, поскольку если не выполняется условие неслучайности объясняющих переменных, то оценка коэффициентов регрессии будет смещенной и несостоятельной. Данное условие нарушается при ошибках в измерении объясняющих переменных или же при использовании лаговых переменных.
Парная регрессионная модель
Как правило в естественных науках рассматриваются функциональные зависимости, в которых каждое значение одной переменной соответствует единственному значению другой. Однако в экономических переменных нет таких зависимостей, но есть статистические и корреляционные зависимости.
Наибольшую опасность в парной регрессии представляют ошибки в измерениях. Если ошибки спецификации возможно уменьшить с помощью изменения формы модели, ошибки выборки – при помощи увеличения объема исходных данных, то ошибки изменения невозможно исправить.
Случайный фактор в регрессионных моделях может отсутствовать по следующим причинам:
- В модель не включены все объясняющие переменные. Любая модель эконометрики – это упрощение реальной ситуации, которая является сложнейшим переплетением факторов, большинство из которых не учитываются в модели, из-за чего реальные значения зависимой переменной отклоняются от модельных значений. Невозможно перечислить все виды объясняющих переменных, поскольку неизвестно заранее, какие факторы относятся к определяющим, а какие можно не учитывать.
- Неправильное определение функционального типа модели. Слабая изученность исследуемого процесса, его переменчивость влияет на правильность подбора его моделирующей функции. Это отражается и на отклонении модели от реальной жизни.
- Агрегирование переменных. Многие модели содержат зависимость между факторами, являющимися комбинацией других переменных. Например, чтобы рассмотреть в качестве зависимой переменной совокупный спрос, необходимо провести анализ зависимости, содержащей объясняемую переменную, являющуюся композицией индивидуальных спросов, которые оказывают влияние на нее. Это может послужить причиной отклонения значений реальных от модельных.
- Ошибки в измерениях. Даже при качественной модели ошибки в измерениях сказываются на несоответствии получаемых значений эмпирическим.
- Ограниченность статистической информации. Часто строятся модели, которые являются непрерывными функциями. Для этого применяется информация, имеющая дискретную структуру. Данное несоответствие выражается в случайном отклонении.
- Непредсказуемость человеческих факторов. Данная причина может исказить любую качественную эконометрическую модель, поскольку даже правильный выбор формы модели, скрупулезный подбор объясняющих переменных не позволяют спрогнозировать поведение индивидов.
5 алгоритмов регрессии в машинном обучении, о которых вам следует знать / Хабр
Источник: Vecteezy
Да, линейная регрессия не единственная
Быстренько назовите пять алгоритмов машинного обучения.
Вряд ли вы назовете много алгоритмов регрессии. В конце концов, единственным широко распространенным алгоритмом регрессии является линейная регрессия, главным образом из-за ее простоты. Однако линейная регрессия часто неприменима к реальным данным из-за слишком ограниченных возможностей и ограниченной свободы маневра. Ее часто используют только в качестве базовой модели для оценки и сравнения с новыми подходами в исследованиях.
Команда Mail.ru Cloud Solutions перевела статью, автор которой описывает 5 алгоритмов регрессии. Их стоит иметь в своем наборе инструментов наряду с популярными алгоритмами классификации, такими как SVM, дерево решений и нейронные сети.
1. Нейросетевая регрессия
Теория
Нейронные сети невероятно мощные, но их обычно используют для классификации. Сигналы проходят через слои нейронов и обобщаются в один из нескольких классов. Однако их можно очень быстро адаптировать в регрессионные модели, если изменить последнюю функцию активации.
Каждый нейрон передает значения из предыдущей связи через функцию активации, служащую цели обобщения и нелинейности. Обычно активационная функция — это что-то вроде сигмоиды или функции ReLU (выпрямленный линейный блок).
Источник. Свободное изображение
Но, заменив последнюю функцию активации (выходной нейрон) линейной функцией активации, выходной сигнал можно отобразить на множество значений, выходящих за пределы фиксированных классов. Таким образом, на выходе будет не вероятность отнесения входного сигнала к какому-либо одному классу, а непрерывное значение, на котором фиксирует свои наблюдения нейронная сеть. В этом смысле можно сказать, что нейронная сеть как бы дополняет линейную регрессию.
Нейросетевая регрессия имеет преимущество нелинейности (в дополнение к сложности), которую можно ввести с сигмоидной и другими нелинейными функциями активации ранее в нейронной сети. Однако чрезмерное использование ReLU в качестве функции активации может означать, что модель имеет тенденцию избегать вывода отрицательных значений, поскольку ReLU игнорирует относительные различия между отрицательными значениями.
Это можно решить либо ограничением использования ReLU и добавлением большего количества отрицательных значений соответствующих функций активации, либо нормализацией данных до строго положительного диапазона перед обучением.
Реализация
Используя Keras, построим структуру искусственной нейронной сети, хотя то же самое можно было бы сделать со сверточной нейронной сетью или другой сетью, если последний слой является либо плотным слоем с линейной активацией, либо просто слоем с линейной активацией. (
Обратите внимание, что импорты Keras не указаны для экономии места).
model = Sequential()
model.add(Dense(100, input_dim=3, activation='sigmoid'))
model.add(ReLU(alpha=1.0))
model.add(Dense(50, activation='sigmoid'))
model.add(ReLU(alpha=1.0))
model.add(Dense(25, activation='softmax'))#IMPORTANT PART
model.add(Dense(1, activation='linear'))
Проблема нейронных сетей всегда заключалась в их высокой дисперсии и склонности к переобучению. В приведенном выше примере кода много источников нелинейности, таких как SoftMax или sigmoid.
Если ваша нейронная сеть хорошо справляется с обучающими данными с чисто линейной структурой, возможно, лучше использовать регрессию с усеченным деревом решений, которая эмулирует линейную и высокодисперсную нейронную сеть, но позволяет дата-сайентисту лучше контролировать глубину, ширину и другие атрибуты для контроля переобучения.
2. Регрессия дерева решений
Теория
Деревья решений в классификации и регрессии очень похожи, поскольку работают путем построения деревьев с узлами «да/нет». Однако в то время как конечные узлы классификации приводят к одному значению класса (например, 1 или 0 для задачи бинарной классификации), деревья регрессии заканчиваются значением в непрерывном режиме (например, 4593,49 или 10,98).
Иллюстрация автора
Из-за специфической и высокодисперсной природы регрессии просто как задачи машинного обучения, регрессоры дерева решений следует тщательно обрезать. Тем не менее, подход к регрессии нерегулярен — вместо того, чтобы вычислять значение в непрерывном масштабе, он приходит к заданным конечным узлам. Если регрессор обрезан слишком сильно, у него слишком мало конечных узлов, чтобы должным образом выполнить свою задачу.
Следовательно, дерево решений должно быть обрезано так, чтобы оно имело наибольшую свободу (возможные выходные значения регрессии — количество конечных узлов), но недостаточно, чтобы оно было слишком глубоким. Если его не обрезать, то и без того высокодисперсный алгоритм станет чрезмерно сложным из-за природы регрессии.
Реализация
Регрессия дерева решений может быть легко создана в
sklearn
:
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
model.fit(X_train, y_train)
Поскольку параметры регрессора дерева решений очень важны, рекомендуется использовать инструмент оптимизации поиска параметров
GridCV
из
sklearn
, чтобы найти правильные рекомендации для этой модели.
При формальной оценке производительности используйте тестирование K-fold
вместо стандартного train-test-split
, чтобы избежать случайности последнего, которая может нарушить чувствительные результаты модели с высокой дисперсией.
Бонус: близкий родственник дерева решений, алгоритм random forest (алгоритм случайного леса), также может быть реализован в качестве регрессора. Регрессор случайного леса может работать лучше или не лучше, чем дерево решений в регрессии (в то время как он обычно работает лучше в классификации) из-за тонкого баланса между избыточным и недостаточным в природе алгоритмов построения дерева.
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_train, y_train)
3. Регрессия LASSO
Метод регрессии лассо (LASSO, Least Absolute Shrinkage and Selection Operator) — это вариация линейной регрессии, специально адаптированная для данных, которые демонстрируют сильную мультиколлинеарность (то есть сильную корреляцию признаков друг с другом).
Она автоматизирует части выбора модели, такие как выбор переменных или исключение параметров. LASSO использует сжатие коэффициентов (shrinkage), то есть процесс, в котором значения данных приближаются к центральной точке (например среднему значению).
Иллюстрация автора. Упрощенная визуализация процесса сжатия
Процесс сжатия добавляет регрессионным моделям несколько преимуществ:
- Более точные и стабильные оценки истинных параметров.
- Уменьшение ошибок выборки и отсутствия выборки.
- Сглаживание пространственных флуктуаций.
Вместо того чтобы корректировать сложность модели, компенсируя сложность данных, подобно методам регрессии с высокой дисперсией нейронных сетей и дерева решений, лассо пытается уменьшить сложность данных так, чтобы их можно было обрабатывать простыми методами регрессии, искривляя пространство, на котором они лежат. В этом процессе лассо автоматически помогает устранить или исказить сильно коррелированные и избыточные функции в методе с низкой дисперсией.
Регрессия лассо использует регуляризацию L1, то есть взвешивает ошибки по их абсолютному значению. Вместо, например, регуляризации L2, которая взвешивает ошибки по их квадрату, чтобы сильнее наказывать за более значительные ошибки.
Такая регуляризация часто приводит к более разреженным моделям с меньшим количеством коэффициентов, так как некоторые коэффициенты могут стать нулевыми и, следовательно, будут исключены из модели. Это позволяет ее интерпретировать.
Реализация
В
sklearn
регрессия лассо поставляется с моделью перекрестной проверки, которая выбирает наиболее эффективные из многих обученных моделей с различными фундаментальными параметрами и путями обучения, что автоматизирует задачу, которую иначе пришлось бы выполнять вручную.
from sklearn.linear_model import LassoCV
model = LassoCV()
model.fit(X_train, y_train)
4. Гребневая регрессия (ридж-регрессия)
Теория
Гребневая регрессия или ридж-регрессия очень похожа на регрессию LASSO в том, что она применяет сжатие. Оба алгоритма хорошо подходят для наборов данных с большим количеством признаков, которые не являются независимыми друг от друга (коллинеарность).
Однако самое большое различие между ними в том, что гребневая регрессия использует регуляризацию L2, то есть ни один из коэффициентов не становится нулевым, как это происходит в регрессии LASSO. Вместо этого коэффициенты всё больше приближаются к нулю, но не имеют большого стимула достичь его из-за природы регуляризации L2.
Сравнение ошибок в регрессии лассо (слева) и гребневой регрессии (справа). Поскольку гребневая регрессия использует регуляризацию L2, ее площадь напоминает круг, тогда как регуляризация лассо L1 рисует прямые линии. Свободное изображение. Источник
В лассо улучшение от ошибки 5 до ошибки 4 взвешивается так же, как улучшение от 4 до 3, а также от 3 до 2, от 2 до 1 и от 1 до 0. Следовательно, больше коэффициентов достигает нуля и устраняется больше признаков.
Однако в гребневой регрессии улучшение от ошибки 5 до ошибки 4 вычисляется как 5² − 4² = 9, тогда как улучшение от 4 до 3 взвешивается только как 7. Постепенно вознаграждение за улучшение уменьшается; следовательно, устраняется меньше признаков.
Гребневая регрессия лучше подходит в ситуации, когда мы хотим сделать приоритетными большое количество переменных, каждая из которых имеет небольшой эффект. Если в модели требуется учитывать несколько переменных, каждая из которых имеет средний или большой эффект, лучшим выбором будет лассо.
Реализация
Гребневую регрессию в
sklearn
можно реализовать следующим образом (см. ниже). Как и для регрессии лассо, в
sklearn
есть реализация для перекрестной проверки выбора лучших из многих обученных моделей.
from sklearn.linear_model import RidgeCV
model = Ridge()
model.fit(X_train, y_train)
5. Регрессия ElasticNet
Теория
ElasticNet стремится объединить лучшее из гребневой регрессии и регрессии лассо, комбинируя регуляризацию L1 и L2.
Лассо и гребневая регрессия представляют собой два различных метода регуляризации. В обоих случаях λ — это ключевой фактор, который контролирует размер штрафа:
- Если λ = 0, то задача становится аналогичной простой линейной регрессии, достигая тех же коэффициентов.
- Если λ = ∞, то коэффициенты будут равны нулю из-за бесконечного веса на квадрате коэффициентов. Всё, что меньше нуля, делает цель бесконечной.
- Если 0 < λ < ∞, то величина λ определяет вес, придаваемый различным частям объекта.
К параметру λ регрессия ElasticNet добавляет дополнительный параметр
α, который измеряет, насколько «смешанными» должны быть регуляризации L1 и L2. Когда параметр
αравен 0, модель является чисто гребневой регрессией, а когда он равен 1 — это чистая регрессия лассо.
«Коэффициент смешивания» α просто определяет, сколько регуляризации L1 и L2 следует учитывать в функции потерь. Все три популярные регрессионные модели — гребневая, лассо и ElasticNet — нацелены на уменьшение размера своих коэффициентов, но каждая действует по-своему.
Реализация
ElasticNet можно реализовать с помощью модели перекрестной валидации sklearn:
from sklearn.linear_model import ElasticNetCV
model = ElasticNetCV()
model.fit(X_train, y_train)
Что еще почитать по теме:
- Анализ больших данных в облаке: как компании стать дата-ориентированной.
- Форматы файлов в больших данных.
- Наш телеграм-канал о цифровой трансформации.
6 типов регрессионных моделей в машинном обучении, о которых вы должны знать
ВведениеЛинейная регрессия и логистическая регрессия — это два типа типа регрессионного анализа , которые используются для решения задачи регрессии с использованием машинного обучения. Это наиболее известные методы регрессии. Но в машинном обучении есть много типов методов регрессионного анализа, и их использование зависит от природы задействованных данных.
В этой статье объясняются различные типы регрессии в машинном обучении и при каких условиях можно использовать каждый из них. Если вы новичок в машинном обучении, эта статья наверняка поможет вам понять концепцию регрессионного моделирования.
Мечтаете учиться за границей? Вот подходящая вам программа
Что такое регрессионный анализ?Регрессионный анализ — это метод прогнозного моделирования, который анализирует взаимосвязь между целевой или зависимой переменной и независимой переменной в наборе данных.Различные типы регрессионного анализа Методы используются, когда целевая и независимые переменные показывают линейную или нелинейную связь между собой, а целевая переменная содержит непрерывные значения. Метод регрессии используется в основном для определения силы предсказателя, тенденции прогноза, временных рядов и в случае причинно-следственной связи.
Регрессионный анализ — это основной метод решения проблем регрессии в машинном обучении с использованием моделирования данных.Он включает определение наиболее подходящей линии, которая проходит через все точки данных таким образом, чтобы минимизировать расстояние от линии до каждой точки данных.
Типы методов регрессионного анализаСуществует типов методов регрессионного анализа , и использование каждого метода зависит от количества факторов. Эти факторы включают тип целевой переменной, форму линии регрессии и количество независимых переменных.
Ниже приведены различные методы регрессии:
- Линейная регрессия
- Логистическая регрессия
- Регрессия хребта
- Регрессия Лассо
- Полиномиальная регрессия
- Байесовская линейная регрессия
Различные типы регрессии в методах машинного обучения подробно описаны ниже:
1. Линейная регрессияЛинейная регрессия — один из самых основных типов регрессии в машинном обучении .Модель линейной регрессии состоит из переменной-предиктора и зависимой переменной, линейно связанных друг с другом. Если данные включают более одной независимой переменной, то линейная регрессия называется моделями множественной линейной регрессии.
Приведенное ниже уравнение используется для обозначения модели линейной регрессии:
y = mx + c + e
, где m — наклон линии, c — точка пересечения, а e — ошибка модели.
Источник
Линия наилучшего соответствия определяется изменением значений m и c.Ошибка предсказателя — это разница между наблюдаемыми значениями и предсказанными значениями. Значения m и c выбираются таким образом, чтобы получить минимальную ошибку предсказания. Важно отметить, что простая модель линейной регрессии подвержена выбросам. Поэтому его не следует использовать в случае данных большого размера.
2. Логистическая регрессияЛогистическая регрессия — это один из видов техники регрессионного анализа, который используется, когда зависимая переменная является дискретной.Пример: 0 или 1, истина или ложь и т. Д. Это означает, что целевая переменная может иметь только два значения, а сигмовидная кривая обозначает связь между целевой переменной и независимой переменной.
Логит-функция используется в логистической регрессии для измерения взаимосвязи между целевой переменной и независимыми переменными. Ниже приведено уравнение, обозначающее логистическую регрессию.
logit (p) = ln (p / (1-p)) = b0 + b1X1 + b2X2 + b3X3…. + BkXk
, где p — вероятность появления признака.
Источник
Для выбора логистической регрессии в качестве метода регрессионного анализа следует отметить, что объем данных велик, а значения в целевых переменных почти равны. Кроме того, не должно быть мультиколлинеарности, что означает отсутствие корреляции между независимыми переменными в наборе данных.
3. Регрессия хребтаИсточник
Это еще один из типов регрессии в машинном обучении , который обычно используется, когда существует высокая корреляция между независимыми переменными.Это связано с тем, что в случае многоколлинеарных данных оценка методом наименьших квадратов дает несмещенные значения. {T} y
Проверьте: 5 передовых приложений машинного обучения
4.Регрессия лассоЛассо-регрессия — это один из типов регрессии в машинном обучении , который выполняет регуляризацию вместе с выбором функций. Он запрещает абсолютный размер коэффициента регрессии. В результате значение коэффициента приближается к нулю, чего не происходит в случае гребневой регрессии.
Из-за этого выбор объектов используется в регрессии лассо, которая позволяет выбрать набор объектов из набора данных для построения модели.{N} _ {i = 1} f (x_ {i}, y_ {I}, α, β)
5. Полиномиальная регрессияПолиномиальная регрессия — это еще один из типов регрессионного анализа методов машинного обучения, который аналогичен множественной линейной регрессии с небольшими изменениями. В полиномиальной регрессии отношение между независимыми и зависимыми переменными, то есть X и Y, обозначается n-й степенью.
Это линейная модель в качестве оценщика. Метод наименьшего среднего квадрата также используется в полиномиальной регрессии.Линия наилучшего соответствия в полиномиальной регрессии, которая проходит через все точки данных, является не прямой линией, а изогнутой линией, которая зависит от степени X или значения n.
Источник
При попытке уменьшить среднеквадратичную ошибку до минимума и получить наиболее подходящую линию, модель может быть подвержена переобучению. Рекомендуется анализировать кривую ближе к концу, поскольку полиномы с более высокими значениями могут дать странные результаты при экстраполяции.
Уравнение ниже представляет полиномиальную регрессию:
l = β0 + β0x1 + ε
Читать: Идеи проекта машинного обучения
6.Байесовская линейная регрессияБайесовская регрессия — это один из типов регрессии в машинном обучении , который использует теорему Байеса для определения значений коэффициентов регрессии. В этом методе регрессии определяется апостериорное распределение признаков вместо нахождения наименьших квадратов. Байесовская линейная регрессия похожа как на линейную регрессию, так и на гребневую регрессию, но более устойчива, чем простая линейная регрессия.
Источник
Изучите машинное обучение онлайн в лучших университетах мира — магистратуру, программы последипломного образования и программу продвинутых сертификатов в области машинного обучения и искусственного интеллекта, чтобы ускорить свою карьеру.
ЗаключениеПомимо вышеуказанных методов регрессии, в машинном обучении существует множество других типов регрессии, включая эластичную сетевую регрессию, регрессию JackKnife, пошаговую регрессию и экологическую регрессию.
Эти различных типов регрессионного анализа. Методы могут использоваться для построения модели в зависимости от типа доступных данных или от того, который дает максимальную точность. Вы можете изучить эти методы подробнее или пройти курс обучения с учителем на нашем веб-сайте.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG Diploma в области машинного обучения и искусственного интеллекта IIIT-B и выше, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT -B Статус выпускника, 5+ практических проектов и помощь в трудоустройстве в ведущих компаниях.
Какие бывают типы регрессии?
Существует 5 типов регрессии, т. Е. 1.линейная регрессия, 2. логистическая регрессия, 3. регрессия гребня, 4. регрессия Лассо, 5. Полиномиальная регрессия — это различные типы регрессии
Что такое регресс? Какие бывают виды регрессий?
Регрессия — это метод машинного обучения с учителем, который используется для прогнозирования непрерывных значений. Конечная цель алгоритма регрессии — построить наиболее подходящую линию или кривую между данными и линейной регрессией, логистическая регрессия, гребневая регрессия, регрессия Лассо, полиномиальная регрессия — это типы регрессии.
Когда мне следует использовать регрессионный анализ?
Регрессионный анализ используется, когда вы хотите спрогнозировать непрерывную зависимую переменную из ряда независимых переменных. Если зависимая переменная дихотомическая, следует использовать логистическую регрессию.
Возглавьте технологическую революцию, основанную на искусственном интеллекте
ДИПЛОМ PG ПО МАШИННОМУ ОБУЧЕНИЮ И ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ
Регрессионный анализ | Раскройте весь потенциал ваших данных
Регрессионный анализ — невероятно мощный инструмент машинного обучения, используемый для анализа данных.Здесь мы рассмотрим, как это работает, каковы основные типы и что он может сделать для вашего бизнеса.
Что такое регресс в машинном обучении?
Регрессионный анализ — это способ прогнозирования будущих событий между зависимой (целевой) и одной или несколькими независимыми переменными (также известными как предиктор). Например, его можно использовать для прогнозирования взаимосвязи между безрассудным вождением и общим количеством дорожно-транспортных происшествий, вызванных водителем, или, используя бизнес-пример, влияния на продажи и трату определенной суммы денег на рекламу.
Регрессия — одна из самых распространенных моделей машинного обучения. Он отличается от моделей классификации, поскольку оценивает числовое значение, тогда как модели классификации определяют, к какой категории принадлежит наблюдение.
Основное применение регрессионного анализа — это прогнозирование, моделирование временных рядов и поиск причинно-следственных связей между переменными.
Почему это важно?
Regression имеет широкий спектр реальных приложений.Это важно для любой задачи машинного обучения, связанной с непрерывными числами — сюда входит, помимо прочего, множество примеров, в том числе:
- · Финансовое прогнозирование (например, оценка цен на жилье или цены акций)
- · Прогнозирование продаж и рекламных акций
- · Испытание автомобилей
- · Анализ и прогноз погоды
- · Прогнозирование временных рядов
Регрессионный анализ не только сообщает вам, существует ли значимая взаимосвязь между двумя или более переменными, но и дает конкретные сведения об этой взаимосвязи.В частности, он может оценить силу воздействия, которое несколько переменных окажут на зависимую переменную. Если вы измените значение одной переменной (например, цены), регрессионный анализ должен сказать вам, какое влияние это окажет на зависимую переменную (продажи).
Компании могут использовать регрессионный анализ для проверки влияния переменных, измеренных в различных масштабах. Имея его в своем наборе инструментов, вы можете оценить лучший набор переменных для использования при построении прогнозных моделей, что значительно повысит точность вашего прогнозирования.
Наконец, регрессионный анализ — лучший способ решения задач регрессии в машинном обучении с использованием моделирования данных. Нанося точки данных на диаграмму и пропуская через них наиболее подходящую линию, вы можете предсказать вероятность ошибки каждой точки данных: чем дальше от линии, на которой они расположены, тем выше их ошибка предсказания (эта линия наилучшего соответствия также известна как линия регрессии).
Какие существуют типы регрессии?
1. Линейная регрессия
Один из самых основных типов регрессии в машинном обучении, линейная регрессия, состоит из переменной-предиктора и зависимой переменной, связанных друг с другом линейным образом. Линейная регрессия предполагает использование наиболее подходящей линии, как описано выше.
Вы должны использовать линейную регрессию, когда ваши переменные связаны линейно. Например, если вы прогнозируете влияние увеличения рекламных расходов на продажи. Однако этот анализ подвержен выбросам, поэтому его не следует использовать для анализа наборов больших данных.
2. Логистическая регрессия
Имеет ли ваша зависимая переменная дискретное значение? Другими словами, может ли он иметь только одно из двух значений (0 или 1, истина или ложь, черный или белый, спам или не спам и т. Д.)? В этом случае вы можете использовать логистическую регрессию для анализа ваших данных.
Логистическая регрессия использует сигмовидную кривую, чтобы показать взаимосвязь между целевой и независимыми переменными. Однако следует проявлять осторожность: логистическая регрессия лучше всего работает с большими наборами данных, которые имеют почти равное количество значений в целевых переменных.Набор данных не должен содержать высокой корреляции между независимыми переменными (явление, известное как мультиколлинеарность), поскольку это создаст проблему при ранжировании переменных.
3. Регрессия хребта
Если, однако, у вас действительно высокая корреляция между независимыми переменными, гребенчатая регрессия является более подходящим инструментом. Он известен как метод регуляризации и используется для уменьшения сложности модели. Он вводит небольшое смещение (известное как «штраф за гребневую регрессию»), которое, используя матрицу смещения, делает модель менее подверженной переобучению.
4. Регрессия лассо
Подобно гребневой регрессии, лассо-регрессия — это еще один метод регуляризации, который снижает сложность модели. Это достигается путем запрета абсолютного размера коэффициента регрессии. Это приводит к тому, что значение коэффициента становится ближе к нулю, чего не происходит при регрессии гребня.
Преимущество? Он может использовать выбор объектов, что позволяет выбрать набор объектов из набора данных для построения модели. Используя только необходимые функции и устанавливая остальные как ноль, регрессия лассо позволяет избежать переобучения.
5. Полиномиальная регрессия
Полиномиальная регрессия моделирует нелинейный набор данных с использованием линейной модели. Это то же самое, что вставить квадратный штифт в круглое отверстие. Он работает аналогично множественной линейной регрессии (которая является просто линейной регрессией, но с несколькими независимыми переменными), но использует нелинейную кривую. Он используется, когда точки данных присутствуют нелинейным образом.
Модель преобразует эти точки данных в полиномиальные элементы заданной степени и моделирует их с помощью линейной модели.Это предполагает их наилучшую подгонку с использованием полиномиальной линии, которая изогнута, а не прямой линии, наблюдаемой в линейной регрессии. Однако эта модель может быть подвержена переобучению, поэтому рекомендуется проанализировать кривую ближе к концу, чтобы избежать странных результатов.
Существует больше типов регрессионного анализа, чем перечисленных здесь, но эти пять, вероятно, используются чаще всего. Убедитесь, что вы выбрали правильный, и он может раскрыть весь потенциал ваших данных, направив вас на путь к более глубокому пониманию.
* Хотите узнать больше о том, как с помощью машинного обучения превратить ваши данные в полезные идеи? Свяжитесь с нашей командой сегодня для эксклюзивной консультации.
16 различных типов регрессионного анализа
Введение
Термин регрессия используется для обозначения оценки или прогноза среднего значения одной переменной для указанного значения другой переменной. А регрессионный анализ — это статистический инструмент, используемый для оценки взаимосвязи между зависимой переменной и независимой переменной.Например, если менеджер фирмы хочет установить точную взаимосвязь между расходами на рекламу и продажами для будущего планирования, то метод регрессии будет наиболее подходящим для него.
Существуют разные виды регрессионного анализа, поговорим о нем подробнее: —
1. Линейная регрессия
Линейная регрессия — это тип модели, в которой предполагается, что связь между независимой переменной и зависимой переменной является линейной.Оценка переменной «y» получается из уравнения y’- y_bar = byx (x-x_bar) …… (1), а оценка переменной «x» получается с помощью уравнения x’-x_bar = bxy (y-y_bar) … .. (2). Графическое представление линейных уравнений на (1) и (2) известно как линии регрессии. Эти линии получены методом наименьших квадратов.
Есть два вида модели линейной регрессии: —
- Простая линейная регрессия: модель линейной регрессии с одной независимой и одной зависимой переменной.
- Множественная линейная регрессия: модель линейной регрессии с более чем одной независимой переменной и одной зависимой переменной.
Допущения линейной регрессии
- Размер выборки: n = 20 (случаев на независимую переменную)
- Гетероскедастичность отсутствует —
- Между переменными существуют линейные отношения.
- Независимые выборочные наблюдения.
- Нет мультиколлинеарности и автокорреляции
- Независимые наблюдения выборки.
2. Полиномиальная регрессия
Это тип регрессионного анализа, который моделирует взаимосвязь значений зависимой переменной «x» и независимых переменных «y’ ’как нелинейной. Это особый случай множественной линейной регрессии, хотя он соответствует нелинейной модели данных. Это связано с тем, что данные могут быть коррелированы, но взаимосвязь между двумя переменными может не выглядеть линейной.
3. Логистическая регрессия
Логистическая регрессия — это метод, который впервые был использован в области биологии в 20 веке.Он используется для оценки вероятности определенных взаимоисключающих событий, например счастливых / печальных, нормальных / ненормальных или успешных / неудачных. Значение вероятности строго колеблется от 0 до 1.
4. Квантильная регрессия
Квантильная регрессия — это эконометрический метод, который используется, когда необходимые условия для использования линейной регрессии не выполняются должным образом. Это расширение анализа линейной регрессии, то есть мы можем использовать его, когда в данных присутствуют выбросы, поскольку его оценки сильны против выбросов по сравнению с линейной регрессией.
5. Регрессия хребта
Чтобы понять регрессию хребта, нам сначала нужно пройти через концепцию регуляризации.
Регуляризация: существует два типа регуляризации: регуляризация L1 и регуляризация L2. Регуляризация L1 добавляет штраф L1, равный значению коэффициентов, чтобы ограничить размер коэффициентов, что приводит к удалению некоторых коэффициентов. С другой стороны, L2-регуляризация добавляет штраф L2, равный квадрату коэффициентов.
Использование вышеупомянутого метода Регуляризация решает проблему сценария, в котором модель хорошо работает с обучающими данными, но отстает от данных проверки.
6. Регрессия лассо
LASSO (оператор наименьшей абсолютной усадки и выбора) — это метод регрессии, который впервые был применен в геофизике. Термин «лассо» был изобретен профессором Робертом Тибширани. Как и Ridge Regression, он использует регуляризацию для оценки результатов.Кроме того, он также использует выбор переменных, чтобы сделать модель более эффективной.
7. Эластичная чистая регрессия
Упругая чистая регрессия предпочтительнее регрессии гребня и лассо, когда приходится иметь дело с сильно коррелированными независимыми переменными.
8. Регрессия основных компонентов (ПЦР)
Метод регрессии основных компонентов, который широко используется при наличии различных независимых переменных. Этот метод используется для предположения неизвестного коэффициента регрессии в стандартной модели линейной регрессии.Техника разделена на два этапа,
1. Получение основных компонентов
2. Выполните регрессионный анализ основных компонентов.
9. Частичная наименьшая регрессия (ПЦР)
Это замещающий метод регрессии главных компонентов, когда имеется широко коррелированная независимая переменная. Этот метод полезен, когда имеется много независимых переменных. Метод наименьшей частичной регрессии широко используется в химической, фармацевтической, пищевой и пластмассовой промышленности.
10. Регрессия опорных векторов
Поддерживающая векторная регрессия может использоваться для решения как линейных, так и нелинейных моделей. Было определено, что регрессия опорных векторов является продуктивной, чтобы быть эффективной оценкой функции реального значения.
11. Порядковая регрессия
Порядковая регрессия используется для прогнозирования ранжированных значений. Этот метод полезен, когда зависимая переменная является порядковой. Двумя примерами порядковой регрессии являются упорядоченный логит и упорядоченный пробит.
12. Регрессия Пуассона
Регрессия Пуассона используется для прогнозирования количества вызовов, связанных с конкретным продуктом по обслуживанию клиентов. Регрессия Пуассона используется, когда зависимая переменная имеет вычисление. Регрессия Пуассона также известна как лог-линейная модель, когда она используется для моделирования таблиц непредвиденных обстоятельств. Его зависимая переменная y имеет распределение Пуассона.
13. Отрицательная биномиальная регрессия
Подобно регрессии Пуассона, отрицательная биномиальная регрессия также согласуется с данными подсчета, с той лишь разницей, что отрицательная биномиальная регрессия не предсказывает распределение количества, которое имеет дисперсию, равную его среднему значению.
14. Квазипуассоновская регрессия
Квазипуассоновская регрессия заменяет отрицательную биномиальную регрессию. Этот метод можно использовать для сверхдисперсных данных подсчета.
15. Регрессия Кокса
Регрессия Кокса полезна для получения данных о времени до события. Он показывает влияние переменных на время за определенный период. Регрессия Кокса также известна как пропорциональная регрессия рисков.
16. Тобит регрессия
Регрессия Tobit используется для оценки линейных отношений между переменными, когда в зависимой переменной существует цензура (наблюдение за независимой переменной для всех наблюдений).Значение зависимого отображается как одно значение.
ЗаключениеТипы регрессионного анализа перечислены выше, но выбор правильной регрессионной модели является сложной задачей. Это требует обширных знаний о статистических инструментах и их применении. Правильный метод был выбран в зависимости от характера переменной, данных и самой модели. В целом, в последнее время различные типы регрессионного анализа позволяют очень легко вычислять дискретные и отдельные данные, причем не только в области математики / статистики, но и во многих приложениях в реальном мире.Следовательно, регрессионный анализ — благо для человечества.
Если вы заинтересованы в карьере в области Data Science, наш 11-месячный очный курс Post Graduation in Data Science может очень помочь вам стать успешным профессионалом в области Data Science.
ТАКЖЕ ПРОЧИТАЙТЕ
9 типов регрессионного анализа (в машинном обучении и науке о данных)
Начав изучать мир науки о данных, вы понимаете, что возможностям нет предела, и существует множество алгоритмов и методов для обучения модели в зависимости от различных типов данных, структуры данных и выходных данных модели.
Одним из наиболее распространенных алгоритмов машинного обучения является регрессионный анализ, который представляет собой алгоритм обучения с учителем, при котором вы обучаете помеченные данные для вывода непрерывных переменных. При использовании различных типов алгоритмов регрессии важно выбрать правильный алгоритм в зависимости от ваших данных и проблемы, которую решает ваша модель. В этом руководстве мы обсудим различные типы регрессионного анализа в машинном обучении и науке о данных, зачем нам нужен регрессионный анализ и как выбрать лучший алгоритм в соответствии с данными, чтобы получить оптимальную точность тестирования модели.
Итак, давай возьмем Кракена!
Что такое регрессионный анализ?Метод прогнозного моделирования, который оценивает связь между зависимыми (т. Е. Целевой переменной) и независимыми переменными, известен как регрессионный анализ. Регрессионный анализ можно использовать для прогнозирования, моделирования временных рядов или поиска связи между переменными и прогнозирования непрерывных значений. Например, взаимосвязь между местоположением домохозяйства и счетом за электроэнергию в домохозяйстве водителем лучше всего изучать с помощью регрессии.
Мы можем анализировать данные и выполнять моделирование данных с помощью регрессионного анализа. Здесь мы создаем границу / линию решения в соответствии с точками данных, чтобы минимизировать различия между расстояниями точек данных от кривой или линии.
Потребность в методах регрессииПриложения регрессионного анализа, преимущества линейной регрессии, а также преимущества регрессионного анализа и регрессионного метода прогнозирования могут помочь малому бизнесу, да и вообще любому бизнесу, лучше понять переменные (или факторы), которые могут повлияет на его успех в ближайшие недели, месяцы и годы в будущем.
Данные — это важные цифры, которые определяют бизнес в целом. Регрессионный анализ помогает анализировать количество данных и помогает крупным компаниям и предприятиям принимать более обоснованные решения. Прогнозирование регрессии — это анализ взаимосвязей между точками данных, который может помочь вам заглянуть в будущее.
9 типов регрессионного анализаТипы регрессионного анализа, которые мы собираемся изучить здесь:
- Простая линейная регрессия
- Множественная линейная регрессия
- Полиномиальная регрессия
- Логистическая регрессия
- Регрессия хребта
- Регрессия Лассо
- Байесовская линейная регрессия
Есть несколько алгоритмов, которые мы используем для обучения регрессионной модели для создания прогнозов с непрерывными значениями.
- Регрессия дерева решений
- Регрессия случайного леса
Существуют различные типы регрессионных моделей для создания прогнозов. Эти методы в основном основаны на трех основных атрибутах: один — количество независимых переменных, второй — тип зависимых переменных и, наконец, форма линии регрессии.
1) Простая линейная регрессияЛинейная регрессия — это самая основная форма алгоритмов регрессии в машинном обучении.Модель состоит из одного параметра, а зависимая переменная имеет линейную зависимость. Когда количество независимых переменных увеличивается, это называется моделями множественной линейной регрессии.
Мы обозначаем простую линейную регрессию следующим уравнением, приведенным ниже.
y = mx + c + e
, где м, — наклон линии, c — точка пересечения, а e — ошибка модели.
Граница наиболее подходящего решения определяется изменением значений m и c для различных комбинаций.Разница между наблюдаемыми и предсказанными значениями называется ошибкой предсказателя. Значения m и c выбираются с минимальной ошибкой предсказателя.
О чем следует помнить:
- Обратите внимание, что простая модель линейной регрессии более восприимчива к выбросам; его не следует использовать в случае данных большого размера.
- Между независимыми и зависимыми переменными должна быть линейная связь.
- Есть только одна независимая и зависимая переменная.
- Тип линии регрессии: наиболее подходящая прямая.
Простая линейная регрессия позволяет специалисту по обработке данных или аналитику данных делать прогнозы только для одной переменной, обучая модель и прогнозируя другую переменную. Аналогичным образом модель множественной регрессии распространяется на несколько более чем на одну переменную .
Простая линейная регрессия использует следующую линейную функцию для прогнозирования значения целевой переменной y с независимой переменной x ?.
y = b 0 + b 1 x 1
Чтобы минимизировать квадратную ошибку, получаем параметры b? а б? которая лучше всего соответствует данным после подгонки линейного уравнения к наблюдаемым данным.
О чем следует помнить:
- Множественная регрессия показывает эти особенности. мультиколлинеарность, автокорреляция, гетероскедастичность.
- Мультиколлинеарность увеличивает дисперсию оценок коэффициентов и делает оценки очень чувствительными к незначительным изменениям в модели.В результате оценки коэффициентов нестабильны.
- В случае нескольких независимых переменных мы можем использовать прямой выбор, обратное исключение, и пошаговый подход для выбора признаков.
В полиномиальной регрессии степень независимой переменной больше 1. Уравнение ниже представляет собой полиномиальное уравнение:
y = a + bx 2
В этом методе регрессии линия наилучшего соответствия не является прямой линией.Это скорее кривая, которая соответствует точкам данных.
О чем следует помнить:
- Подгонка полинома более высокой степени для получения более низкой ошибки может привести к переобучению. Построить взаимосвязи, чтобы увидеть соответствие, и сфокусироваться, чтобы убедиться, что кривая соответствует характеру проблемы. Вот пример того, как может помочь построение графика:
Источник
4) Логистическая регрессияЛогистическая регрессия — это метод регрессии, когда зависимая переменная является дискретной.Пример: 0 или 1, истина или ложь и т. Д. Это означает, что целевая переменная может иметь только два значения, а сигмоидальная функция показывает связь между целевой переменной и независимой переменной.
Логистическая функция используется в логистической регрессии для создания связи между целевой переменной и независимыми переменными. Приведенное ниже уравнение обозначает логистическую регрессию.
здесь p — вероятность появления признака.
5) Регрессия хребтаРиджерная регрессия — это еще один тип регрессии в машинном обучении, который обычно используется, когда между параметрами существует высокая корреляция.{Т} у
6) Регрессия лассоLasso Regression выполняет регуляризацию вместе с выбором признаков. Это позволяет избежать абсолютного размера коэффициента регрессии. Это приводит к тому, что значение коэффициента приближается к нулю, это свойство отличается от того, что в регрессии гребня.
Поэтому мы используем выбор объектов в регрессии лассо. В случае регрессии лассо используются только необходимые параметры, а остальные обнуляются.{N} _ {i = 1} f (x_ {i}, y_ {I}, α, β)
Источник
7) Байесовская линейная регрессияБайесовская регрессия используется для определения значений коэффициентов регрессии. В байесовской линейной регрессии вместо нахождения наименьших квадратов определяется апостериорное распределение признаков. Байесовская линейная регрессия — это комбинация линейной регрессии и гребневой регрессии, но она более устойчива, чем простая линейная регрессия.
Теперь мы изучим некоторые типы регрессионного анализа, которые можно использовать для обучения регрессионных моделей для создания прогнозов с непрерывными значениями.
8) Регрессия дерева решенийДерево решений, как следует из названия, работает по принципу условий. Он эффективен и имеет сильные алгоритмы, используемые для прогнозного анализа. В основном это относится к внутренним узлам, ветвям и конечному узлу.
Каждый внутренний узел содержит «тест» для атрибута, ветви содержат заключение теста, а каждый конечный узел означает метку класса. Он используется как для классификации, так и для регрессии, которые являются контролируемыми алгоритмами обучения.Деревья решений очень деликатны по отношению к информации, на которой они подготовлены — небольшие изменения в наборе подготовки могут привести к принципиально иным структурам дерева.
Источник
9) Регрессия случайного лесаСлучайный лес, как следует из названия, состоит из огромного количества отдельных деревьев решений, которые работают как группа или, как говорится, ансамбль. Каждое отдельное дерево решений в случайном лесу дает предсказание класса, а класс с наибольшим количеством голосов считается предсказанием модели.
Случайный лес использует это, позволяя каждому отдельному дереву произвольно выбирать из набора данных с заменой, в результате чего возникают различные деревья. Это называется упаковкой в мешки.
Как выбрать правильную регрессионную модель?Каждый тип регрессионной модели работает по-разному, и эффективность модели зависит от структуры данных. Различные типы алгоритмов помогают определить, какие параметры необходимы для создания прогнозов. Есть несколько методов выбора модели.
- Скорректированный R-квадрат и предсказанный R-квадрат: Модели с большими скорректированными и предсказанными значениями R-квадрата более эффективны. Эта статистика может помочь вам избежать фундаментальной проблемы с обычным R-квадратом — он всегда увеличивается, когда вы добавляете независимую переменную. Это свойство может привести к созданию более сложных моделей, которые иногда могут давать неверные результаты.
- Скорректированный R-квадрат увеличивается, когда новый параметр улучшает модель.Параметры низкого качества могут снизить эффективность модели.
- Прогнозируемый R-квадрат — это метод перекрестной проверки, который также может снизить точность модели. Перекрестная проверка разделяет данные, чтобы определить, является ли модель универсальной моделью для набора данных.
- P-значения для независимых переменных: В регрессии меньшие p-значения, чем уровень значимости, указывают на то, что гипотеза статистически значима. «Редукция модели» — это процесс включения всех параметров в модель с последующим многократным удалением члена с наивысшим несущественным p-значением до тех пор, пока модель не будет содержать только значимые взвешенные члены.
- Пошаговая регрессия и регрессия лучших подмножеств: Два алгоритма, которые мы обсуждали для автоматического выбора модели, которые выбирают независимые переменные для включения в уравнение регрессии. Когда у нас есть огромное количество независимых переменных и требуется процесс выбора переменных, эти автоматизированные методы могут быть очень полезны.
Различные типы регрессионного анализа в науке о данных и машинном обучении, обсуждаемые в этом руководстве, могут использоваться для построения модели в зависимости от структуры обучающих данных для достижения оптимальной точности модели.
Я надеюсь, что это руководство поможет вам получить более четкое представление об алгоритмах регрессии и их применении. Удачного обучения 🙂
Методы регрессии в машинном обучении
Обзор
- Узнайте о различных типах регрессии в машинном обучении, включая линейную и логистическую регрессию
- Каждый метод регрессии имеет собственное уравнение регрессии и коэффициенты регрессии
- В этой статье мы рассмотрим 7 различных типов регрессии.
Введение
Линейные и логистические регрессии обычно являются первыми алгоритмами, которые люди изучают в науке о данных.Из-за их популярности многие аналитики даже считают, что они являются единственной формой регрессии. Те, кто немного более вовлечен, думают, что они являются наиболее важными среди всех форм регрессионного анализа.
На самом деле существует бесчисленное множество форм регрессии, которые могут быть выполнены. Каждая форма имеет свое значение и определенное условие, в котором они лучше всего подходят. В этой статье я просто объяснил 7 наиболее часто используемых типов регрессии в науке о данных.
Благодаря этой статье я также надеюсь, что люди получат представление о широте регрессий, вместо того, чтобы просто применять линейную / логистическую регрессию к каждой проблеме машинного обучения, с которой они сталкиваются, и надеяться, что они точно подойдут!
У нас также есть видеоформат основной методики регрессионного анализа в следующем бесплатном курсе — Основы регрессионного анализа
А если вы новичок в науке о данных и ищете место, чтобы начать свой путь, у нас есть несколько комплексных курсов, которые могут вас заинтересовать —
Содержание
- Что такое регрессионный анализ?
- Почему мы используем регрессионный анализ?
- Какие бывают типы регрессий?
- Линейная регрессия
- Логистическая регрессия
- Полиномиальная регрессия
- Пошаговая регрессия
- Регрессия хребта
- Регрессия Лассо
- Регрессия ElasticNet
- Как выбрать правильную модель регрессии?
Что такое регрессионный анализ?
Регрессионный анализ — это форма метода прогнозного моделирования, который исследует взаимосвязь между зависимой (целевой) и независимой (ыми) переменной (ами) (предиктор).Этот метод используется для прогнозирования, моделирования временных рядов и нахождения причинно-следственной связи между переменными. Например, связь между опрометчивым вождением и количеством дорожно-транспортных происшествий с участием водителя лучше всего изучать с помощью регрессии.
Регрессионный анализ — важный инструмент для моделирования и анализа данных. Здесь мы подгоняем кривую / линию к точкам данных таким образом, чтобы минимизировать различия между расстояниями точек данных от кривой или линии.Я объясню это более подробно в следующих разделах.
Почему мы используем регрессионный анализ?
Как упоминалось выше, регрессионный анализ оценивает взаимосвязь между двумя или более переменными. Давайте разберемся с этим на простом примере:
Допустим, вы хотите оценить рост продаж компании, исходя из текущих экономических условий. У вас есть последние данные компании, которые показывают, что рост продаж примерно в два с половиной раза превышает рост экономики.Используя это понимание, мы можем предсказать будущие продажи компании на основе текущей и прошлой информации.
Есть несколько преимуществ использования регрессионного анализа. Это следующие:
- Указывает на значимых взаимосвязей между зависимой переменной и независимой переменной.
- Указывает на силу воздействия нескольких независимых переменных на зависимую переменную.
Регрессионный анализ также позволяет нам сравнивать эффекты переменных, измеренных в разных масштабах, например, влияние изменений цен и количество рекламных мероприятий.Эти преимущества помогают исследователям рынка / аналитикам данных / исследователям данных исключить и оценить лучший набор переменных, которые будут использоваться для построения прогнозных моделей.
Сколько типов методов регрессии у нас есть?
Существуют различные методы регрессии, позволяющие делать прогнозы. Эти методы в основном основаны на трех показателях (количество независимых переменных, тип зависимых переменных и форма линии регрессии). Мы обсудим их подробно в следующих разделах.
Для творческих людей вы можете даже приготовить новые регрессии, если почувствуете необходимость использовать комбинацию вышеперечисленных параметров, которую люди раньше не использовали. Но прежде чем вы начнете, давайте разберемся с наиболее часто используемыми регрессиями:
1. Линейная регрессия
Это один из самых известных методов моделирования. Линейная регрессия обычно входит в число первых нескольких тем, которые люди выбирают при изучении прогнозного моделирования.В этом методе зависимая переменная является непрерывной, независимые переменные могут быть непрерывными или дискретными, а характер линии регрессии является линейным.
Линейная регрессия устанавливает связь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X) , используя прямую наилучшего соответствия (также известную как линия регрессии).
Представляется уравнением Y = a + b * X + e , где a — точка пересечения, b — наклон линии, а e — член ошибки.Это уравнение можно использовать для прогнозирования значения целевой переменной на основе заданных переменных-предикторов.
Разница между простой линейной регрессией и множественной линейной регрессией состоит в том, что множественная линейная регрессия имеет (> 1) независимых переменных, тогда как простая линейная регрессия имеет только 1 независимую переменную. Теперь возникает вопрос: «Как получить наиболее подходящую линию?».
Как получить наиболее подходящую линию (значение a и b)?
Эту задачу легко решить методом наименьших квадратов.Это наиболее распространенный метод подбора линии регрессии. Он вычисляет наиболее подходящую линию для наблюдаемых данных, минимизируя сумму квадратов вертикальных отклонений от каждой точки данных до линии. Поскольку отклонения сначала возводятся в квадрат, при добавлении нет исключения между положительными и отрицательными значениями.
Мы можем оценить производительность модели, используя метрику R-квадрат . Чтобы узнать больше об этих показателях, вы можете прочитать: Показатели производительности модели, часть 1, часть 2.
Важные моменты:
- Между независимыми и зависимыми переменными должно быть линейных отношений
- Множественная регрессия страдает мультиколлинеарностью , автокорреляцией, гетероскедастичностью .
- Линейная регрессия очень чувствительна к выбросам . Это может ужасно повлиять на линию регрессии и, в конечном итоге, на прогнозируемые значения.
- Мультиколлинеарность может увеличить дисперсию оценок коэффициентов и сделать оценки очень чувствительными к незначительным изменениям в модели.В результате оценки коэффициентов нестабильны
- В случае нескольких независимых переменных мы можем использовать прямого выбора , обратного исключения и пошагового подхода для выбора наиболее значимых независимых переменных.
2. Логистическая регрессия
Логистическая регрессия используется для определения вероятности события = Успех и события = Неудача. Мы должны использовать логистическую регрессию, когда зависимая переменная является двоичной (0/1, Истина / Ложь, Да / Нет) по своей природе.Здесь значение Y находится в диапазоне от 0 до 1 и может быть представлено следующим уравнением.
шансы = p / (1-p) = вероятность наступления события / вероятность не наступления события ln (коэффициент) = ln (p / (1-p)) logit (p) = ln (p / (1-p)) = b0 + b1X1 + b2X2 + b3X3 .... + bkXk
Выше p — вероятность наличия интересующей характеристики. Здесь вам следует задать вопрос: «Почему мы использовали логарифм в уравнении?».
Поскольку мы работаем здесь с биномиальным распределением (зависимой переменной), нам нужно выбрать функцию связи, которая лучше всего подходит для этого распределения.И это функция logit . В приведенном выше уравнении параметры выбираются так, чтобы максимизировать вероятность наблюдения значений выборки, а не минимизировать сумму квадратов ошибок (как в обычной регрессии).
Важные моменты:
- Логистическая регрессия широко используется для задач классификации
- Логистическая регрессия не требует линейной связи между зависимыми и независимыми переменными. Он может обрабатывать различные типы отношений, поскольку он применяет нелинейное логарифмическое преобразование к прогнозируемому отношению шансов .
- Чтобы избежать чрезмерной и недостаточной подгонки, мы должны включить все значимые переменные.Хороший подход для обеспечения такой практики — использовать пошаговый метод оценки логистической регрессии
- Для этого требуется больших размеров выборки , потому что оценки максимального правдоподобия менее эффективны при малых размерах выборки, чем обычные методы наименьших квадратов
- Независимые переменные не должны коррелировать друг с другом, т.е. без мультиколлинеарности . Однако у нас есть возможность включить эффекты взаимодействия категориальных переменных в анализ и в модель.
- Если значения зависимой переменной являются порядковыми, то это называется Порядковая логистическая регрессия
- Если зависимая переменная является мульти-классом, то она известна как Полиномиальная логистическая регрессия .
Примечание. Вы можете понять описанные выше методы регрессии в видеоформате — Основы регрессионного анализа
3. Полиномиальная регрессия
Уравнение регрессии — это уравнение полиномиальной регрессии, если степень независимой переменной больше 1.2
В этом методе регрессии линия наилучшего соответствия не является прямой линией. Это скорее кривая, которая соответствует точкам данных.
Важные моменты:
- Хотя может возникнуть соблазн подобрать полином более высокой степени, чтобы получить меньшую ошибку, это может привести к чрезмерной подгонке. Всегда строите взаимосвязи, чтобы увидеть соответствие, и сосредоточьтесь на том, чтобы убедиться, что кривая соответствует характеру проблемы. Вот пример того, как может помочь построение графика:
- Особенно обратите внимание на изгибы к концам и посмотрите, имеют ли смысл эти формы и тенденции.Более высокие полиномы могут привести к странным результатам при экстраполяции.
4. Пошаговая регрессия
Эта форма регрессии используется, когда мы имеем дело с несколькими независимыми переменными. В этом методе выбор независимых переменных осуществляется с помощью автоматического процесса, который включает в себя нет вмешательства человека.
Этот подвиг достигается путем наблюдения за статистическими значениями, такими как R-квадрат, t-статистика и метрика AIC, для выявления значимых переменных.Пошаговая регрессия в основном соответствует модели регрессии, добавляя / удаляя коварианты по одному на основе заданного критерия. Некоторые из наиболее часто используемых методов пошаговой регрессии перечислены ниже:
- Стандартная пошаговая регрессия делает две вещи. Он добавляет и удаляет предикторы по мере необходимости для каждого шага.
- Прямой выбор начинается с наиболее значимого предиктора в модели и добавляет переменную для каждого шага.
- Обратное исключение начинается со всех предикторов в модели и удаляет наименее значимую переменную для каждого шага.
Цель этого метода моделирования — максимизировать мощность прогнозирования с минимальным количеством переменных-предикторов. Это один из методов работы с более высокой размерностью набора данных.
5. Регрессия хребта
Ридж-регрессия — это метод, используемый, когда данные страдают от мультиколлинеарности (независимые переменные сильно коррелированы). В мультиколлинеарности, даже несмотря на то, что оценки наименьших квадратов (МНК) несмещены, их дисперсия велика, что сильно отклоняет наблюдаемое значение от истинного значения.Добавляя степень смещения к оценкам регрессии, гребневая регрессия снижает стандартные ошибки.
Выше мы видели уравнение линейной регрессии. Помнить? Его можно представить как:
у = а + Ь * х
Это уравнение также содержит ошибку. Полное уравнение принимает вид:
y = a + b * x + e (член ошибки), [член ошибки - это значение, необходимое для исправления ошибки предсказания между наблюдаемым и предсказанным значением]
=> y = a + y = a + b1x1 + b2x2 + ....+ e для нескольких независимых переменных.
В линейном уравнении ошибки предсказания можно разложить на два подкомпонента. Первое связано с смещением , а второе — с отклонением . Ошибка прогноза может возникнуть из-за любого из этих двух или обоих компонентов. Здесь мы обсудим ошибку, вызванную отклонениями.
Регрессия гребня решает проблему мультиколлинеарности с помощью параметра усадки λ (лямбда). Посмотрите на уравнение ниже.
В этом уравнении есть две составляющие.Первый — это член наименьших квадратов, а другой — лямбда суммы β2 (бета-квадрат), где β — коэффициент. Это добавляется к члену наименьших квадратов, чтобы уменьшить параметр, чтобы иметь очень низкую дисперсию.
Важные моменты:
- Предположения этой регрессии такие же, как и для регрессии по методу наименьших квадратов, за исключением того, что нормальность не предполагается
- Регрессия гребня уменьшает значение коэффициентов, но не достигает нуля, что предполагает отсутствие функции выбора признаков.
- Это метод регуляризации, использующий регуляризацию l2.
6. Регрессия Лассо
Подобно гребенчатой регрессии, лассо (оператор наименьшего абсолютного сжатия и выбора) также снижает абсолютный размер коэффициентов регрессии. Кроме того, он способен уменьшить изменчивость и повысить точность моделей линейной регрессии. Посмотрите на уравнение ниже: регрессия лассо отличается от регрессии гребня тем, что в функции штрафа используются абсолютные значения, а не квадраты.Это приводит к наложению штрафа (или эквивалентному ограничению суммы абсолютных значений оценок) значений, что приводит к тому, что некоторые из оценок параметров оказываются в точности равными нулю. Чем больше применяется штраф, тем дальше оценки сокращаются до абсолютного нуля. Это приводит к выбору переменных из заданных n переменных.
Важные моменты:
- Допущения для регрессии лассо такие же, как и для регрессии по методу наименьших квадратов, за исключением того, что нормальность не предполагается
- Лассо-регрессия уменьшает коэффициенты до нуля (точно до нуля), что, безусловно, помогает при выборе признаков.
- Лассо — это метод регуляризации, использующий регуляризацию l1
- Если группа предикторов сильно коррелирована, лассо выбирает только один из них и сжимает остальные до нуля
7.Регрессия ElasticNet
ElasticNet — это гибрид методов лассо и гребневой регрессии. Он обучается с L1 и L2 до регуляризатора. Эластичная сетка полезна, когда есть несколько взаимосвязанных функций. Лассо, вероятно, выберет одно из них наугад, а эластичная сетка — и то, и другое.
Практическое преимущество компромисса между Lasso и Ridge состоит в том, что он позволяет Elastic-Net унаследовать часть стабильности Ridge при вращении.
Важные моменты:
- Он поощряет групповой эффект в случае сильно коррелированных переменных
- Нет ограничений на количество выбираемых переменных
- Может иметь двойную усадку
Помимо этих 7 наиболее часто используемых методов регрессии, вы также можете изучить другие модели, такие как байесовская, экологическая и робастная регрессия.
Как выбрать правильную регрессионную модель?
Жизнь обычно проста, когда ты знаешь только одну или две техники. Один из учебных заведений, о которых я знаю, говорит своим студентам — если результат непрерывен — применять линейную регрессию. Если он бинарный — используйте логистическую регрессию! Однако чем больше в нашем распоряжении вариантов, тем сложнее выбрать подходящий. Аналогичный случай происходит с регрессионными моделями.
В рамках нескольких типов регрессионных моделей важно выбрать наиболее подходящий метод на основе типа независимых и зависимых переменных, размерности данных и других важных характеристик данных.Ниже приведены ключевые факторы, которые вам следует практиковать, чтобы выбрать правильную модель регрессии:
- Исследование данных — неизбежная часть построения прогнозной модели. Это должен быть ваш первый шаг, прежде чем выбрать правильную модель, например, определить взаимосвязь и влияние переменных
- Чтобы сравнить степень соответствия для разных моделей, мы можем анализировать различные показатели, такие как статистическая значимость параметров, R-квадрат, скорректированный r-квадрат, AIC, BIC и член ошибки. Другой критерий — это критерий Cp Маллоу.По сути, это проверяет возможное смещение в вашей модели путем сравнения модели со всеми возможными подмоделями (или их тщательного выбора).
- Перекрестная проверка — лучший способ оценить модели, используемые для прогнозирования. Здесь вы разделите свой набор данных на две группы (обучение и проверка). Простая среднеквадратическая разница между наблюдаемыми и прогнозируемыми значениями дает вам меру точности прогноза.
- Если ваш набор данных содержит несколько смешивающих переменных, вам не следует выбирать метод автоматического выбора модели, потому что вы не хотите помещать их в модель одновременно.
- Это также будет зависеть от вашей цели. Может случиться так, что менее мощную модель легче реализовать по сравнению с моделью с высокой статистической значимостью.
- Методы регуляризации регрессии (Lasso, Ridge и ElasticNet) хорошо работают в случае высокой размерности и мультиколлинеарности между переменными в наборе данных.
Проекты
Теперь пришло время сделать решающий шаг и поиграть с некоторыми другими настоящими наборами данных. Попробуйте методы, изученные в этом посте, на наборах данных, представленных в следующих практических задачах, и дайте нам знать в разделе комментариев, как это сработало для вас!
Конечная нота
К настоящему времени, я надеюсь, вы получили обзор регрессии.Эти методы регрессии следует применять с учетом условий данных. Один из лучших способов выяснить, какой метод использовать, — это проверить семейство переменных, то есть дискретное или непрерывное.
В этой статье я обсудил около 7 типов регрессии и некоторые ключевые факты, связанные с каждым методом. Как новичок в этой отрасли, я бы посоветовал вам изучить эти методы, а затем применять их в своих моделях.
Для лучшего понимания рекомендуем наш бесплатный курс — Основы регрессионного анализа
Вы нашли эту статью полезной? Поделитесь своими мнениями / взглядами в разделе комментариев ниже.
Примечание. Обсуждение этой статьи ведется на портале AV’s Discuss. Присоединиться здесь!
Если вам нравится то, что вы только что прочитали, и вы хотите продолжить изучение аналитики, подпишитесь на наши электронные письма, подпишитесь на нас в Twitter или поставьте лайк на нашей странице в Facebook.
СвязанныеОпределение регрессии
Что такое регресс?
Регрессия — это статистический метод, используемый в финансах, инвестициях и других дисциплинах, который пытается определить силу и характер связи между одной зависимой переменной (обычно обозначаемой Y) и рядом других переменных (известных как независимые переменные).
Регрессия помогает инвестиционным и финансовым менеджерам оценивать активы и понимать взаимосвязь между переменными, такими как цены на сырьевые товары и акции предприятий, торгующих этими товарами.
Объяснение регрессии
Два основных типа регрессии — это простая линейная регрессия и множественная линейная регрессия, хотя существуют методы нелинейной регрессии для более сложных данных и анализа. Простая линейная регрессия использует одну независимую переменную для объяснения или предсказания результата зависимой переменной Y, тогда как множественная линейная регрессия использует две или более независимых переменных для предсказания результата.
Регрессия может помочь профессионалам в области финансов и инвестиций, а также специалистам в других сферах бизнеса. Регрессия также может помочь спрогнозировать продажи компании на основе погоды, предыдущих продаж, роста ВВП или других типов условий. Модель ценообразования капитальных активов (CAPM) — это часто используемая регрессионная модель в финансах для определения стоимости активов и определения стоимости капитала.
Общая форма каждого типа регрессии:
- Простая линейная регрессия: Y = a + bX + u
- Множественная линейная регрессия: Y = a + b 1 X 1 + b 2 X 2 + b 3 Х 3 +… + b t X t + u
Где:
- Y = переменная, которую вы пытаетесь предсказать (зависимая переменная).
- X = переменная, которую вы используете для прогнозирования Y (независимая переменная).
- a = точка пересечения.
- b = уклон.
- u = остаток регрессии.
Существует два основных типа регрессии: простая линейная регрессия и множественная линейная регрессия.
Регрессия берет группу случайных величин, которые, как считается, предсказывают Y, и пытается найти математическую связь между ними.Эта взаимосвязь обычно имеет форму прямой линии (линейная регрессия), которая наилучшим образом аппроксимирует все отдельные точки данных. При множественной регрессии отдельные переменные различаются с помощью индексов.
Ключевые выводы
- Регрессия помогает инвестиционным и финансовым менеджерам оценивать активы и понимать взаимосвязь между переменными.
- Регрессия может помочь специалистам в области финансов и инвестиций, а также профессионалам из других предприятий.
Реальный пример использования регрессионного анализа
Регрессия часто используется для определения того, сколько конкретных факторов, таких как цена товара, процентные ставки, конкретные отрасли или секторы, влияют на движение цены актива. Вышеупомянутый CAPM основан на регрессии и используется для прогнозирования ожидаемой доходности акций и для определения стоимости капитала. Доходность акции сравнивается с доходностью более широкого индекса, такого как S&P 500, для создания бета-версии для конкретной акции.
Бета — это риск акции по отношению к рынку или индексу и отражается как наклон в модели CAPM. Доходность рассматриваемой акции будет зависимой переменной Y, а независимая переменная X — премией за рыночный риск.
Дополнительные переменные, такие как рыночная капитализация акций, коэффициенты оценки и недавняя доходность, могут быть добавлены в модель CAPM, чтобы получить более точные оценки доходности. Эти дополнительные факторы известны как факторы Фама-Френча, названные в честь профессоров, которые разработали модель множественной линейной регрессии для лучшего объяснения доходности активов.
Что такое регрессионный анализ? Типы и применение
ВведениеОбласть искусственного интеллекта и машинного обучения призвана покорить большинство человеческих дисциплин; от искусства и литературы до коммерции и социологии; от вычислительной биологии и анализа решений до игр и головоломок ». ~ Ананд Криш
Регрессионный анализ — это способ найти тенденции в данных.
Например, вы можете предположить, что существует связь между тем, сколько вы едите и сколько вы весите; регрессионный анализ может помочь вам количественно оценить это уравнение.
Регрессионный анализ предоставит вам уравнение для графика, чтобы вы могли делать прогнозы относительно своих данных.
Например, если вы прибавляли в весе в течение последних нескольких лет, он может предсказать, сколько вы будете весить через десять лет, если продолжите набирать вес с той же скоростью.
Он также предоставит вам множество статистических данных (включая значение p и коэффициент корреляции), чтобы узнать, насколько точна ваша модель.
Введение в регрессионный анализ
Регрессионный анализ — это статистический метод анализа и понимания связи между двумя или более интересующими переменными. Методология, используемая для проведения регрессионного анализа, помогает понять, какие элементы важны, какие можно игнорировать, и как они взаимодействуют друг с другом.
Регрессия — это статистический подход, используемый в финансовой, инвестиционной и других областях для определения силы и типа связи между одной зависимой переменной (обычно представленной Y) и последовательностью других переменных (известных как независимые переменные).
Регрессионный анализ — это математический метод определения того, какой из этих факторов имеет влияние. Он дает ответы на следующие вопросы:
Какие факторы наиболее важны
Что из этого можно не принимать во внимание
Как эти элементы взаимодействуют друг с другом, и, возможно, наиболее важно, насколько мы уверены во всех этих переменных
Эти элементы называются переменными в регрессионном анализе.У вас есть зависимая переменная, которая является ключевым аспектом, который вы пытаетесь понять или спрогнозировать. Затем есть ваши независимые переменные, которые, по вашему мнению, влияют на вашу зависимую переменную.
(Самый связанный блог: 7 типов методов регрессии в машинном обучении)
Типы регрессионного анализа
Типы регрессионного анализа
Взаимосвязь между зависимой переменной и отдельной независимой переменной описывается с использованием базовой методологии линейной регрессии.Модель простой линейной регрессии показывает линейную или наклонную прямую связь, отсюда и название.
Простая линейная модель выражается с помощью следующего уравнения:
Y = a + bX + ϵ
Где:
- Y — переменная зависимая
- X — Независимая (пояснительная) переменная
- a — Перехват
- b — Уклон
- ϵ — Остаток (ошибка)
Зависимая переменная должна быть непрерывной / действительной, что является наиболее важным компонентом простой линейной регрессии.С другой стороны, независимая переменная может быть оценена с использованием непрерывных или категориальных значений.
- Множественная линейная регрессия
Множественная линейная регрессия (MLR), часто известная как множественная регрессия, — это статистический процесс, в котором используются несколько объясняющих факторов для прогнозирования результата переменной ответа.
MLR — это метод представления линейной зависимости между объясняющими (независимыми) и ответными (зависимыми) переменными.
Математическое представление множественной линейной регрессии:
y = ß0 + ß1 x1 + ………… ..ßn xn + ϵ
Где, y = прогнозируемое значение зависимой переменной
B0 = точка пересечения оси Y
B1X1 = B1 — коэффициент регрессии первой независимой переменной X1 (влияние увеличения значения независимой переменной на прогнозируемое значение y обозначается как X1.)
… = Повторите эти действия для множества независимых переменных, которые вы тестируете.
BnXn = коэффициент регрессии последней независимой переменной
ϵ = ошибка модели (т.е. насколько гибка наша оценка y)
Множественная линейная регрессия использует те же критерии, что и одиночная линейная регрессия. Из-за огромного количества независимых переменных в множественной линейной регрессии существует дополнительная потребность в модели:
Отсутствие связи между двумя независимыми переменными с низкой корреляцией называется неколлинеарностью.Было бы трудно определить истинную корреляцию между зависимыми и независимыми переменными, если бы независимые переменные были сильно коррелированы.
(Связанный блог: Коэффициент корреляции Пирсона ‘r’)
Разновидность регрессионного анализа, при котором данные подбираются к модели, а затем отображаются в числовом виде, называется нелинейной регрессией.
Простая линейная регрессия связывает две переменные (X и Y) прямой линией (y = mx + b), тогда как нелинейная регрессия связывает две переменные (X и Y) в нелинейной (изогнутой) зависимости.
Цель модели — максимально уменьшить сумму квадратов. Сумма квадратов — это статистика, которая отслеживает, насколько наблюдения Y отличаются от нелинейной (криволинейной) функции, которая использовалась для прогнозирования Y.
Точно так же, как моделирование линейной регрессии направлено на графическое отслеживание конкретной реакции от набора факторов, моделирование нелинейной регрессии направлено на то же самое.
Поскольку функция генерируется серией приближений (итераций), которые могут зависеть от метода проб и ошибок, нелинейные модели сложнее разработать, чем линейные модели.
Методология Гаусса-Ньютона и подход Левенберга-Марквардта — два хорошо известных подхода, используемых математиками.
(необходимо проверить: статистический анализ данных)
Каковы приложения регрессионного анализа ?Большая часть регрессионного анализа проводится для финансовых процессов. Итак, вот 5 приложений регрессионного анализа в области финансов и другие, связанные с ним.
Приложения регрессионного анализа
- Прогноз:
Наиболее распространенное использование регрессионного анализа в бизнесе — прогнозирование будущих возможностей и угроз. Например, анализ спроса позволяет прогнозировать количество вещей, которые покупатель, скорее всего, купит.
Однако в бизнесе спрос — не единственная зависимая переменная.Регрессивный анализ может предвидеть значительно больше, чем просто прямой доход.
Например, мы можем предсказать самую высокую ставку для рекламы, спрогнозировав количество потребителей, которые пройдут перед конкретным рекламным щитом.
Страховые компании во многом полагаются на регрессионный анализ для прогнозирования кредитоспособности страхователей и суммы требований, которые могут быть поданы в конкретный период времени.
- CAPM:
Модель ценообразования капитальных активов (CAPM), которая устанавливает связь между прогнозируемой доходностью актива и соответствующей премией за рыночный риск, основана на модели линейной регрессии.
Он также часто используется финансовыми аналитиками в финансовом анализе для прогнозирования корпоративной доходности и операционных показателей.
Коэффициент бета акции рассчитывается с использованием регрессионного анализа. Бета — это показатель волатильности доходности по отношению к общему рыночному риску.
Поскольку он отражает наклон регрессии CAPM, мы можем быстро вычислить его в Excel с помощью инструмента НАКЛОН.
- По сравнению с конкурентами:
Может использоваться для сравнения финансовых показателей компании с показателями определенного контрагента.
Его также можно использовать для определения взаимосвязи между курсами акций двух фирм (это можно расширить, чтобы найти корреляцию между 2 конкурирующими компаниями, 2 компаниями, работающими в несвязанной отрасли и т. Д.).
Это может помочь фирме определить, какие аспекты влияют на ее продажи, в отличие от сравнительной фирмы. Эти методы могут помочь малым предприятиям добиться быстрого успеха за короткое время.
- Выявление проблем:
Регрессия полезна не только для предоставления фактических данных для выбора руководства, но и для выявления ошибок суждения.
Менеджер розничного магазина, например, может предположить, что увеличение времени совершения покупок значительно увеличит продажи.
Однако RA может предположить, что увеличения дохода недостаточно для покрытия увеличения эксплуатационных расходов в результате увеличения рабочего времени (например, дополнительных затрат на оплату труда сотрудников).
В результате это исследование может дать количественную поддержку выбора и помочь менеджерам избежать ошибок, основанных на их интуиции.
- Надежный источник
Многие компании и их высшие руководители сейчас применяют регрессионный анализ (и другие типы статистического анализа), чтобы принимать более обоснованные бизнес-решения и уменьшать количество догадок и инстинктов.
Регрессия позволяет фирмам применять научный подход к управлению. И малые, и крупные предприятия часто забрасываются чрезмерным объемом данных.
Менеджеры могут использовать регрессионный анализ для фильтрации данных и выбора соответствующих факторов для принятия наилучших возможных решений.
Заключение
В течение долгого времени регрессионный анализ широко использовался предприятиями для преобразования данных в полезную информацию, и он продолжает оставаться ценным активом для многих ведущих секторов.