Как найти коэффициент корреляции с Excel

Один из самых простых и распространенных статистических расчетов в Excel

Вы могли бы сделать это корреляция. Это простая статистика, но она может быть очень информативной, если вы хотите увидеть, связаны ли две переменные. Если вы знаете правильные команды, найти коэффициент корреляции в Excel очень легко.

Мы рассмотрим, что такое корреляция, чтобы дать вам представление об информации, которую она вам дает. Затем мы перейдем к поиску коэффициента корреляции в Excel, используя два метода и хороший график для просмотра корреляций. Наконец, я дам вам очень краткое введение в линейную регрессию, еще одну статистическую функцию, которая может оказаться полезной, когда вы смотрите на корреляции.

Что такое корреляция?

Прежде чем мы начнем, давайте обсудим определение корреляции. Это простая мера того, как все связано. Давайте рассмотрим две переменные, которые не имеют никакой корреляции.

как найти коэффициент корреляции в Excel

Эти две переменные (одна на оси X, другая на Y) абсолютно случайны и не связаны между собой.

Тем не менее, две переменные ниже взаимосвязаны:

как найти коэффициент корреляции в Excel

В общем случае, когда растет одна переменная, растет и другая. Это корреляция. (Обратите внимание, что это может быть и наоборот; если один повышается, а другой понижается, это отрицательная корреляция.)

Понимание коэффициента корреляции

Коэффициент корреляции показывает, насколько связаны две переменные. Коэффициент находится между -1 и 1. Коэффициент корреляции 0 означает, что нет абсолютно никакой корреляции между двумя переменными. Это то, что вы должны получить, когда у вас есть два набора случайных чисел.

Коэффициент -1 означает, что у вас есть идеальная отрицательная корреляция: когда одна переменная увеличивается, другая уменьшается пропорционально. Коэффициент 1 является идеальной положительной корреляцией: при увеличении одной переменной пропорционально увеличивается и другая.

Любое число между ними представляет шкалу. Например, корреляция 0,5 является умеренной положительной корреляцией.

Как вы можете видеть на графике ниже, корреляция ищет только линейные отношения. Две переменные могут быть сильно связаны по-другому и все же иметь коэффициент корреляции ноль:

как найти коэффициент корреляции в ExcelИзображение предоставлено: DenisBoigelot / Wikimedia Commons

Как найти коэффициент корреляции в Excel, используя CORREL

В Excel есть встроенная функция для корреляции. Функция CORREL имеет очень простой синтаксис:

[NOEDIT]

=CORREL(array1, array2)

[/NOEDIT]

array1 — ваша первая группа чисел, а array2 — вторая группа. Excel выложит число, и это ваш коэффициент корреляции. Давайте посмотрим на пример.

В этой таблице у нас есть список автомобилей с указанием модели и года выпуска, а также их стоимости. Я использовал функцию CORREL, чтобы увидеть, были ли связаны год и стоимость модели:

как найти коэффициент корреляции в Excel

Существует очень слабая положительная корреляция; так же, как год растет, так и стоимость автомобиля. Но не очень.

Графические корреляции

Когда вы выполняете корреляции, рекомендуется использовать точечный график, чтобы получить визуальное представление о том, как связаны ваши наборы данных. Идти к Графики> Scatter чтобы увидеть, как выглядят ваши данные:

как найти коэффициент корреляции в Excel

Вы можете видеть, что в этих данных год автомобиля не сильно влияет на стоимость. Есть небольшая положительная тенденция, но она слабая. Это то, что мы нашли с нашей функцией CORREL.

Другим полезным элементом в диаграмме рассеяния является линия тренда, которая выглядит следующим образом:

как найти коэффициент корреляции в Excel

Линия тренда может быть полезна, когда вы хотите четко определить корреляцию на графике рассеяния. В Windows нажмите на Инструменты для работы с диаграммой> Дизайн> Добавить элемент диаграммы и выберите трендовая. На Mac вам нужно перейти на Макет диаграммы или же Дизайн диаграммы, в зависимости от издания Excel.

И не забудьте проверить наше руководство по созданию отличных диаграмм в Excel

прежде чем представить какие-либо выводы!

Корреляция нескольких переменных с пакетом инструментов анализа данных

Если у вас много разных наборов чисел, и вы хотите найти корреляции между ними, вам нужно запустить функцию CORREL для каждой комбинации. Однако, используя Data Analysis Toolpak, вы можете выбрать несколько наборов данных и посмотреть, где лежат корреляции.

Не уверены, что у вас есть набор инструментов для анализа данных? Проверьте наше прохождение основ

скачать и освоить его.

Чтобы запустить Toolpak, перейдите к Данные> Анализ данных. Вы увидите список вариантов:

как найти коэффициент корреляции в Excel

Выбрать корреляция и ударил Хорошо.

В появившемся окне выберите все ваши наборы данных в Диапазон ввода и укажите Excel, где вы хотите разместить результаты:

как найти коэффициент корреляции в Excel

Вот то, что вы получите, когда вы нажмете Хорошо:

как найти коэффициент корреляции в Excel

На изображении выше мы провели корреляцию по четырем различным наборам данных: год, население мира и два набора случайных чисел.

Корреляция каждого набора данных с самим собой равна 1. Год и население мира имеют чрезвычайно сильную корреляцию, в то время как в других местах очень слабые корреляции, как и следовало ожидать со случайными числами.

Корреляция против линейной регрессии в Excel

Корреляция является простой мерой: насколько тесно связаны две переменные? Эта мера, однако, не имеет какой-либо прогностической или причинной ценности. То, что две переменные взаимосвязаны, не означает, что одна вызывает изменения в другой. Это очень важная вещь для понимания корреляции.

Если вы заинтересованы в утверждении о причинности, вам нужно использовать линейную регрессию. Вы также можете получить доступ к этому через Пакет инструментов анализа данных. (В этой статье не будут рассмотрены детали работы линейной регрессии, но существует множество бесплатных статистических ресурсов.

который может пройти вас через основы.)

Откройте набор инструментов анализа данных, выберите регрессия, и нажмите Хорошо.

как найти коэффициент корреляции в Excel

Заполните диапазоны X и Y (значение X — это объясняющая переменная, а значение Y — это значение, которое вы пытаетесь предсказать). Затем выберите, куда вы хотите направить вывод, и нажмите Хорошо снова.

Число, на котором вы хотите сосредоточиться, является p-значением для вашей объясняющей переменной:

как найти коэффициент корреляции в Excel

Если оно меньше 0,05, у вас есть веский аргумент, что изменения в вашей переменной X вызывают изменения в вашей переменной Y. На изображении выше мы показали, что год является значимым предиктором мирового населения.

Линейная регрессия также полезна тем, что может рассматривать несколько значений. Здесь мы использовали регрессию, чтобы увидеть, являются ли год и население значимыми предикторами цены сырой нефти:

как найти коэффициент корреляции в Excel

Оба значения p меньше 0,05, поэтому мы можем сделать вывод, что как год, так и население мира являются значимыми предикторами цены сырой нефти. (Хотя сильные корреляции между переменными X могут вызвать их собственные проблемы.)

Опять же, это очень упрощенное объяснение линейной регрессии, и если вы заинтересованы в причинно-следственной связи, вам следует прочитать некоторые учебные пособия по статистике.

Но теперь у вас есть представление о том, как выйти за рамки простой корреляции, если вы ищете больше статистической информации!

Получите лучшие данные из Excel

Понимание основных статистических функций в Excel может помочь вам получить гораздо больше полезной информации из ваших данных. Корреляция — это простая мера, но она может оказать большую помощь, когда вы пытаетесь заявить о цифрах в вашей электронной таблице.

Конечно, вы можете запустить множество других более сложных мер. Но если вы не знакомы со статистикой, вам стоит начать с основ

,

Регулярно ли вы используете функции корреляции Excel? Какие еще статистические функции вы хотели бы узнать?

Ссылка на основную публикацию
Adblock
detector