Проводите исследования Visionary Web Research, используя Deep Web Data и Excel Web Queries

Что бы вы сказали, если бы я сказал, что в вашем распоряжении есть инструменты для проведения новаторских, потрясающих исследований? Ну, вы делаете, и я покажу вам, как.

Правительства, академические учреждения и некоммерческие исследовательские организации публикуют таблицы, полные данных, в открытом доступе. Без использования этой информации ее истинное значение никогда не будет известно. К сожалению, немногие люди имеют понимание, навыки или инструменты для сбора данных и создания интересных взаимосвязей между, казалось бы, несвязанной информацией.

Фон

Многие исследования, которые я провожу для своего собственного блога, включают в себя поиск того, что известно как невидимая сеть.

, чтобы раскрыть данные, которые были опубликованы для общественности, но скрыты от поисковых систем

внутри онлайн базы данных. Это глубокая паутина

и это изобилует ценными данными. Очень часто я сталкиваюсь с веб-страницами, просто переполненными одними из самых ценных данных по темам, которые охватывают весь спектр от данных переписи до эпидемиологических исследований редких заболеваний. У меня постоянно появляются новые идеи о том, как попытаться сопоставить эти разрозненные источники данных с помощью различных инструментов, и одним из наиболее ценных инструментов, которые я нашел, является веб-запрос в Microsoft Excel.

Нахождение интересных корреляций данных

Сегодня я покажу вам пример того, как вы можете использовать веб-запросы Excel для извлечения данных с разных веб-сайтов и сопоставления их друг с другом для поиска потенциальных корреляций между данными.

Чтобы начать такое упражнение, нужно выдвинуть интересную гипотезу. Например, чтобы сохранить интересность здесь, я собираюсь случайным образом постулировать, что стремительный рост аутизма в Соединенных Штатах вызван прививками вакцин или растущим присутствием электромагнитных полей в детях и вокруг них, таких как мобильные телефоны. Это сумасшедшая гипотеза, подобную которой вы найдете на большинстве сайтов, посвященных теории заговора, но это то, что делает это забавным. Итак, начнем, не так ли?

Сначала откройте Excel, перейдите к пункту меню данных и найдите значок «Из Интернета» на ленте меню.

веб-запросов excel1

Это то, что вы будете использовать для импорта различных таблиц данных со многих веб-сайтов, которые их опубликовали.

Импорт веб-данных в Excel

Итак, в старые времена вам приходилось пытаться скопировать данные из этой таблицы на веб-странице, вставить их в Excel, а затем решить все сумасшедшие проблемы с форматированием, связанные с этим. Полные хлопоты, и часто это не стоит головной боли. Что ж, с Excel Web Queries эти дни прошли. Конечно, прежде чем вы сможете импортировать данные, вам нужно будет покопаться в Интернете, чтобы найти нужные данные в табличном формате. В моем случае я нашел веб-сайт, на котором была опубликована статистика Министерства образования США по числу учащихся государственных школ США, у которых был выявлен аутизм. Там была хорошая таблица с цифрами с 1994 года до 2006 года.

Поэтому вы просто нажимаете «Из Интернета», вставляете URL веб-страницы в поле адреса запроса, а затем прокручиваете страницу вниз, пока не увидите желтую стрелку рядом с таблицей с данными, которые вы хотите импортировать.

веб-запросов Excel2

Нажмите на стрелку, чтобы она стала зеленой галочкой.

веб-запросов excel3

Наконец, скажите Excel, в какое поле вы хотите вставить данные таблицы внутри вашей новой электронной таблицы.

веб-запросов Excel4

Тогда — Вуаля! Данные автоматически попадают прямо в вашу электронную таблицу.

веб-запросов excel5
Таким образом, учитывая тенденцию развития аутизма в государственных школах с 1996 по 2006 год, пришло время заняться поиском тенденций в области вакцинации и использования мобильных телефонов.

К счастью, я быстро обнаружил тенденции для абонентов сотовой связи в США с 1985 по 2012 год. Прекрасные данные для этого конкретного исследования. Я снова использовал инструмент Excel Web Query для импорта этой таблицы.

веб-запросов excel6

Я импортировал эту таблицу в новый чистый лист. Затем я обнаружил тенденции вакцинации для процента школьников, вакцинированных от различных заболеваний. Я импортировал эту таблицу с помощью инструмента веб-запросов на третий лист. Итак, наконец, у меня было три листа с тремя таблицами, заполненными, казалось бы, несвязанными данными, которые я обнаружил в Интернете.

веб-запросов excel8

Следующим шагом является использование Excel для анализа данных и определения любых корреляций. Вот где в игру вступает один из моих любимых инструментов анализа данных — сводная таблица.

Анализ данных в Excel с помощью сводной таблицы

Лучше всего создать сводную таблицу на новом пустом листе. Вы хотите использовать мастера для того, что вы собираетесь делать. Чтобы включить мастер сводных таблиц в Excel, нужно одновременно нажимать Alt-D, пока не появится всплывающее окно с уведомлением. Затем отпустите эти кнопки и нажмите клавишу «P». Затем вы увидите всплывающее окно мастера.

веб-запросов excel10

В первом окне мастера вы хотите выбрать «Несколько диапазонов консолидации», что позволяет выбирать данные из всех импортированных листов. Делая это, вы можете объединить все эти, казалось бы, не связанные данные в одну мощную сводную таблицу. В некоторых случаях вам может понадобиться помассировать некоторые данные. Например, мне пришлось исправить поле «Год» в таблице аутизма, чтобы оно показывало «1994» вместо «1994-95» — чтобы оно лучше соответствовало таблицам на других листах, в которых также был основной год поле.

веб-запросов excel11

Это общее поле между данными — это то, что вам нужно для того, чтобы попытаться сопоставить информацию, так что имейте это в виду, когда вы ищете в Интернете свои данные.

После того, как сводная таблица будет готова, и вы получите все различные значения данных, отображаемые в одной таблице, настало время провести визуальный анализ, чтобы увидеть, есть ли какая-либо очевидная связь, которая выскакивает у вас.

Визуализация данных является ключевым

Наличие нескольких чисел в таблице — это замечательно, если вы экономист, но самый быстрый и простой способ получить тот «ага!» Момент, когда вы пытаетесь найти связи, как иголка в стоге сена, — это с помощью диаграмм и графики. Как только у вас есть сводная диаграмма со всеми собранными наборами данных, пришло время создать график. Обычно лучше всего будет работать линейный график, но это зависит от данных. Есть моменты, когда гистограмма работает намного лучше. Постарайтесь понять, какие данные вы просматриваете и какие сравнения форм работают лучше всего.

В этом случае я просматриваю данные с течением времени, поэтому линейный график — действительно лучший способ увидеть тенденции за прошедшие годы. Диаграммы показателей аутизма (зеленый) и уменьшенных показателей вакцинации (темно-синий), вакцины против ветряной оспы (светло-синий) и использования сотового телефона (фиолетовый) неожиданно обнаружили странную корреляцию в этом наборе данных, с которым я играл.

веб-запросов Excel12

Как ни странно, тенденция использования сотовых телефонов с 1994 по 2006 год почти идеально соответствовала росту показателей аутизма за тот же период времени. Несмотря на то, что модель была совершенно неожиданной, это прекрасный пример того, как объединение интересных данных может выявить захватывающие потенциальные возможности — предоставляя вам большую проницательность и мотивацию для продвижения вперед и поиска дополнительных данных, которые могут еще больше укрепить вашу гипотезу.

Одна корреляция, подобная приведенной выше, ничего не доказывает Есть много тенденций, которые нарастают со временем — шаблон может быть совпадением, но он также может быть важным ключом к вашему постоянному поиску большего количества данных в Интернете. К счастью, у вас есть мощный инструмент под названием «Веб-запросы Excel», который немного облегчит этот квест.

Кредит Фотографии: Кевин Дули через фотокопию cc

Ссылка на основную публикацию
Adblock
detector