Как я импортирую данные наблюдений НЛО из Интернета в электронную таблицу Google

импортировать данные в таблицу GoogleКогда дело доходит до онлайновых баз данных и информации, которую можно найти внутри так называемой «невидимой сети»

«Я не ваш типичный пользователь. Конечно, я трачу слишком много времени, просматривая онлайн-базы данных в таких местах, как Национальный архив и читальный зал CIA FOIA, но я должен сказать, что ничто не может взволновать меня больше, чем когда я нахожу таблицу на основе HTML, заполненную томами на вид сложных и не связанных данных.

Дело в том, что таблицы данных — золотая жила важных истин. Данные часто собираются армиями сборщиков данных с сапогами на земле. У вас есть люди из переписи населения США, которые путешествуют по всей стране для получения информации о семье и семье. У вас есть некоммерческие экологические группы, которые собирают всевозможную интересную информацию об окружающей среде, загрязнении, глобальном потеплении и многом другом. И если вы в паранормальном или уфологии, есть также постоянно обновляемые таблицы информации о наблюдениях странных объектов в небе над нами.

По иронии судьбы, вы могли бы подумать, что любому правительству в мире было бы интересно узнать, какого рода иностранные суда обнаруживаются в небе над какой-либо страной, но, по-видимому, нет — по крайней мере, в США. В Америке коллекция необычных наблюдений за ремеслами была передана командам любителей-любителей, которые устремляются к новым наблюдениям НЛО, как мотыльки к огню. Мой интерес к этим наблюдениям на самом деле проистекает не из увлечения инопланетянами или ремеслами с других планет, а из научного увлечения моделями — где и почему все больше людей видят вещи в небе, и могут ли эти наблюдения отражать что-то очень реальное и много более приземленный на самом деле происходит.

Чтобы исследовать объемы данных, собираемых командами любителей НЛО, я фактически разработал способ импорта больших таблиц данных HTML в электронную таблицу Google, а затем манипулирования и анализа этих данных для извлечения и обнаружения значимой и важной информации. В этой статье я намерен показать вам, как сделать то же самое.

Важные данные HTML в таблицу Google

В этом примере я покажу вам, как импортировать любые данные, которые могут храниться в таблице на любом веб-сайте в Интернете, в вашу таблицу Google. Подумайте об огромном объеме данных, доступных сегодня в Интернете, в виде таблиц HTML. В одной только Википедии есть данные в таблицах по таким темам, как глобальное потепление, в Бюро переписей США есть тонны наборов данных о населении, и немного гуглинга поможет вам намного больше.

В моем примере я начинаю с базы данных в Национальном центре отчетов об НЛО, которая на самом деле выглядит так, как будто это может быть база данных глубокого веба в стиле запросов, но если вы наблюдаете структурирование URL, это на самом деле полусложный веб-интерфейс. основанная на отчетности система, состоящая из статических веб-страниц и статических таблиц HTML — именно то, что нам нужно при поиске данных для импорта.
импортировать данные в таблицу Google
NUForc.org — одна из тех организаций, которая служит одним из крупнейших центров отчетности по наблюдениям НЛО. Это не единственный, но он достаточно большой, чтобы находить новые наборы данных с текущими наблюдениями за каждый месяц. Вы выбираете просмотр данных, отсортированных по критериям, таким как состояние или дата, и каждый из них предоставляется в виде статической страницы. Если вы отсортируете по дате, а затем нажмете на самую последнюю дату, вы увидите, что в указанной таблице есть статическая веб-страница, названная в соответствии с форматом даты.
импортировать данные в Google Docs
Итак, теперь у нас есть шаблон для регулярного извлечения последней информации о наблюдениях из этой базы данных на основе HTML. Все, что вам нужно сделать, это импортировать первую таблицу, использовать самую последнюю запись (верхнюю), чтобы идентифицировать последнее обновление, а затем использовать дату этой публикации, чтобы построить ссылку URL, где существует последняя таблица данных HTML. Для этого просто потребуется пара экземпляров функции ImportHTML, а затем несколько творческих вариантов использования функций манипулирования текстом. Когда вы закончите, у вас будет одна из самых крутых, самостоятельно обновляемых электронных таблиц отчетности. Давайте начнем.

Импорт таблиц и манипулирование данными

Первым шагом, конечно же, является создание новой таблицы.
импортировать данные в Google Docs
Итак, как вы импортируете таблицы HTML? Все, что вам нужно, — это URL, где хранится таблица, и номер таблицы на странице — обычно первая в списке равна 1, вторая — 2 и т. Д. Так как я знаю URL этой первой таблицы, в которой перечислены даты и количество наблюдений в списке, можно импортировать, введя следующую функцию в ячейку A1.

= ImportHtml ( «http://www.nuforc.org/webreports/ndxpost.html?» Н2»стол», 1)

H2 содержит функцию «= hour (now ())», поэтому таблица будет обновляться каждый час. Это, вероятно, экстремально для данных, которые обновляют это нечасто, поэтому я, вероятно, мог бы сойти с рук, делая это ежедневно. В любом случае, вышеупомянутая функция ImportHTML выводит таблицу, как показано ниже.
UFOReport4
Вам нужно немного поработать с данными на этой странице, прежде чем вы сможете собрать воедино URL для второй таблицы со всеми наблюдениями НЛО. Но продолжайте и создайте второй лист в рабочей тетради.
импортировать данные в Google Docs
Прежде чем пытаться построить этот второй лист, пора извлечь дату публикации из этой первой таблицы, чтобы создать ссылку на вторую таблицу. Проблема в том, что дата вводится как формат даты, а не как строка. Итак, сначала вам нужно использовать функцию TEXT для преобразования даты публикации отчета в строку:

= Текст (А2,»мм / дд / гг»)

В следующей ячейке справа вам нужно использовать функцию SPLIT с разделителем «/», чтобы разбить дату на месяц, день и год.

= Сплит (D2,»/»)
импортировать в таблицу Google
Хорошо выглядеть! Тем не менее, каждый номер должен быть двухзначным. Вы делаете это в ячейках прямо под ними, снова используя команду TEXT.

= Текст (E2,»00″)

Формат «00» (это нули) содержит две цифры или «0» в качестве заполнителя.
импортировать в таблицу Google
Теперь вы готовы перестроить весь URL к последней таблице HTML новых наблюдений. Вы можете сделать это, используя функцию CONCATENATE и собрав воедино все биты информации, которые вы только что извлекли из первой таблицы.

= Конкатенации ( «http://www.nuforc.org/webreports/ndxp», G3, Е3, F3,».html»)
импортировать в таблицу Google
Теперь на новом листе, который вы создали выше (чистый лист), вы собираетесь выполнить новую функцию «importhtml», но на этот раз для первого параметра URL-ссылки, поэтому вы вернетесь к первой электронной таблице. и нажмите на ячейку с URL-ссылкой, которую вы только что создали.
UFOReport9
Второй параметр — «таблица», а последний — «1» (поскольку таблица наблюдений является первой и единственной на странице). Нажмите Enter, и вы только что импортировали весь объем наблюдений, которые были опубликованы в эту конкретную дату.
UFOReport10
Итак, вы, вероятно, думаете, что это хороший новизна и все такое — я имею в виду, в конце концов, что вы сделали, это извлекли существующую информацию из таблицы в Интернете и перенесли ее в другую таблицу, хотя и частную в вашем Аккаунт Google Docs. Да, это правда. Однако теперь, когда он находится в вашей личной учетной записи Google Docs, у вас под рукой есть инструменты и функции, позволяющие лучше анализировать эти данные и начать обнаруживать удивительные связи.

Использование сводных отчетов для анализа импортированных данных

Совсем недавно я написал статью об использовании сводных отчетов в Google Spreadsheet.

выполнять все виды крутых подвигов анализа данных. Что ж, вы можете выполнять ту же самую удивительную акробатику анализа данных на данных, которые вы импортировали из Интернета, — давая вам возможность обнаруживать интересные соединения, которые, возможно, никто еще не обнаружил до вас.

Например, из окончательной таблицы наблюдений я мог бы принять решение использовать сводный отчет, чтобы взглянуть на число различных уникальных форм, зарегистрированных в каждом состоянии, по сравнению с общим числом наблюдений в этом конкретном состоянии. Наконец, я также отфильтровываю что-либо, упоминающее «инопланетян» в разделе комментариев, чтобы, надеюсь, отсеять некоторые из более жестких записей.
UFOReport11
Это на самом деле показывает некоторые довольно интересные вещи сразу, такие как тот факт, что в Калифорнии явно зарегистрировано наибольшее количество зарегистрированных наблюдений среди всех других штатов, наряду с различием в сообщении о самом большом количестве форм ремесел в стране. Это также показывает, что Массачусетс, Флорида и Иллинойс также играют большую роль в отделе наблюдения НЛО (по крайней мере, по самым последним данным).

Еще одна интересная вещь в Google Spreadsheet — это широкий спектр доступных вам диаграмм, включая географическую карту, которая позволяет вам размещать «горячие точки» данных в графическом формате, который действительно выделяется и делает эти связи внутри данных совершенно очевидными.
импортировать данные в таблицу Google
Если вы думаете об этом, это действительно только верхушка айсберга. Если теперь вы можете импортировать данные из таблиц данных на любой странице в Интернете, просто подумайте о возможностях. Получите последние номера акций, самые последние 10 лучших книг и авторов в списке бестселлеров New York Times, или самые продаваемые автомобили в мире. Существуют HTML-таблицы практически на любую тему, которую вы можете себе представить, и во многих случаях эти таблицы часто обновляются.

ImportHtml дает вам возможность подключить вашу электронную таблицу Google к Интернету и получать данные, которые там существуют. Он может стать вашим личным центром информации, который вы можете использовать для манипулирования и преобразования в формат, с которым вы действительно можете работать. Еще одна очень крутая вещь, которую нужно любить в Google Spreadsheet.

Вы когда-нибудь импортировали данные в свои таблицы? Какие интересные вещи вы обнаружили в этих данных? Как вы использовали данные? Поделитесь своим опытом и идеями в разделе комментариев ниже!

Кредиты изображений: Бизнес График

Ссылка на основную публикацию
Adblock
detector