Как искать в Amazon миллионы общедоступных документов, изображений и многого другого

Amazon Web Services (AWS) — это синий кит облачных вычислений. Вы можете не осознавать этого, но большинство веб-сайтов и веб-сервисов работают на этой платформе. На самом деле публичное облако AWS больше, чем Microsoft, Google и IBM вместе взятые.

Как и любая другая массивная облачная платформа, AWS поддерживает множество общедоступных данных. Например, вы можете найти огромные 100 миллионов наборов данных изображений и видео Creative Commons от Flickr. Доступ к нему с помощью браузера YFCC100m.

Попробуйте поискать в Google. Вы будете удивлены огромным количеством открытых документов, которые вы можете найти в AWS. Одним из самых быстрых способов поиска файлов PDF в AWS является использование старого доброго Google и одного из его продвинутых операторов поиска.

[Keyword] filetype:PDF site:amazonaws.com

Разумеется, файлы открыты для общественности и могут быть доступны на поисковых порталах сайтов, на которых они размещены в AWS. Но этот подход с использованием ключевых слов — это «экспериментальный поиск», который помогает вам сразу же погрузиться в огромный стог сена, а не заходить на каждый сайт.

Вы также можете использовать страницу расширенного поиска Google для более точного построения запроса, а затем выполнить его для поиска в облаке Amazon. Я предпочитаю небольшой инструмент поиска под названием Advangle

, который помогает вам создавать поисковые запросы в визуальной форме.

«Невидимое» место для веб-исследований

Поисковая система — это входная дверь в сеть. Но есть много способов поиска глубоких данных

и добавить к своим исследовательским навыкам. Конечно, не используйте информацию (особенно изображения) вслепую. Найдите сайт, владеющий информацией, и проверьте их авторские ограничения.

Я думаю, что операторы расширенного поиска Google должны быть частью наших исследовательских привычек. Как вы думаете? Упомяните несколько открытых каталогов, где вам нравится проводить онлайн-исследования.

Ссылка на основную публикацию
Adblock
detector