Как работают поисковые системы?

Статья обновлена ​​Джоэлем Ли 10.10.2017

Разблокируйте чит-лист «Лучшие сочетания клавиш поиска Google» прямо сейчас!

Это подпишет вас на нашу рассылку

Введите адрес электронной почты
отпереть
Прочитайте нашу политику конфиденциальности

Для многих Google — это интернет. Это отправная точка для поиска новых сайтов и, возможно, самое важное изобретение со времен самого Интернета. Без поисковых систем новый веб-контент был бы недоступен для масс.

Но знаете ли вы, как работают поисковые системы? Каждая поисковая система имеет три основные функции: сканирование (для обнаружения контента), индексирование (для отслеживания и хранения контента) и поиск (для извлечения релевантного контента, когда пользователи запрашивают поисковую систему).

ползком

Сканирование — это то, с чего все начинается: сбор данных о веб-сайте.

Это включает в себя сканирование сайтов и сбор сведений о каждой странице: заголовки, изображения, ключевые слова, другие связанные страницы и т. Д. Разные сканеры могут также искать разные детали, например макеты страниц, где размещаются s, не забиты ли ссылки и т. Д.

Но как сайт сканируется? Автоматизированный бот (так называемый «паук») посещает страницу за страницей как можно быстрее, используя ссылки на страницы, чтобы найти, куда идти дальше. Даже в самые ранние дни пауки Google могли читать несколько сотен страниц в секунду. В настоящее время тысячи.

Как работают поисковые системы? диаграмма веб-сканера

Когда веб-сканер посещает страницу, он собирает все ссылки на странице и добавляет их в свой список следующих страниц для посещения. Он переходит на следующую страницу в своем списке, собирает ссылки на этой странице и повторяет. Сканеры также время от времени посещают прошлые страницы, чтобы увидеть, произошли ли какие-либо изменения.

Это означает, что любой сайт, связанный с проиндексированным сайтом, будет в конечном итоге сканироваться. Некоторые сайты сканируются чаще, а некоторые — на большую глубину, но иногда сканер может отказаться, если иерархия страниц сайта слишком сложна.

Один из способов понять, как работает веб-сканер, — это создать его самостоятельно. Мы написали учебное пособие по созданию базового веб-сканера в PHP, поэтому проверьте, есть ли у вас опыт программирования.

Как работают поисковые системы? поиск в Google на планшете

Обратите внимание, что страницы могут быть помечены как «noindex», что похоже на просьбу поисковых систем пропустить индексирование. Неиндексированные части Интернета известны как «глубокая сеть»

и некоторые сайты, например, размещенные в сети TOR, не могут быть проиндексированы поисковыми системами. (Что такое TOR и луковая маршрутизация?

)

индексирование

Индексирование — это когда данные из обхода обрабатываются и помещаются в базу данных.

Представьте себе, что вы составляете список всех ваших книг, их издателей, их авторов, их жанров, количества страниц и т. Д. Сканирование — это когда вы просматриваете каждую книгу, а индексирование — когда вы регистрируете их в своем списке.

А теперь представьте, что это не просто комната, полная книг, а каждая библиотека в мире. Это небольшая версия того, что делает Google, который хранит все эти данные в огромных дата-центрах с тысячами петабайтных дисков.

,

Вот загляните в один из поисковых центров данных Google:

Как работают поисковые системы? гугл поиск центров обработки данныхКредит изображения: Google

Поиск и рейтинг

Поиск — это когда поисковая система обрабатывает ваш поисковый запрос и возвращает наиболее релевантные страницы, соответствующие вашему запросу.

Большинство поисковых систем дифференцируют себя с помощью своих методов поиска: они используют разные критерии, чтобы выбрать, какие страницы лучше всего соответствуют тому, что вы хотите найти. Вот почему результаты поиска различаются между Google и Bing, и почему Wolfram Alpha так уникально полезен

,

Алгоритмы ранжирования проверяют ваш поисковый запрос по миллиарды страниц, чтобы определить актуальность каждого из них. Компании защищают свои алгоритмы ранжирования как запатентованные отраслевые секреты из-за их сложности. Лучший алгоритм означает лучший опыт поиска.

Они также не хотят, чтобы веб-разработчики играли в систему и несправедливо поднимались в топ результатов поиска. Если бы когда-нибудь появилась внутренняя методология поисковой системы, все люди наверняка использовали бы эти знания в ущерб таким искателям, как вы и я.

Как работают поисковые системы? ручка html мета поисковой системыИмиджевый кредит: фотовибы через Shutterstock

Разумеется, использование поисковой системы возможно, но теперь это не так просто.

Первоначально поисковые системы ранжировали сайты по тому, как часто ключевые слова появлялись на странице, что приводило к «заполнению ключевых слов» — заполнению страниц бессмысленной чепухой.

Затем появилась концепция важности ссылок: поисковые системы оценивали сайты с большим количеством входящих ссылок, потому что они интерпретировали популярность сайта как релевантность. Но это привело к спаму ссылок во всем Интернете. В настоящее время поисковые системы весят ссылки в зависимости от «авторитета» сайта ссылок. Поисковые системы больше ценят ссылки из правительственного агентства, чем ссылки из каталога ссылок.

Сегодня алгоритмы ранжирования окутаны еще большей загадкой, чем когда-либо прежде, и «поисковая оптимизация»

не так важно Хорошие рейтинги в поисковых системах теперь основаны на высококачественном контенте и отличном пользовательском опыте.

Что дальше для поисковых систем?

Ах, теперь есть интересный вопрос. Ответ — «семантика»: значение содержимого страницы. Вы можете узнать больше о нашем обзоре семантической разметки и ее будущего влияния

,

Но вот суть этого.

Прямо сейчас вы можете искать «безглютеновые куки», но результаты могут вернуть рецепты безглютеновых куки. Вместо этого вы можете найти обычные рецепты печенья с надписью «Этот рецепт не без глютена». В нем правильные ключевые слова, но неправильное значение.

Используя семантику, вы можете искать рецепты печенья, а затем удалять определенные ингредиенты: муку, орехи и т. Д. Вы также можете сузить результаты до рецептов, время приготовления которых не превышает 30 минут, и просмотрите оценки 4/5 или более. Это было бы круто, верно? Вот куда мы идем!

Все еще не понимаете, как работают поисковые системы? Посмотрите, как Google объясняет этот процесс:

Если вам это интересно, вам также может быть интересно узнать, как работают поисковые системы для изображений.

Кредит изображения: prykhodov / Depositphotos

Ссылка на основную публикацию
Adblock
detector