Описание
Поисковый робот Google имеет User Agent — Googlebot (Поисковый робот), который является основным роботом, сканирующим содержание страницы для поискового индекса. Помимо него существуют ещё несколько специализированных роботов:
Googlebot-Mobile — робот, индексирующий сайты для мобильных устройств,
Google Search Appliance (Google) gsa-crawler[7] — поисковой робот нового аппаратно-программного комплекса Search Appliance,
Googlebot-Image — робот, сканирующий страницы для индекса картинок,
Mediapartners-Google — робот, сканирующий контент страницы для определения содержания AdSense,
Adsbot-Google — робот, сканирующий контент для оценки качества целевых страниц AdWords.
Существует теория эффекта песочницы, которая утверждает, что сайты, которые имеют новые доменные имена, частые смены владельцев или нэймсерверов, помещаются в «песочницу» (зону ожидания) и пребывают там, пока механизм Google не сочтёт сайт готовым из неё выйти.[источник не указан 251 день]
Также существует обратная теория, называющаяся «бонус новичка», в которой при первоначальной индексации сайта, в силу некоторых аспектов (например нескольких ссылок с авторитетных ресурсов), сайту сразу присваивается высокий Page Rank и хорошие места в поисковой выдаче. По истечении некоторого времени, после снятия этого эффекта сайту присваиваются его реальные показатели.[источник не указан 251 день]
[править]
Проблемы с авторскими правами
KaZaA и Церковь Сайентологии использовали Закон об авторском праве в цифровую эпоху (DMCA), чтобы потребовать от Google удалить ссылки на материалы на их сайтах якобы защищённые авторским правом.[8][9] Google по закону обязан удалить эти ссылки, но вместо того, чтобы убрать результаты поиска, предпочитает связать результаты с жалобами, которые подали эти организации.[9]
New York Times жаловалась на то, что кэширование их содержания поисковым роботом — особенность, используемая поисковиками, в том числе Google Web Search, нарушает авторские права.[10] Google соблюдает стандартные Интернет-приёмы для запросов об отключении кэширования посредством файла robots.txt — стандартного механизма, позволяющего администраторам веб-сайта потребовать исключения своего сайта или его части из результатов поиска — или через мета-теги, позволяющие редактору контента указать, можно ли индексировать или архивировать документ и можно ли проходить по ссылкам в документе. Окружной суд США штата Невада постановил, что кэши компании Google не нарушают авторских прав согласно американскому законодательству в делах Field v. Google и Parker v. Google.[11][12]
[править]
Алгоритм ранжирования
Мета-тег Keywords не учитывается при ранжировании сайтов.[13]
[править]
PageRank
Основная статья: PageRank
Google использует алгоритм расчёта авторитетности PageRank. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.
[править]
Поисковые запросы
[править]
Синтаксис запросов
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» выведет все статьи Википедии на всех языках, в заголовке которых встречается слово Google.[14][15][16][17] Мощный язык запросов в руках хакеров может быть использован для исследования веб-сайтов на уязвимости.[18]
[править]
Поиск в найденном
Для некоторых результатов поиска Google ранее предоставлял повторное поле для поиска, которое позволяет пользователю найти то, что он ищет внутри конкретного веб-сайта. Эта идея возникла из того, как пользователи использовали поиск. По словам инженера-программиста Бена Ли (Ben Lee)