На днях Димок опубликовал две заметки-перевода зарубежных публикаций о том, как поисковики интерпретируют подчёркивания в словах и урлах — «SEO для WordPress от Мэта Катса» и «Подчеркивание. Мнение других поисковиков«. У меня давно была идея публикации на схожую с этой тему, теперь я просто обязан поделиться с вами несколькими идеями.
Широко открытые глаза: смотрим в выдачу
Пережде всего — всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу — он бы написал про подчёркивания давно, а не «интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах«.
Как проверить, является ли подчёркивание разделителем слов
- В Гугле:
сравните с
Как вы можете видеть — радоваться рано, пока что ни о каком учёте подчёркиваний речи не идёт. Хорошо-хорошо, допустим, боты уже интерпретируют подчёркивания, не проапдейтили только систему анализа запросов. Делаем произвольный поиск страницы по известному нам урлу с подчёркиваниями:
И… Мы не получаем искомую страницу-оригинал из Википедии, найти её можно только явно задав название с подчёркиваниями, Кац как всегда, прогнал:
- В Яхе:
- В Мсн:
То же самое.
Подчёркивания анализируются без проблем.
Однако есть и более интересные вещи, которые можно выяснить подобными «хитрыми» запросами. Несколько месяцев назад я поставил для себя задачу выяснить
Как SE интерпретируют спецсимволы в поисковых запросах
Поясню зачем: многие собирают киворды, переданные в рефферерах, многие покупают их. Даже легендарный Вордтрекер отдаёт полные запросы, введённые сёрферами.
В то же время, я слышал, как многие «сжимают» свои базы: удаляют все цифры, все знаки пунктуации, заменяя их на пробелы. Затем заменяют группы пробелов на один.
Согласно такой системе запрос
Превращается в лучшем случае в
а в худшем — просто в
Сразу же скажу тем, кто в танке: цифры в любом случае интерпретируются как буквы, так что удалять их нельзя!
Некоторые идут дальше в своих «сжатиях», например удаляют стоп-слова. Однако
и
дают две совершенно разных выдачи.
Что же я проверял
Проверял я поведение спецсимволов в середине, начале и конце слов.
Как я проверял
Для спецсимволов в середине я вводил два слова, которые рядом обычно стоять никак не могут, например:
— как видите — выдача пустая, знак «&», ровно как и «_» — один из двух символов, интерпретируемых Гуглом как буква.
Для спецсимволов в начале и конце слова я делал так:
Как видите, «+» в конце слов интерпретируется как символ, в угоду американской традиции называть новые продукты и аддоны Something+.
Что получилось
В итоге нудного вбивания подобных запросов для всех спецсимволов оказалось, что самый продвинутый механизм анализа запросов у Гугла. Механизм оптимизирован под американский английский, например, корректно проставленные запятые и точки в цифрах учитываются:
Корректно — это значит, запятые — как разделители десятков, а точки — как разделители целой и дробной частей. Т. е. для запросов «10,00» или «10.000» — не будут учитываться.
Учитывается знак доллара в начале цифр, апостроф в тех местах, где его юзают англичане — don’t, i’ll и т. п.
Яха и МСН в этом плане нетребовательны, почти все спецсимволы они принимают за пробелы.
Алгоритм сжатия кивордов
В итоге я разработал следующий алгоритм сжатия кивордов (здесь слово «удалить» технически означает «заменить на пробел»):
- удалить метаоператоры ( site:, inurl: ) и метаслова ( AND, OR ). Кстати, часть метаоператоров надо удалять с их значениями, напрмер, inurl:, link: и т. п.
- удалить стопсимволы в середине слов. Сохраняя при этом апостроф в корректных языковых конструкциях, и символы ,.$ в корректных числовых конструкциях.
- удалить стопсимволы в начале слов
- удалить стопсимволы в конце слов
- удалить одиночные группы стопсиволов
- «сжать» пробелы (заменить группы пробельных символов одним пробелом)
Вот готовый скрипт: http://blog.e-baka.net/files/compress-keywords.phps
Единственное, что я не реализовал — это сохранение апострофа, т. к. не собрал все конструкции языка с ним.
В заключение
Конечно, тема анализа запросов далеко не закрыта. Например, из комментов читателей выяснилось, что в Гугле есть автоконверт слов с проряжением (тяжелое наследие аски-редакторов):
Если у вас есть какие-то новые наблюдения на эту тему — поделитесь ими со мною в комментах.
Сам этим вопросом не интересовался, но твой подход наиболее правильный. Помню топик на буржуйском форуме, где буржуй с помощью выдачи пытался доказать что дефис и подчеркивание это одно и то же. Выдачу интерпретировал он в корне неправильно, но все ему поверили.
Закрывающие «кавычки« у тебя глючат в посте.
Кавычки вордпрессовские, я просто заменил символы в движке :-/
Пингбэк: служебный пост : Записки шареварного маркетолога
Пингбэк: Интересно почитать (13.08.2007) by Блог Димка
Пингбэк: Social Bookmarks
Пингбэк: Buy Viagra Online :: Post » SE мифы
Radnek, наткнулся на твой блог случайно, ткнув в подпись на известном форуме. Одним благодарным читателем у тебя стало больше, блог однозначно в букмарки.
Спасибо, очень познавательно.
Eddie: ээээ…. А почему ты написал это в моём блоге, а не в блоге Раднека?
Сорри :) Видать перешел с его блога на твой и не заметил. Ну не важно, блог в букмарках — блог понравился.
Eddie: чтобы уж не зря комменты ты эти писал, а мой блог — нравится вообще? Выскажи мнение…
Да, блог действительно интересный, есть что почитать. Как наверное ты понял, я зашел сюда с блога Radnek’a c поста http://radnek.com/post/13, и настолько увлекся чтением, что не заметил смену блога :) Каюсь, бываю невнимателен, но этот пост прочитал от корки до корки.
Конкретно про подчеркивания и тире в словах — эту тему я не изучал, меня больше интересовала выдача со словами AND.
Несмотря на то, что Гугл пиарится, что это слово не обязательно (The «AND» operator is unnecessary — we include all search terms by default), выдача по этим запросам разная:
http://www.google.com/search?hl=en&q=aztec+history+and+culture&btnG=Google+Search
http://www.google.com/search?hl=en&q=aztec+history+culture&btnG=Google+Search
В первом случае у меня Wikipedia на 3-й позиции, во втором — на 2-й.
Eddie: спасибо, не интересовался вообще оператором AND. Может, ещё что-то интересное разведывал?
Кстати, товарищи: кто это прикалывается в запросах? После этой заметки кто-то перешёл на блог по запросу
hello&жопа -«kak eto ne intepretiruet? )»
Прикол отвязный — и правда, теперь есть такое словосочетание в инете :)))
Сэм, да ты просто обогащаешь выдачу гугла :)
Раднек: это ты шоль, прикалывался?
Нет, не я. Ты ведь сам этот кейворд написал. Тебя и проиндексировали. Ну а кто-то потом просто по твоей ссылке зашел и реферер передался. Где дут прикол-то?
Прикол в том, что кто-то в запросе отминусовал фразу «kak eto ne intepretiruet? )»:
hello&жопа -”kak eto ne intepretiruet? )”
Т. е. это непосредственно к моей статье фраза относится.
Пингбэк: Как зарождалось SEO… | MaulNet.ru - для тех, кто умеет зарабатывать в Интернете
Интересный пост, но большой.
Почему тегом more не пользуешься?
Sergey: разъясни, пожалуйста, зачем он? Может, ты читаешь как-то по-особенному, я думал — это от ЖЖ пришло, там-то лента была, и кат юзали, чтобы лента не раздувалась… А тут?
а если кейворд такого типа:
buy mega pill domen.com
то скрипт выводит:
buy mega pill domen com
имхо это не очень хорошо :)
DarkSEO: ты хорошо читал? Точка=пробелу. Запросы ‘domain.com’ и ‘domain com’ — равнозначны.
Ещё раз повторюсь, в таких вопросах ИМХО — не катит. Всё проверяется легко и непринуждённо на практике.
я не о том, что эти запросы равнозначны или нет :)
я о том, что у тебя не вырезается сам domen.com (или http://www.domen.com)
А зачем его вырезать? Не пойму. Это такое же ключевое слово, как и все, и поисковики как-то по-особому трепетно к названию домена не относятся. И по нему можно выйти. Например:
«недостатки google.com»
Если идёт _спец_ запрос — site:google.com — вот тогда его надо вырезать.
А домены в качестве кивордов вводят только так.
Пингбэк: Гугл даёт подсказку о том, как он воспринимает запросы! [Within: блог samlowry]
Зачет! :) Интересная информация.
Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например — берется текст до точки. Это так, к слову. За пост — спасибо.
Кстати, если кому нужно собирать киворды, по которым приходят к нему на сайт, советую ознакомиться с возможностями специального сервиса _http://referer.mixed.ru
Особенно будет полезно для тех, кто работает в русском сегменте.
Ice_sCream: странно, почему он должен кушать только до точки? Это уже какая-то фишка Яндекса своя.
Пингбэк: Блог оптимистичного оптимизатора » Blog Archive » О важности URL страниц.
Пингбэк: О важности URL страниц. » surfer
Пингбэк: Важность URL. | AltBlog.ru
Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например – берется текст до точки. Это так, к слову. За пост – спасибо.
Уже столько лет прошло) Интересно нынешнее поведение SE по отношению к спец. символам