Мифы об SE: «Я удаляю весь мусор — знаки пунктуации и цифры — из своих баз кивордов»

На днях Димок опубликовал две заметки-перевода зарубежных публикаций о том, как поисковики интерпретируют подчёркивания в словах и урлах — «SEO для WordPress от Мэта Катса» и «Подчеркивание. Мнение других поисковиков«. У меня давно была идея публикации на схожую с этой тему, теперь я просто обязан поделиться с вами несколькими идеями.

Широко открытые глаза: смотрим в выдачу

Пережде всего — всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу — он бы написал про подчёркивания давно, а не «интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах«.

Как проверить, является ли подчёркивание разделителем слов

  • В Гугле:

    morning_спасибо

    сравните с

    morning-спасибо

    Как вы можете видеть — радоваться рано, пока что ни о каком учёте подчёркиваний речи не идёт. Хорошо-хорошо, допустим, боты уже интерпретируют подчёркивания, не проапдейтили только систему анализа запросов. Делаем произвольный поиск страницы по известному нам урлу с подчёркиваниями:

    allinurl:List of cinemas in Thailand

    И… Мы не получаем искомую страницу-оригинал из Википедии, найти её можно только явно задав название с подчёркиваниями, Кац как всегда, прогнал:

    inurl:List_of_cinemas_in_Thailand

  • В Яхе:

    inurl:"List of cinemas in"

  • inurl:"List of cinemas in Thailand"

    Подчёркивания анализируются без проблем.

  • В Мсн:

    List_of cinemas_in Thailand

    То же самое.

Однако есть и более интересные вещи, которые можно выяснить подобными «хитрыми» запросами. Несколько месяцев назад я поставил для себя задачу выяснить

Как SE интерпретируют спецсимволы в поисковых запросах

Поясню зачем: многие собирают киворды, переданные в рефферерах, многие покупают их. Даже легендарный Вордтрекер отдаёт полные запросы, введённые сёрферами.

В то же время, я слышал, как многие «сжимают» свои базы: удаляют все цифры, все знаки пунктуации, заменяя их на пробелы. Затем заменяют группы пробелов на один.

Согласно такой системе запрос

9 1/2 weeks

Превращается в лучшем случае в

9 12 weeks

а в худшем — просто в

weeks

Сразу же скажу тем, кто в танке: цифры в любом случае интерпретируются как буквы, так что удалять их нельзя!

Некоторые идут дальше в своих «сжатиях», например удаляют стоп-слова. Однако

about the way

и

about way

дают две совершенно разных выдачи.

Что же я проверял

Проверял я поведение спецсимволов в середине, начале и конце слов.

Как я проверял

Для спецсимволов в середине я вводил два слова, которые рядом обычно стоять никак не могут, например:

hello&жопа

— как видите — выдача пустая, знак «&», ровно как и «_» — один из двух символов, интерпретируемых Гуглом как буква.

Для спецсимволов в начале и конце слова я делал так:

soft+ -soft

Как видите, «+» в конце слов интерпретируется как символ, в угоду американской традиции называть новые продукты и аддоны Something+.

Что получилось

В итоге нудного вбивания подобных запросов для всех спецсимволов оказалось, что самый продвинутый механизм анализа запросов у Гугла. Механизм оптимизирован под американский английский, например, корректно проставленные запятые и точки в цифрах учитываются:

1,000

Корректно — это значит, запятые — как разделители десятков, а точки — как разделители целой и дробной частей. Т. е. для запросов «10,00» или «10.000» — не будут учитываться.

Учитывается знак доллара в начале цифр, апостроф в тех местах, где его юзают англичане — don’t, i’ll и т. п.

Яха и МСН в этом плане нетребовательны, почти все спецсимволы они принимают за пробелы.

Алгоритм сжатия кивордов

В итоге я разработал следующий алгоритм сжатия кивордов (здесь слово «удалить» технически означает «заменить на пробел»):

  • удалить метаоператоры ( site:, inurl: ) и метаслова ( AND, OR ). Кстати, часть метаоператоров надо удалять с их значениями, напрмер, inurl:, link: и т. п.
  • удалить стопсимволы в середине слов. Сохраняя при этом апостроф в корректных языковых конструкциях, и символы ,.$ в корректных числовых конструкциях.
  • удалить стопсимволы в начале слов
  • удалить стопсимволы в конце слов
  • удалить одиночные группы стопсиволов
  • «сжать» пробелы (заменить группы пробельных символов одним пробелом)

Вот готовый скрипт: http://blog.e-baka.net/files/compress-keywords.phps

Единственное, что я не реализовал — это сохранение апострофа, т. к. не собрал все конструкции языка с ним.

В заключение

Конечно, тема анализа запросов далеко не закрыта. Например, из комментов читателей выяснилось, что в Гугле есть автоконверт слов с проряжением (тяжелое наследие аски-редакторов):

g o o g l e

Если у вас есть какие-то новые наблюдения на эту тему — поделитесь ими со мною в комментах.

34 комментария к “Мифы об SE: «Я удаляю весь мусор — знаки пунктуации и цифры — из своих баз кивордов»”

  1. Сам этим вопросом не интересовался, но твой подход наиболее правильный. Помню топик на буржуйском форуме, где буржуй с помощью выдачи пытался доказать что дефис и подчеркивание это одно и то же. Выдачу интерпретировал он в корне неправильно, но все ему поверили.
    Закрывающие «кавычки« у тебя глючат в посте.

  2. Кавычки вордпрессовские, я просто заменил символы в движке :-/

  3. Пингбэк: служебный пост : Записки шареварного маркетолога

  4. Пингбэк:   Интересно почитать (13.08.2007) by Блог Димка

  5. Пингбэк: Social Bookmarks

  6. Пингбэк: Buy Viagra Online :: Post » SE мифы

  7. Radnek, наткнулся на твой блог случайно, ткнув в подпись на известном форуме. Одним благодарным читателем у тебя стало больше, блог однозначно в букмарки.
    Спасибо, очень познавательно.

  8. Eddie: ээээ…. А почему ты написал это в моём блоге, а не в блоге Раднека?

  9. Сорри :) Видать перешел с его блога на твой и не заметил. Ну не важно, блог в букмарках — блог понравился.

  10. Eddie: чтобы уж не зря комменты ты эти писал, а мой блог — нравится вообще? Выскажи мнение…

  11. Да, блог действительно интересный, есть что почитать. Как наверное ты понял, я зашел сюда с блога Radnek’a c поста http://radnek.com/post/13, и настолько увлекся чтением, что не заметил смену блога :) Каюсь, бываю невнимателен, но этот пост прочитал от корки до корки.

    Конкретно про подчеркивания и тире в словах — эту тему я не изучал, меня больше интересовала выдача со словами AND.
    Несмотря на то, что Гугл пиарится, что это слово не обязательно (The «AND» operator is unnecessary — we include all search terms by default), выдача по этим запросам разная:

    http://www.google.com/search?hl=en&q=aztec+history+and+culture&btnG=Google+Search
    http://www.google.com/search?hl=en&q=aztec+history+culture&btnG=Google+Search

    В первом случае у меня Wikipedia на 3-й позиции, во втором — на 2-й.

  12. Eddie: спасибо, не интересовался вообще оператором AND. Может, ещё что-то интересное разведывал?

    Кстати, товарищи: кто это прикалывается в запросах? После этой заметки кто-то перешёл на блог по запросу
    hello&жопа -«kak eto ne intepretiruet? )»

    Прикол отвязный — и правда, теперь есть такое словосочетание в инете :)))

  13. Нет, не я. Ты ведь сам этот кейворд написал. Тебя и проиндексировали. Ну а кто-то потом просто по твоей ссылке зашел и реферер передался. Где дут прикол-то?

  14. Прикол в том, что кто-то в запросе отминусовал фразу «kak eto ne intepretiruet? )»:
    hello&жопа -”kak eto ne intepretiruet? )”

  15. Пингбэк: Как зарождалось SEO… | MaulNet.ru - для тех, кто умеет зарабатывать в Интернете

  16. Sergey: разъясни, пожалуйста, зачем он? Может, ты читаешь как-то по-особенному, я думал — это от ЖЖ пришло, там-то лента была, и кат юзали, чтобы лента не раздувалась… А тут?

  17. а если кейворд такого типа:
    buy mega pill domen.com

    то скрипт выводит:
    buy mega pill domen com

    имхо это не очень хорошо :)

  18. DarkSEO: ты хорошо читал? Точка=пробелу. Запросы ‘domain.com’ и ‘domain com’ — равнозначны.

    Ещё раз повторюсь, в таких вопросах ИМХО — не катит. Всё проверяется легко и непринуждённо на практике.

  19. А зачем его вырезать? Не пойму. Это такое же ключевое слово, как и все, и поисковики как-то по-особому трепетно к названию домена не относятся. И по нему можно выйти. Например:
    «недостатки google.com»

    Если идёт _спец_ запрос — site:google.com — вот тогда его надо вырезать.

    А домены в качестве кивордов вводят только так.

  20. Пингбэк:   Гугл даёт подсказку о том, как он воспринимает запросы! [Within: блог samlowry]

  21. Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например — берется текст до точки. Это так, к слову. За пост — спасибо.

  22. Кстати, если кому нужно собирать киворды, по которым приходят к нему на сайт, советую ознакомиться с возможностями специального сервиса _http://referer.mixed.ru
    Особенно будет полезно для тех, кто работает в русском сегменте.

  23. Ice_sCream: странно, почему он должен кушать только до точки? Это уже какая-то фишка Яндекса своя.

  24. Пингбэк: Блог оптимистичного оптимизатора » Blog Archive » О важности URL страниц.

  25. Пингбэк: О важности URL страниц. » surfer

  26. Пингбэк: Важность URL. | AltBlog.ru

  27. Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например – берется текст до точки. Это так, к слову. За пост – спасибо.

  28. Уже столько лет прошло) Интересно нынешнее поведение SE по отношению к спец. символам

Комментарии закрыты.