Мифы об SE: «Я удаляю весь мусор — знаки пунктуации и цифры — из своих баз кивордов»

комментария 34 / Софт, SEO / 13 августа 2007

На днях Димок опубликовал две заметки-перевода зарубежных публикаций о том, как поисковики интерпретируют подчёркивания в словах и урлах — «SEO для WordPress от Мэта Катса» и «Подчеркивание. Мнение других поисковиков«. У меня давно была идея публикации на схожую с этой тему, теперь я просто обязан поделиться с вами несколькими идеями.

Широко открытые глаза: смотрим в выдачу

Пережде всего — всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу — он бы написал про подчёркивания давно, а не «интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах«.

Как проверить, является ли подчёркивание разделителем слов

В Гугле:
morning_спасибо
сравните с
morning-спасибо
Как вы можете видеть — радоваться рано, пока что ни о каком учёте подчёркиваний речи не идёт. Хорошо-хорошо, допустим, боты уже интерпретируют подчёркивания, не проапдейтили только систему анализа запросов. Делаем произвольный поиск страницы по известному нам урлу с подчёркиваниями:
allinurl:List of cinemas in Thailand
И… Мы не получаем искомую страницу-оригинал из Википедии, найти её можно только явно задав название с подчёркиваниями, Кац как всегда, прогнал:
inurl:List_of_cinemas_in_Thailand
В Яхе:
inurl:"List of cinemas in"

inurl:"List of cinemas in Thailand"

Подчёркивания анализируются без проблем.

В Мсн:
List_of cinemas_in Thailand
То же самое.

Однако есть и более интересные вещи, которые можно выяснить подобными «хитрыми» запросами. Несколько месяцев назад я поставил для себя задачу выяснить

Как SE интерпретируют спецсимволы в поисковых запросах

Поясню зачем: многие собирают киворды, переданные в рефферерах, многие покупают их. Даже легендарный Вордтрекер отдаёт полные запросы, введённые сёрферами.

В то же время, я слышал, как многие «сжимают» свои базы: удаляют все цифры, все знаки пунктуации, заменяя их на пробелы. Затем заменяют группы пробелов на один.

Согласно такой системе запрос

9 1/2 weeks

Превращается в лучшем случае в

9 12 weeks

а в худшем — просто в

weeks

Сразу же скажу тем, кто в танке: цифры в любом случае интерпретируются как буквы, так что удалять их нельзя!

Некоторые идут дальше в своих «сжатиях», например удаляют стоп-слова. Однако

about the way

about way

дают две совершенно разных выдачи.

Что же я проверял

Проверял я поведение спецсимволов в середине, начале и конце слов.

Как я проверял

Для спецсимволов в середине я вводил два слова, которые рядом обычно стоять никак не могут, например:

hello&жопа

— как видите — выдача пустая, знак «&», ровно как и «_» — один из двух символов, интерпретируемых Гуглом как буква.

Для спецсимволов в начале и конце слова я делал так:

soft+ -soft

Как видите, «+» в конце слов интерпретируется как символ, в угоду американской традиции называть новые продукты и аддоны Something+.

Что получилось

В итоге нудного вбивания подобных запросов для всех спецсимволов оказалось, что самый продвинутый механизм анализа запросов у Гугла. Механизм оптимизирован под американский английский, например, корректно проставленные запятые и точки в цифрах учитываются:

1,000

Корректно — это значит, запятые — как разделители десятков, а точки — как разделители целой и дробной частей. Т. е. для запросов «10,00» или «10.000» — не будут учитываться.

Учитывается знак доллара в начале цифр, апостроф в тех местах, где его юзают англичане — don’t, i’ll и т. п.

Яха и МСН в этом плане нетребовательны, почти все спецсимволы они принимают за пробелы.

Алгоритм сжатия кивордов

В итоге я разработал следующий алгоритм сжатия кивордов (здесь слово «удалить» технически означает «заменить на пробел»):

удалить метаоператоры ( site:, inurl: ) и метаслова ( AND, OR ). Кстати, часть метаоператоров надо удалять с их значениями, напрмер, inurl:, link: и т. п.
удалить стопсимволы в середине слов. Сохраняя при этом апостроф в корректных языковых конструкциях, и символы ,.$ в корректных числовых конструкциях.
удалить стопсимволы в начале слов
удалить стопсимволы в конце слов
удалить одиночные группы стопсиволов
«сжать» пробелы (заменить группы пробельных символов одним пробелом)

Вот готовый скрипт: http://blog.e-baka.net/files/compress-keywords.phps

Единственное, что я не реализовал — это сохранение апострофа, т. к. не собрал все конструкции языка с ним.

В заключение

Конечно, тема анализа запросов далеко не закрыта. Например, из комментов читателей выяснилось, что в Гугле есть автоконверт слов с проряжением (тяжелое наследие аски-редакторов):

g o o g l e

Если у вас есть какие-то новые наблюдения на эту тему — поделитесь ими со мною в комментах.

34 комментария к “Мифы об SE: «Я удаляю весь мусор — знаки пунктуации и цифры — из своих баз кивордов»”

vosemd
13 августа 2007 в 11:24
Сам этим вопросом не интересовался, но твой подход наиболее правильный. Помню топик на буржуйском форуме, где буржуй с помощью выдачи пытался доказать что дефис и подчеркивание это одно и то же. Выдачу интерпретировал он в корне неправильно, но все ему поверили.
Закрывающие «кавычки« у тебя глючат в посте.
Ответить
samlowry
13 августа 2007 в 16:33
Кавычки вордпрессовские, я просто заменил символы в движке :-/
Ответить
Уведомление: служебный пост : Записки шареварного маркетолога
Уведомление: Интересно почитать (13.08.2007) by Блог Димка
Уведомление: Social Bookmarks
Уведомление: Buy Viagra Online :: Post » SE мифы
Eddie
14 августа 2007 в 22:17
Radnek, наткнулся на твой блог случайно, ткнув в подпись на известном форуме. Одним благодарным читателем у тебя стало больше, блог однозначно в букмарки.
Спасибо, очень познавательно.
Ответить
samlowry
14 августа 2007 в 22:21
Eddie: ээээ…. А почему ты написал это в моём блоге, а не в блоге Раднека?
Ответить
Eddie
14 августа 2007 в 22:23
Сорри :) Видать перешел с его блога на твой и не заметил. Ну не важно, блог в букмарках — блог понравился.
Ответить
samlowry
14 августа 2007 в 22:33
Eddie: чтобы уж не зря комменты ты эти писал, а мой блог — нравится вообще? Выскажи мнение…
Ответить
Eddie
14 августа 2007 в 22:55
Да, блог действительно интересный, есть что почитать. Как наверное ты понял, я зашел сюда с блога Radnek’a c поста http://radnek.com/post/13, и настолько увлекся чтением, что не заметил смену блога :) Каюсь, бываю невнимателен, но этот пост прочитал от корки до корки.
Конкретно про подчеркивания и тире в словах — эту тему я не изучал, меня больше интересовала выдача со словами AND.
Несмотря на то, что Гугл пиарится, что это слово не обязательно (The «AND» operator is unnecessary — we include all search terms by default), выдача по этим запросам разная:
http://www.google.com/search?hl=en&q=aztec+history+and+culture&btnG=Google+Search
http://www.google.com/search?hl=en&q=aztec+history+culture&btnG=Google+Search
В первом случае у меня Wikipedia на 3-й позиции, во втором — на 2-й.
Ответить
samlowry
14 августа 2007 в 23:52
Eddie: спасибо, не интересовался вообще оператором AND. Может, ещё что-то интересное разведывал?
Кстати, товарищи: кто это прикалывается в запросах? После этой заметки кто-то перешёл на блог по запросу
hello&жопа -«kak eto ne intepretiruet? )»
Прикол отвязный — и правда, теперь есть такое словосочетание в инете :)))
Ответить
buy viagra online
15 августа 2007 в 05:49
Сэм, да ты просто обогащаешь выдачу гугла :)
Ответить
samlowry
15 августа 2007 в 13:21
Раднек: это ты шоль, прикалывался?
Ответить
buy viagra online
15 августа 2007 в 14:17
Нет, не я. Ты ведь сам этот кейворд написал. Тебя и проиндексировали. Ну а кто-то потом просто по твоей ссылке зашел и реферер передался. Где дут прикол-то?
Ответить
samlowry
15 августа 2007 в 14:47
Прикол в том, что кто-то в запросе отминусовал фразу «kak eto ne intepretiruet? )»:
hello&жопа -”kak eto ne intepretiruet? )”
Ответить
samlowry
15 августа 2007 в 14:47
Т. е. это непосредственно к моей статье фраза относится.
Ответить
Уведомление: Как зарождалось SEO… | MaulNet.ru - для тех, кто умеет зарабатывать в Интернете
Sergey
18 августа 2007 в 19:42
Интересный пост, но большой.
Почему тегом more не пользуешься?
Ответить
samlowry
18 августа 2007 в 23:13
Sergey: разъясни, пожалуйста, зачем он? Может, ты читаешь как-то по-особенному, я думал — это от ЖЖ пришло, там-то лента была, и кат юзали, чтобы лента не раздувалась… А тут?
Ответить
DarkSEO
23 августа 2007 в 00:18
а если кейворд такого типа:
buy mega pill domen.com
то скрипт выводит:
buy mega pill domen com
имхо это не очень хорошо :)
Ответить
samlowry
23 августа 2007 в 01:41
DarkSEO: ты хорошо читал? Точка=пробелу. Запросы ‘domain.com’ и ‘domain com’ — равнозначны.
Ещё раз повторюсь, в таких вопросах ИМХО — не катит. Всё проверяется легко и непринуждённо на практике.
Ответить
DarkSEO
23 августа 2007 в 01:54
я не о том, что эти запросы равнозначны или нет :)
я о том, что у тебя не вырезается сам domen.com (или http://www.domen.com)
Ответить
samlowry
23 августа 2007 в 02:12
А зачем его вырезать? Не пойму. Это такое же ключевое слово, как и все, и поисковики как-то по-особому трепетно к названию домена не относятся. И по нему можно выйти. Например:
«недостатки google.com»
Если идёт _спец_ запрос — site:google.com — вот тогда его надо вырезать.
А домены в качестве кивордов вводят только так.
Ответить
Уведомление: Гугл даёт подсказку о том, как он воспринимает запросы! [Within: блог samlowry]
Stripe
26 августа 2007 в 13:50
Зачет! :) Интересная информация.
Ответить
Ice_sCream
31 августа 2007 в 18:47
Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например — берется текст до точки. Это так, к слову. За пост — спасибо.
Ответить
Cruma
31 августа 2007 в 20:38
Кстати, если кому нужно собирать киворды, по которым приходят к нему на сайт, советую ознакомиться с возможностями специального сервиса _http://referer.mixed.ru
Особенно будет полезно для тех, кто работает в русском сегменте.
Ответить
samlowry
31 августа 2007 в 21:54
Ice_sCream: странно, почему он должен кушать только до точки? Это уже какая-то фишка Яндекса своя.
Ответить
Уведомление: Блог оптимистичного оптимизатора » Blog Archive » О важности URL страниц.
Уведомление: О важности URL страниц. » surfer
Уведомление: Важность URL. | AltBlog.ru
19slawa81
16 июня 2011 в 00:10
Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например – берется текст до точки. Это так, к слову. За пост – спасибо.
Ответить
Антон
13 июля 2011 в 23:45
Уже столько лет прошло) Интересно нынешнее поведение SE по отношению к спец. символам
Ответить