Ковыряйте софт: пример тарелочки с голубой каёмочкой

Часто оказывается, что то, что ты делаешь, уже сделано. Банальная истина, не правда ли? Однако многие продолжают делать по-новому в силу личных причин — «сделано, но не так хорошо, как мне хотелось бы», «сделано, но мне недоступно», «сделано, но я это вижу по-другому».

Однако когда то, что сделано, лежит на той самой тарелочке, с голубой каёмочкой, т. е. в очень удобном виде, вполне доступно, более-менее хорошо — возражать не хочется. Хочется знать, где же эта самая тарелочка стоит?

Когда дело касается программирования различных SE-штук, я могу смело ответить: в опенсорс-софте близких тематик — лингвистика и открытые поисковые системы (не пропустите эти ссылки — это не дань блоггерской моде линковать на слова — там действительно есть на что посмотреть).

И это не скучный совет из серии «изучайте чужой код» (сам не люблю это делать). Я советую исследовать состав дистрибутива программ.

Пример: недавно, в одной из дискуссий черно-серо-белых SEO, возник вопрос «где же брать стоп-слова?». Можно, конечно, просто шерстить Гугл, и, в принципе, решить задачу, но:

  • публичные листы еще надо собрать и привести в нужный вид, а копипастить с веб-страниц, и потом обрабатывать накопипащеное — не самое веселое занятие
  • публичные листы чаще всего ограниченны английским языком, а если и есть другие — то набор слов для них скуден

В голове в тот момент всплыло — в каком-то дистрибутиве я видел довольно внушительный набор листов стопслов из распространенных языков. Пошерстив по винту я нашел дистрибутив — это был mnoGoSearch, кстати — в последних версиях добавились японский и китайский листы.

И все благодаря тому, что я когда-то зачем-то ковырял этот дистрибутив! Кстати, если присмотреться, то в этом же дистрибутиве есть еще две интересные папки — папка с файлами синонимов, правда, объемы для английского скудны, а вот для итальянского (который в последний год довольно интересен многим) — гораздо серьезнее. Вторая папка — langmap, как я понял — самые популярные буквосочетания языка (для индексации?) — такое тоже может для чего-либо пригодиться.

Итак, повторюсь еще раз: ковыряйте софт! И тогда вам не придется собирать вручную различные базы, проводить исследования, которые уже проведены и может быть, это поможет вам быстрее создать ваш очередной инструмент заработка.

Домашнее задание :) : найдите хотя бы одну базу слов английского с указанием, какой частью предложения они являются.

11 комментариев к “Ковыряйте софт: пример тарелочки с голубой каёмочкой”

  1. Синонимы для немецкого и польского можно взять на http://www.dataparksearch.org/
    Там же можно разжиться частотными словарями китайского (традиционный и мандарин), тайского и корейского языков.

  2. Кстати, для синонимов английского там вроде бы самая большая база — 774,663 bytes. Ну и, возможно, в самом дистре что-то интересное есть.

  3. Я даже скажу, что интересного там: кусок кода, который делает автореферирование документа

  4. твои слова: «Ну и, возможно, в самом дистре что-то интересное есть.» — я и отвечаю: там, в дистре. Это одна из фич этого софта, он при построении индекса делает автореферирование документа, а-ля снипетты, вытаскивает 3 самых релевантных предложения

  5. lab, это ты про http://www.dataparksearch.org/ ?

    Вообще, автореферирование лично мне интересно для чтения всяких длинных статей. А тебе для чего? Выжимать из статьи новую? Или что-то измерять?

  6. действительно полезные ссылки.. заметна существенная озабоченность качественным контентом в последние полгода со стороны оптимизаторов :) Может в скором времени будет выгоднее содержать несколько качественных ресурсов, чем клепать автоматами тонны бесполезных псевдосайтов ;)

  7. demy, после псевдосайтов тяжело привыкнуть к:
    — малому проценту отдачи с полезных белых сайтов. Ведь на дорвеях и серых большая часть серферов направляются напрямую на спонсора или на самостоятельно изготовленные рекламные страницы. В белых на эти страницы так просто серфер не пойдет. И даже не так просто — даже 90% не пойдут.
    — уязвимости небольшого кол-ва сайтов в период роста. Да и потом тоже. От потери дорвеев не умирал никто. А вот седые волосы и убитые нервные клетки даже от возможности потери белого, взлелеяного долгими бессонными ночами родного проекта — это запросто.

  8. ага, еще по последнему высказыванию гугла на эту тему, сайты не должны иметь много рекламы. Тогда возможен другой поворот эволюции, владельцы белых сайтов займутся дорами:)

  9. Пингбэк: Make Self (Mikhailov Serge) Blog »

Комментарии закрыты.