Часто оказывается, что то, что ты делаешь, уже сделано. Банальная истина, не правда ли? Однако многие продолжают делать по-новому в силу личных причин — «сделано, но не так хорошо, как мне хотелось бы», «сделано, но мне недоступно», «сделано, но я это вижу по-другому».
Однако когда то, что сделано, лежит на той самой тарелочке, с голубой каёмочкой, т. е. в очень удобном виде, вполне доступно, более-менее хорошо — возражать не хочется. Хочется знать, где же эта самая тарелочка стоит?
Когда дело касается программирования различных SE-штук, я могу смело ответить: в опенсорс-софте близких тематик — лингвистика и открытые поисковые системы (не пропустите эти ссылки — это не дань блоггерской моде линковать на слова — там действительно есть на что посмотреть).
И это не скучный совет из серии «изучайте чужой код» (сам не люблю это делать). Я советую исследовать состав дистрибутива программ.
Пример: недавно, в одной из дискуссий черно-серо-белых SEO, возник вопрос «где же брать стоп-слова?». Можно, конечно, просто шерстить Гугл, и, в принципе, решить задачу, но:
- публичные листы еще надо собрать и привести в нужный вид, а копипастить с веб-страниц, и потом обрабатывать накопипащеное — не самое веселое занятие
- публичные листы чаще всего ограниченны английским языком, а если и есть другие — то набор слов для них скуден
В голове в тот момент всплыло — в каком-то дистрибутиве я видел довольно внушительный набор листов стопслов из распространенных языков. Пошерстив по винту я нашел дистрибутив — это был mnoGoSearch, кстати — в последних версиях добавились японский и китайский листы.
И все благодаря тому, что я когда-то зачем-то ковырял этот дистрибутив! Кстати, если присмотреться, то в этом же дистрибутиве есть еще две интересные папки — папка с файлами синонимов, правда, объемы для английского скудны, а вот для итальянского (который в последний год довольно интересен многим) — гораздо серьезнее. Вторая папка — langmap, как я понял — самые популярные буквосочетания языка (для индексации?) — такое тоже может для чего-либо пригодиться.
Итак, повторюсь еще раз: ковыряйте софт! И тогда вам не придется собирать вручную различные базы, проводить исследования, которые уже проведены и может быть, это поможет вам быстрее создать ваш очередной инструмент заработка.
Домашнее задание :) : найдите хотя бы одну базу слов английского с указанием, какой частью предложения они являются.
Синонимы для немецкого и польского можно взять на http://www.dataparksearch.org/
Там же можно разжиться частотными словарями китайского (традиционный и мандарин), тайского и корейского языков.
Maxime: спасибо за наводку!
Кстати, для синонимов английского там вроде бы самая большая база — 774,663 bytes. Ну и, возможно, в самом дистре что-то интересное есть.
Я даже скажу, что интересного там: кусок кода, который делает автореферирование документа
Лаб, где — там?
твои слова: «Ну и, возможно, в самом дистре что-то интересное есть.» — я и отвечаю: там, в дистре. Это одна из фич этого софта, он при построении индекса делает автореферирование документа, а-ля снипетты, вытаскивает 3 самых релевантных предложения
lab, это ты про http://www.dataparksearch.org/ ?
Вообще, автореферирование лично мне интересно для чтения всяких длинных статей. А тебе для чего? Выжимать из статьи новую? Или что-то измерять?
действительно полезные ссылки.. заметна существенная озабоченность качественным контентом в последние полгода со стороны оптимизаторов :) Может в скором времени будет выгоднее содержать несколько качественных ресурсов, чем клепать автоматами тонны бесполезных псевдосайтов ;)
demy, после псевдосайтов тяжело привыкнуть к:
— малому проценту отдачи с полезных белых сайтов. Ведь на дорвеях и серых большая часть серферов направляются напрямую на спонсора или на самостоятельно изготовленные рекламные страницы. В белых на эти страницы так просто серфер не пойдет. И даже не так просто — даже 90% не пойдут.
— уязвимости небольшого кол-ва сайтов в период роста. Да и потом тоже. От потери дорвеев не умирал никто. А вот седые волосы и убитые нервные клетки даже от возможности потери белого, взлелеяного долгими бессонными ночами родного проекта — это запросто.
ага, еще по последнему высказыванию гугла на эту тему, сайты не должны иметь много рекламы. Тогда возможен другой поворот эволюции, владельцы белых сайтов займутся дорами:)
Пингбэк: Make Self (Mikhailov Serge) Blog » ���� ������� ��� �������������� �������