this is about me:
https://www.ohloh.net/accounts/vyemialyanchyk
http://www.jboss.org/community/people/vyemialyanchyk
http://en.wikipedia.org/wiki/User:Vyemialyanchyk
http://www.microsoft.com/rus/windows/desktopsearch/default.mspx
http://desktop.google.com/
- desktop search - мои конкуренты
http://www.pandia.com/resources/desktop.html & http://www.pandia.com/resources/desktop2.html
review - ревью
wikipedia:
http://en.wikipedia.org/wiki/Desktop_search
http://en.wikipedia.org/wiki/List_of_search_engines#Desktop_search_engines
http://www.snapfiles.com/
- где опубликовать программу
пиаримся:
Digg.com Reddit.com
http://news.ycombinator.com/
habrahabr.ru
giveawayoftheday
http://forum.ixbt.com/?id=23 - форум - "Программы: Прикладное ПО"
http://forum.searchengines.ru/showthread.php?t=180100 http://www.gotai.net/documents/doc-art-007-02.aspx
http://meta.math.spbu.ru/~igor/thesis/node5.html http://www.se-lm.ru/model.pdf
Обзор математических моделей информационного поиска.
http://forum.searchengines.ru/showthread.php?t=208074
Автореферирование документа - снипеты и проч.
http://www.search-gt.com/index.html
быстрый поиск файлов - конкурент в некотором роде
http://forum.searchengines.ru/showthread.php?t=248008
Как работает метод шинглов?
http://www.swish-e.org/
еще одна система индексирования - Open source
Создание собственной поисковой системы с помощью PHP
http://www.ibm.com/developerworks/ru/library/os-php-sphinxsearch/
Build a custom search engine with PHP
http://www.ibm.com/developerworks/opensource/library/os-php-sphinxsearch/
http://lucene.apache.org/
http://www.sphinxsearch.com/p://www.ibm.com/developerworks/opensource/library/os-php-sphinxsearch/
the article discribes howto use Sphinx to create search for your site on php;
demo example uses MySQL, Sphinx, php
http://lucene.apache.org/
http://www.sphinxsearch.com/
написан на C++
состоит из 3 компонентов:
1) генератор индекса;
2) поисковая система;
3) поисковая утилита, работающая в командной строке
http://forum.searchengines.ru/
ветка -> Практика оптимизации -> Поисковые технологии
неплохой форум где можно встретить разработчиков реальных поисковых систем,
содержит достаточно много полезной информации на тему поисковых технологий.
Особенно полезны ранние топики форума. В последнее время несколько захирел.
http://www.seochase.com/
информационный поиск и поиск по сходству
http://itman.narod.ru/index.htm
хорошая подборка статей по теме "поиск" как на русском так и на английском языках,
полезна в качестве обзорного и достаточно серьезного знакомства с темой,
имеются исходники вычисление расстояние Левенштейна, поиск по сходству в словаре, компрессия инвертированных списков.
Впрочем их практическая полезность сомнительна. Однако конечно интересно с точки зрения
разнообразности подходов.
Анализ строк (String Search) by Graham A. Stephen
http://masters.donntu.edu.ua/2006/fvti/zhidkih/library/ssearch/string_search.1-3.html
попытка математической постановки задачи поиска; попытка определения расстояния между строками
на этом же сайте иммеется неплохая подборка статей на тему поиска, алгоритмов поиска строк
The Anatomy of a Large-Scale HypertextualWeb Search Engine
http://infolab.stanford.edu/pub/papers/google.pdf
Сергей Брин и Ларри Пейдж тезисно описывают фичи/архитектуру google
в качестве основной задачи ставится релевантный поиск в интернете
PageRank используется в качестве инструмента для упорядочивания
дается его формула; математики очень мало, иногда авторы непрочь навести
тумана особенно для людей "не в теме".
Как работают поисковые системы (Илья Сегалович)
http://company.yandex.ru/articles/article10.html
Яндекс делится "секретами". Статья полезна в качестве введения в тему построения поисковых систем.
Поисковые системы
http://meta.math.spbu.ru/~nadejda/ir-tutorial/nadejda_ir.html
Статья знакомит с терминологией и проблемматикой построения поисковой системы
Text Retrieval Conference (TREC)
http://trec.nist.gov/
конференция по извлечению текстовой информации поддерживается NIST и U.S. Department of Defense
имеются тестовые коллекции документов для получения которых на CD/DVD следует подать заявку
просто скачать тестовую информацию нет возможности и как ей воспользоваться не очевидно
лично для меня данный ресурс абсолютно бесполезен. Остается ждать и надеяться, что
создатели придут к большей демократии и позволят принять участие всем желающим. По крайней мере
я не вижу особой причины почему бы не выложить общий для всех набор тестовых файлов в несколько
миллионов/миллиардов объемом в несколько гигабайт и объявить свободное состязание с экспертной
оценкой.
Российский семинар по Оценке Методов Информационного Поиска (РОМИП)
http://romip.ru/ http://romip.narod.ru/
Российский аналог TREC. Претензии теже.
В прочем как я понимаю авторы не заинтересованы в честной конкуренции.
http://community.livejournal.com/ru_ir/
русскоязычный клуб по интересам, здесь главный интерес "Информационный поиск"
Web crawler
http://en.wikipedia.org/wiki/Web_crawler
тематическая статья в википедия, web паук/робот и все что с ним связано
Information retrieval (IR)
http://en.wikipedia.org/wiki/Information_retrieval
тематическая статья в википедия, "Информационный поиск" и все что с ним связано
http://community.livejournal.com/ru_ir/
русскоязычный клуб по интересам, здесь главный интерес "Информационный поиск"
Университетская информационная система РОССИЯ (УИС РОССИЯ)
http://www.cir.ru/index.jsp
научные статьи по теме
кая информационная система РОССИЯ (УИС РОССИЯ)
http://www.cir.ru/index.jsp
научные статьи по теме
mnoGoSearch -- конструктор, но корпоративный
http://itc.ua/node/19159/
статья о mnoGoSearch
Как бы я давил дорвеи, сделанные по <цепям Маркова>
http://blog.promosite.ru/comments.php?336
объяснение на пальцах про цепи Маркова и как это применяется
PageRank и Цепи Маркова. Часть I.
http://www.mediacraft.ru/sections/articles/1/1.html
PageRank и Цепи Маркова. Часть II.
http://www.mediacraft.ru/sections/articles/1/2.html
кая информационная система РОССИЯ (УИС РОССИЯ)
http://www.cir.ru/index.jsp
научные статьи по теме
mnoGoSearch -- конструктор, но корпоративный
http://itc.ua/node/19159/
статья о mnoGoSearch
Как бы я давил дорвеи, сделанные по <цепям Маркова>
http://blog.promosite.ru/comments.php?336
объяснение на пальцах про цепи Маркова и как это применяется
PageRank и Цепи Маркова. Часть I.
http://www.mediacraft.ru/sections/articles/1/1.html
PageRank и Цепи Маркова. Часть II.
http://www.mediacraft.ru/sections/articles/1/2.html
Вопросы об организаци поиска
http://forum.searchengines.ru/archive/index.php/t-24659.html
в архиве известного форума идет обсуждение ключевых вопросов по организаци поиска
Поисковые технологии
http://forum.searchengines.ru/archive/index.php/f-26.html
ссылка на полный архив форумов по теме поисковые технологии
http://www.miralab.ru/tools/service/#theory
неплохой набор ссылок по теме SEO.
Стоит обратить внимание на пункт "Теория информационного поиска"
Опыт написания поисковой системы.
http://www.codenet.ru/webmast/search/newbee/
автор делится собственным опытом написания поисковой системы.
Результат конецно не супер, однако человеку стоит сказать спасибо
за статью - полезна в качестве "Поисковик для чайников"
Положь, где взял, возьми, где положил
http://offline.computerra.ru/2005/577/37555/
обзорная статья о локальных поисковых системах имеющихся на ранке.
Статья написана в феврале 2005 года.
Кто не спрятался, я не виноват
http://www.computerra.ru/offline/2004/567/36689/
еще одна обзорная статья по теме локального поиска и имеющихся систем.
Программы поиска информации в полнотекстовых базах данных
http://www.medialingua.ru/details.asp?id=9000&type=2
обзорная статья по теме поисковых систем. Попытка сравнения по различным критериям - как то
скорость индексирования и поиска, цена, дополнительно программное обеспечение.
Делается попыпка охарактеризовать каждую из систем, показать ее сильные и слабые стороны.
Обзор трех основных поисковых систем Рунета: Апорта, Рамблера, Яндекса
http://www.web-centre.ru/news/web-centre/select.php?id=124
статья интересна в качестве исторической справки по данным поисковым системам.
Делается попытка сравнения релевантности и др. характеристик.
Summarizer
http://clusty.com/search?input-form=clusty-simple&v%3Asources=webplus&query=summarizer
Суммарайзер - вероятно наиболее полный список ссылок по теме. Стоит покапать.
Hash Functions and Block Ciphers
http://burtleburtle.net/bob/hash/
Хешировани - полезная информация по теме.
Английский, украинский и русский морфологический анализ и анализаторы.
http://www.keva.ru/ http://linguist.nm.ru/
Морфологический анализ - информация по теме.
Information Retrieval
http://www.dcs.gla.ac.uk/Keith/Preface.html#PREFACE
Книга на тему "Информационного поиска". Реально хорошая книга с математикой применяемой
в поисковых алгоритмах. Вероятно стоило бы перевести на русский.
Впрочем заинтересованный человек прочитает и в английском оригинале.
Книжки по информационному поиску
http://community.livejournal.com/ru_ir/25720.html
библиотека Яндекса с книжками по Information Retrieval
Term Frequency - Inverse Document Frequency (TD/IDF)
http://www.webmasterwoman.com/search-engines/TF-IDF-inverse-document-frequency.html
Введение в Information Retrieval.
СУБД LeoBase
http://www.leobase.com/NEW/RUSSIAN/CONTENT/PROJECTS/LEOBASE/newtechnologies.htm
Изучаем и пиарим конкурентов :).
Белорусский патент перевернет российский рынок интернет-рекламы (6.12.2001)
http://netoscope.narod.ru/theme/2001/12/06/4272.html
Изучаем и пиарим конкурентов :).
Новые технологии поиска документов похожих по содержанию на заданный
http://forum.searchengines.ru/showthread.php?t=16100&page=2
Изучаем и пиарим конкурентов :).
Обзор программ для поиска документов и данных
http://www.ixbt.com/soft/search-test.shtml
Собственно subj. Хорошо написаная статья, можно сказать эталон.
Еще неплохо бы иметь в общем доступе тестовые данные.
Скажу по секрету победитель не всегда так быстр как оказалось в статье.
В джунглях жесткого диска: замена локального поиска №2
http://www.xakep.ru/post/30113/default.asp
Обзорная статья, можно считать рекламным буклетом.
Программы для локального поиска
http://www.computerra.ru/gid/soft/38332/
Обзорная статья, можно считать рекламным буклетом.
Поиск: Обзор локального поиска Yandex.Desktop
http://lib.indi.ru/soft/?papers_id=20051220174207
Рекламный буклет Yandex Desktop.
Четыре Геркулеса
http://offline.computerra.ru/2004/565/36526/
Обзорная статья локальных поисковых систем.
Интервью с Сергеем Рыжиковым: новый морфологический поиск
http://www.softkey.info/reviews/review1706.php
Полезно узнать что у других то реализовано.
"Ищейка" vs GDS - битва локальных поисковых систем
http://www.softkey.info/reviews/review1257.php
Впрочем ищейка слобова-то ищет. Рекламный буклет.
не всегда так быстр как оказалось в статье.
В джунглях жесткого диска: замена локального поиска №2
http://www.xakep.ru/post/30113/default.asp
Обзорная статья, можно считать рекламным буклетом.
Программы для локального поиска
http://www.computerra.ru/gid/soft/38332/
Обзорная статья, можно считать рекламным буклетом.
Поиск: Обзор локального поиска Yandex.Desktop
http://lib.indi.ru/soft/?papers_id=20051220174207
Рекламный буклет Yandex Desktop.
Четыре Геркулеса
http://offline.computerra.ru/2004/565/36526/
Обзорная статья локальных поисковых систем.
Интервью с Сергеем Рыжиковым: новый морфологический поиск
http://www.softkey.info/reviews/review1706.php
Полезно узнать что у других то реализовано.
"Ищейка" vs GDS - битва локальных поисковых систем
http://www.softkey.info/reviews/review1257.php
Впрочем ищейка слабовато ищет. Рекламный буклет.