26 марта 2007 г. Автор: Михаил Дубицкий

Google определяет спам-документы по фразам


Google опубликовал новый патент «Определение спам-документов, основанное на фразах». В соответствии с патентом, спам-документы определяются на основании количества соответствующих фраз, встречающихся в документе.

Процесс определения спам-документов строится следующим образом, на основе списка фраз, где каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фразами, определяется количество соотнесенных фраз в документе. Далее путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз выявляется спам-документ.

На основе частоты использования фраз в коллекции документов выделяются «действующие» или «хорошие» фразы. Подобным образом могут быть идентифицированы фразы, состоящие из нескольких слов – к примеру, фразы из четырех, пяти, и более слов.

Источник - www.seonews.ru

Читать другие похожие записи:

RSS-подписка

Powered by FeedBurner

Мы рекомендуем

Searchengines.Ru - Первый сайт о SEO.

Sape.Ru - Лучшая биржа ссылок за 2007 год.

Yazzle.Ru - Программа для оценки бюджетов и анализа конкурентов.