Google определяет спам-документы по фразам
Google опубликовал новый патент
Процесс определения спам-документов строится следующим образом, на основе списка фраз, где каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фразами, определяется количество соотнесенных фраз в документе. Далее путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз выявляется спам-документ.
На основе частоты использования фраз в коллекции документов выделяются «действующие» или «хорошие» фразы. Подобным образом могут быть идентифицированы фразы, состоящие из нескольких слов – к примеру, фразы из четырех, пяти, и более слов.
Источник -
Читать другие похожие записи: