Фразовые запросы

Фразовые запросы

Представление документа в виде вектора в основе своей приводит к потере информации. При кодировании документа в виде вектора теряется относительный порядок терминов в документе. Даже если мы попытаемся интерпретировать каждое двухсловие (biword) как термин (т. е. как ось в векторном пространстве), то веса по разным осям не будут независимыми. Например, фраза German shepherd кодируется по оси german sheperd и немедленно получает ненулевой вес по осям german и shepherd. Более того, для двухсловий необходимо как-то распространить такие понятия, как обратная документная частота. Таким образом, индекс, построенный для поиска в векторном пространстве, в принципе, не может быть использован для обработки фразового запроса. Более того, не существует никакого способа ранжирования документов в векторном про-странстве относительно фразового запроса — мы знаем лишь относительные веса каждого термина в документе.

При обработке запроса german shepherd мы могли бы использовать модель векторного пространства для идентификации документов, в которых эти термины встречаются часто, но не можем учесть порядок их следования. С другой стороны, фразовый поиск позволяет выявить наличие фразы german shepherd в документе без указания ее относительной частоты или веса. Несмотря на то что эти две парадигмы поиска (фразовая и векторная) имеют разные реализации на уровне индексов и алгоритмов поиска, в некоторых случаях их комбинация оказывается полезной.