Полнотекстовый поиск

Эффективность программной системы, частью которой является полнотекстовый поиск, повышает дополнительный инструмент, способный искать слова во всех формах (имеются в виду, например, все формы склоняемых и спрягаемых слов). Таким образом программная система находит все тексты, в которых встречается искомое слово, несмотря на его форму.  

Исходной формой (так называемой леммой) существительного обычно является форма именительного падежа единственного числа, напр., солнце. Исходной формой глагола обычно яляется инфинитив, напр., гореть. Однако, существуют исключения. Например, в болгарском языке нет инфинитива, поэтому исходной формой считается форма первого лица единственного числа. 

Языковой аспект

Данное программное решение основано на формальном описании морфологии, которое расширяет дополнительная информация, состоящая из следующих грамматических категорий:

· падеж, число и род существительных
· лицо, число, наклонение, время, вид глаголов
· категории местоимений, числительных, наречий или союзов

В большинстве языков встречаются разные изменения в корнях слов, которые могут затруднять полнотекстовый поиск. Приведем несколько примеров: конец-конца, писать-пишет, друг-друзья (рус.); mráz-mrazustůl-stoluBůh-Bohu (чеш.); come-camebreak-broken, go-went (англ.). Поэтому надо при разработке программной системы с полнотекстовым поиском учитывать все особенности языковых систем. 

Следующим затруднением является омонимия (звуковое совпадение разных языковых едниц, значения которых не связаны друг с другом). Например, русские слова замок, лук, пропасть и другие. Система с полнотекстовым поиском предлагает все омонимы, из которых пользователь выбирает подходящий вариант.

Программное решение

Наше программное решение отличается своей эффективностью. Представьте себе, что в нашем словаре обработано более 6 700 000 словоформ чешского языка (включая нужную морфологическую информацию). Несмотря на огромное количество данных, все занимает только 1МБ. Значит, три чешские слова занимают только один бит!

Доступные функции

· поиск исходной словоформы
· поиск всех словоформ искомого слова
· склонение словосочетаний существительного с прилагательным (напр., акционерное общество, акционерного общества, акционерному обществу и т. д.)

Все функции описываемого полнотекстового поиска вы можете опробовать в нашем приложении Lingea Lexicon.

В ностоящее время мы предлагаем технологии полнотекстового поиска для многих языков и разных платформ (см. таблицу). Чтобы улучшить результаты вашего поиска, вы можете применять также нами разработанный синонимический словарь или предлагаемые речевые технологии (напр., голосовой поиск и др.).