Сервис по лингвистическому анализу «Дерево запросов»

Справочная система — это поисковик для профессионалов с базой рекомендаций, форм документов и нормативных актов. Системами пользуются специалисты двух десятков профессий. В базе для одной профессии — десятки миллионов единиц контента. В год Пользователи задают в системах миллионы запросов по своим рабочим задачам.

Чтобы редакторы-эксперты могли системно улучшать контент, мы разработали внутренний сервис «Дерево запросов». Мы его создали с использованием методов компьютерной лингвистики.

Сервис анализирует и кластеризует миллионы запросов Пользователей, что превращает их в обозримый фронт работ для экспертов справочной системы. К примеру, в Системе Главбух за год Пользователи задают 4 миллиона вопросов. «Дерево запросов» разбивает их на 10 тысяч значимых кластеров, с которыми может работать редакция. Самое интересное, что сервис ранжирует кластеры по частотности и удовлетворенности Пользователей. Это позволяет экспертам легко находить «дыры» в контенте.

В «Дереве запросов» входящие вопросы лемматизируются, статистические алгоритмы находят устойчивые словосочетания, заменяются синонимы, семантически однородные вопросы собираются в кластеры. Сервис называется «деревом», потому что, как листья на ветке дерева, в вершинах графов семантической сети, построенной алгоритмами сервиса, размещаются похожие вопросы, относящиеся к определенной тематике. Интерфейс сервиса позволяет гибко перемещаться между кластерами, перегруппировать их и погружаться с самого верхнего уровня онтологии до конкретного вопроса Пользователя.

Например, от верхнего уровня «налог» можно зайти в подгруппу «налог на имущество» и далее детализировать до исходного вопроса, заданного Пользователем системы. По каждому вопросу можно увидеть его частотность и оценку качества подбора контента для ответа на него.

Ранжирование кластеров вопросов по частотности и по качеству подбора контента позволяет отбирать те из них, которые содержат большое количество запросов с плохим потреблением материалов системы. То есть Пользователи задают вопрос, но не видят подходящего материала в поисковой выдаче или внутри документа. Значит, редакция должна подготовить новую или отредактировать рекомендацию, образец и пр. Сервис позволяет распределять ресурсы редакции максимально эффективно.