Фреймворк для обработки текстов на естественном языке с использованием ассоциативно-онтологического подхода
Набор программных библиотек (фреймворк) для обработки текстов на естественном языке с использованием ассоциативно-онтологического подхода создан специалистами Санкт-Петербургского института информатики и автоматизации РАН (http://www.spiiras.nw.ru/, лаборатория АНИ https://sial.iias.spb.su).
Программные модули обработки тестов на естественном языке предназначены для решения задач:
- разовой загрузки контента с интернет-сайтов или мониторинга интернет-сайтов в постоянном режиме;
- ассоциативного поиска текстов и тематической классификации текстов;
- оценки качества текстов, фильтрации рекламных материалов и автоматически-сгенерированных текстов;
- построения реферата текста;
- построения графической карты заданной предметной области;
- предобработки текстов на естественном языке для решения задач поиска контента, создания поискового индекса, последующей обработки в аналитических системах.
Принципиальная отличительная особенность ассоциативного подхода состоит в организации поиска документов, удовлетворяющих условию наличия семантических связей в документе между всеми словами поискового запроса.
Фреймворк ориентирован, прежде всего, на создание специализированных поисковых систем, систем мониторинга новостей и новостных агрегаторов, систем мониторинга контента и информационно-аналитических систем.
Мониторинг сети Интернет позволяет выявлять ресурсы требуемого содержания, а также выявлять актуальные, по мнению Интернет-сообщества, вопросы.
Мониторинг внутреннего документооборота позволяет оперативно включать в поисковую базу все вновь создаваемые документы для оперативного поиска, как самих документов, так и всех документов, связанных с ними по теме или по ссылкам.