Лекция, 15 сентября 2012, 17:00

Адаптация англоязычной системы извлечения информации к русскому языку

бесплатно
Описание встречи

Доклад посвящен разработке встроенного компонента анализа русскоязычных текстов для системы PULS. PULS — система извлечения информации из текста, которая в настоящее время работает с тремя сценариями: массовые инфекционные заболевания, пограничная безопасность и бизнес-новости.

Анализ русскоязычных текстов открывает доступ к сбору информации о событиях, происходящих на територрии бывшего Советского Союза, включая регионы, информация о которых не представлена в англоязычных источниках или появляется с сильным запаздыванием. Анализ русскоязычных текстов в данный момент реализован для двух сценариев: инфекционные заболевания и пограничная безопасность.

В докладе будут подробно описаны модули анализа текста, включая морфо-синтаксический анализ, поисковые образцы и правила вывода, а также онтология и словари, используемые системой Information Extraction. Также в докладе будет обрисован эксперимент по оценке совместной работы компонента Information Extraction, основанного на правилах, и классификатора релевантности, основанного на машинном обучении.

Преподаватели
Посетили
Показать Всех
Смотрите также