Роль технологий машинного обучения в аннотации больших текстовых корпусов заключается в следующем:
- Автоматическая классификация текстов. 1 Для обучения классификатора на большом наборе предметных областей требуется наличие размеченного корпуса текстов. 1
- Тематическое моделирование и суммаризация текстов. 2 Это позволяет повысить качество анализа исходных документов и снизить нагрузку на эксперта за счёт их реферирования и автоматического выделения тем. 2
- Выявление аргументативных связей в текстах научной коммуникации. 3 На основе размеченных текстов строятся наборы данных для машинного обучения, что помогает распознавать аргументативные связи между смежными текстовыми фрагментами. 3
Также корпус текстов с расширяемой разметкой может использоваться для обучения при решении других задач анализа текста и для автоматизации проверки получаемых результатов при исследовании различных методов компьютерной лингвистики. 1