Подход к поиску и анализу данных в текстовом формате за последние десятилетия изменился, в частности, благодаря развитию следующих технологий:
- Компьютерная лингвистика. www.cnews.ru Одно из ключевых направлений современной текстовой аналитики, которое получило развитие в 30-х годах прошлого столетия с началом эры вычислительных машин и расцветом теоретических методов анализа человеческого языка. www.cnews.ru
- Text Mining. www.cnews.ru Подход к извлечению знаний из больших коллекций документов, основанный на статистических методах. www.cnews.ru Появился в 80-е годы XX века, работал не с «сырым» текстом, а с его числовым представлением. www.cnews.ru
- Машинное обучение. www.hse.ru www.frontiersin.org Методы машинного обучения, такие как обработка естественного языка (NLP), позволяют компьютерам понимать текст во многом так же, как это делают люди. www.frontiersin.org
- Текстовые классификаторы. www.frontiersin.org Могут упорядочивать и категоризировать практически любой тип текста, включая документы, медицинские исследования, файлы и тексты, найденные в интернете. www.frontiersin.org
- Технологии автоматизированного вывода правил. www.osp.ru Полагаются на методы поиска закономерностей в данных. www.osp.ru
- Подход раскрутки. www.osp.ru Создаётся небольшое число правил вручную, и далее на их базе автоматически выводятся новые. www.osp.ru
Пример приложения понимания естественного языка последних лет — проект IBM Watson, который смог использовать 200 млн страниц структурированных и неструктурированных данных. www.osp.ru