Подход к поиску и анализу данных в текстовом формате за последние десятилетия изменился, в частности, благодаря развитию следующих технологий:
- Компьютерная лингвистика. 4 Одно из ключевых направлений современной текстовой аналитики, которое получило развитие в 30-х годах прошлого столетия с началом эры вычислительных машин и расцветом теоретических методов анализа человеческого языка. 4
- Text Mining. 4 Подход к извлечению знаний из больших коллекций документов, основанный на статистических методах. 4 Появился в 80-е годы XX века, работал не с «сырым» текстом, а с его числовым представлением. 4
- Машинное обучение. 23 Методы машинного обучения, такие как обработка естественного языка (NLP), позволяют компьютерам понимать текст во многом так же, как это делают люди. 3
- Текстовые классификаторы. 3 Могут упорядочивать и категоризировать практически любой тип текста, включая документы, медицинские исследования, файлы и тексты, найденные в интернете. 3
- Технологии автоматизированного вывода правил. 1 Полагаются на методы поиска закономерностей в данных. 1
- Подход раскрутки. 1 Создаётся небольшое число правил вручную, и далее на их базе автоматически выводятся новые. 1
Пример приложения понимания естественного языка последних лет — проект IBM Watson, который смог использовать 200 млн страниц структурированных и неструктурированных данных. 1