Вопросы к Поиску с Алисой
Алгоритмы обработки естественного языка (NLP) развивались от систем, основанных на вручную прописанных правилах, до современных больших языковых моделей (LLM). habr.com www.unite.ai
До 1980-х годов большинство систем NLP строились на сложных наборах рукописных правил. en.wikipedia.org Такие системы были способны решать лишь узкие, чётко ограниченные задачи. habr.com
С конца 1980-х годов с ростом объёмов цифровых данных и вычислительных ресурсов на смену правилам пришли алгоритмы машинного обучения. en.wikipedia.org habr.com Вместо того чтобы прописывать правила вручную, они анализировали большие коллекции размеченных текстов для выявления закономерностей. habr.com
В 1990 году компания IBM впервые осуществила статистический машинный перевод. edverest.ru В отличие от предшественников, такие системы самостоятельно извлекали правила из большого количества примеров перевода — из так называемых параллельных текстов (текст на исходном языке и его перевод на целевой язык). edverest.ru
В 2000-е годы с развитием Интернета стало доступно всё большее количество необработанных языковых данных. en.wikipedia.org Исследования стали фокусироваться на неконтролируемых и полунеконтролируемых алгоритмах обучения. en.wikipedia.org Такие алгоритмы могут извлекать уроки из данных, которые не были вручную снабжены нужными ответами, или использовать комбинацию аннотированных и неаннотированных данных. en.wikipedia.org
В 2010-х годах широкое распространение при обработке естественного языка получили методы машинного обучения в стиле репрезентативности и глубокой нейронной сети (с множеством скрытых слоёв). en.wikipedia.org
В 2017 году появилась архитектура Transformer, которая заложила основу для LLM, представив механизмы внутреннего внимания, которые позволили моделям более эффективно понимать и представлять сложные языковые шаблоны. www.unite.ai
В 2019 году компанией OpenAI была создана модель Generative Pretrained Transformer 2 (GPT-2) — система ИИ с открытым исходным кодом, которая позволяла переводить, отвечать на вопросы и генерировать текст на уровне, который в ряде случаев неотличим от написанного человеком. edverest.ru
После 2019 года самоконтролируемое обучение с использованием языковых моделей стало скорее основой NLP. edverest.ru Почти все современные модели NLP теперь адаптированы на основе одной из нескольких базовых моделей, таких как BERT, RoBERTa, BART и другие. edverest.ru