Абзацный чанкинг (Paragraph Chunking). teletype.in Самый простой подход: разделение текста по абзацам. teletype.in Подходит для структурированных документов (статьи, отчёты), но не учитывает смысловые связи между абзацами. teletype.in
Семантический чанкинг (Semantic Chunking). teletype.in Фрагменты формируются на основе смысловых границ. teletype.in Например, разделение по темам в научной работе или по сценам в фильме. teletype.in
Скользящее окно (Sliding Window). teletype.in Текст делится на перекрывающиеся блоки. teletype.in Позволяет избежать потери контекста на стыках фрагментов. teletype.in Часто применяется в обработке длинных документов. teletype.in
Иерархический чанкинг (Hierarchical Chunking). teletype.in Многоуровневое разбиение: например, разделение книги на главы → разделы → абзацы. teletype.in Полезно для сложных запросов, в которых важен контекст разных масштабов. teletype.in
Чанкинг по правилам (Rule-Based Chunking). teletype.in Использование заранее заданных шаблонов (например, разделение по заголовкам Markdown или XML-тегам). teletype.in Подходит для документов с чёткой структурой. teletype.in
Поздний чанкинг (Late Chunking). weaviate.io Подход, который сохраняет контекстную информацию в больших документах. weaviate.io Сначала создают векторное представление всего документа, а затем делят его на фрагменты. weaviate.io
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.