Некоторые классы слов, которые нужны для разметки именованных сущностей в тексте:
- PER — люди, имена; 56
- ORG — названия компаний, организаций; 56
- LOC — негеографические локации; 56
- GPE — страны, города, населённые пункты; 56
- PRODUCT — товары, продающиеся объекты (кроме услуг). 56
Для обозначения именованных сущностей используют BIO-нотацию: 2
- B-метка (beginning) проставляется для обозначения начала интересующей сущности; 2
- I (inside) — для обозначения слова внутри неё; 2
- O (outside) — это любое слово за её пределами. 2
Также иногда используется префикс «S» (single) для обозначения именованной сущности, состоящей из одного слова. 1
Выбор классов и способов обозначения зависит от конкретных задач и сферы применения. 5