Механизм парсинга HTML-документов в Beautiful Soup работает следующим образом: 3
Объект Tag ссылается на фактический тег XML или HTML в документе. 4 Объект NavigableString хранит текст в теге. 4 Объект BeautifulSoup используется для представления документа в целом. 4
Для изменения используемого парсера при создании объекта BeautifulSoup нужно указать два аргумента: 4 фактическую разметку и синтаксический анализатор, который нужно использовать. 4 Поддерживаются парсеры html.parser, lxml и html5lib. 4
Также Beautiful Soup автоматически исправляет невалидный HTML, пытаясь восстановить неправильную структуру документа. 2