Как работает процесс создания электронных книг в проекте Гутенберг?

Алиса

На основе источников, возможны неточности

Как это работает?

Процесс создания электронных книг в проекте «Гутенберг» включает три основных этапа: сканирование, распознавание и коррекцию. ru.ruwiki.ru ru.wikipedia.org

1. Сканирование. ru.ruwiki.ru ru.wikipedia.org После решения вопроса с юридическим статусом произведения и его лицензионной чистотой участники проекта сканируют документ и запускают программу оптического распознавания символов. ru.ruwiki.ru ru.wikipedia.org

2. Распознавание. ru.ruwiki.ru www.makeuseof.com Программа просматривает каждую страницу построчно и преобразует слова в редактируемый текстовый файл. www.makeuseof.com Однако если в книге используется уникальный шрифт, или если он выцвел или повреждён, то OCR будет трудно преобразовать текст. www.makeuseof.com

3. Коррекция. ru.ruwiki.ru ru.wikipedia.org Волонтёры проверяют, перечитывают и исправляют текст, сравнивая его как с отсканированной версией, так и с исходной страницей. ru.ruwiki.ru ru.wikipedia.org В среднем даже при применении улучшенной программы оптического распознавания волонтёры находят около 10 ошибок на страницу. ru.ruwiki.ru

Каждая книга проверяется двумя разными волонтёрами, которые вносят все необходимые исправления. ru.ruwiki.ru Если оригинал работы находится в плохом состоянии, что часто случается со старыми книгами, текст вводится вручную. ru.ruwiki.ru

Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. ru.ruwiki.ru ru.wikipedia.org Помимо этого формата, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод. ru.ruwiki.ru ru.wikipedia.org

ru.ruwiki.ru

ru.wikipedia.org

research.comtext.space

www.makeuseof.com

olegchagin.livejournal.com

Найти в Поиске

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?