Вопросы к Поиску с Алисой
Процесс создания электронных книг в проекте «Гутенберг» включает три основных этапа: сканирование, распознавание и коррекцию. ru.ruwiki.ru ru.wikipedia.org
1. Сканирование. ru.ruwiki.ru ru.wikipedia.org После решения вопроса с юридическим статусом произведения и его лицензионной чистотой участники проекта сканируют документ и запускают программу оптического распознавания символов. ru.ruwiki.ru ru.wikipedia.org
2. Распознавание. ru.ruwiki.ru www.makeuseof.com Программа просматривает каждую страницу построчно и преобразует слова в редактируемый текстовый файл. www.makeuseof.com Однако если в книге используется уникальный шрифт, или если он выцвел или повреждён, то OCR будет трудно преобразовать текст. www.makeuseof.com
3. Коррекция. ru.ruwiki.ru ru.wikipedia.org Волонтёры проверяют, перечитывают и исправляют текст, сравнивая его как с отсканированной версией, так и с исходной страницей. ru.ruwiki.ru ru.wikipedia.org В среднем даже при применении улучшенной программы оптического распознавания волонтёры находят около 10 ошибок на страницу. ru.ruwiki.ru
Каждая книга проверяется двумя разными волонтёрами, которые вносят все необходимые исправления. ru.ruwiki.ru Если оригинал работы находится в плохом состоянии, что часто случается со старыми книгами, текст вводится вручную. ru.ruwiki.ru
Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. ru.ruwiki.ru ru.wikipedia.org Помимо этого формата, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод. ru.ruwiki.ru ru.wikipedia.org