Процесс создания электронных книг в проекте «Гутенберг» включает три основных этапа: сканирование, распознавание и коррекцию. 12
1. Сканирование. 12 После решения вопроса с юридическим статусом произведения и его лицензионной чистотой участники проекта сканируют документ и запускают программу оптического распознавания символов. 12
2. Распознавание. 14 Программа просматривает каждую страницу построчно и преобразует слова в редактируемый текстовый файл. 4 Однако если в книге используется уникальный шрифт, или если он выцвел или повреждён, то OCR будет трудно преобразовать текст. 4
3. Коррекция. 12 Волонтёры проверяют, перечитывают и исправляют текст, сравнивая его как с отсканированной версией, так и с исходной страницей. 12 В среднем даже при применении улучшенной программы оптического распознавания волонтёры находят около 10 ошибок на страницу. 1
Каждая книга проверяется двумя разными волонтёрами, которые вносят все необходимые исправления. 1 Если оригинал работы находится в плохом состоянии, что часто случается со старыми книгами, текст вводится вручную. 1
Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. 12 Помимо этого формата, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод. 12