Создание DjVu-книг

Материал из Викиреальностя
Перейти к: навигация, поиск

Упаковка в формат DjVu является одним из наиболее простых способов выложить в сеть адекватную по размеру и читабельности отсканированную книгу в электронном виде. Ниже описаны особенности и «острые углы», которые могут встретиться при работе с форматом (автор руководства — X-romix).

Содержание

[править] Требования к исходным файлам

Если вы решили создать книгу в формате DjVu, произведите ее скан в формате BMP (я использую этот формат), TIFF или PNG. Лучше потренироваться на нескольких страницах, чтобы подобрать правильный режим, поскольку самая трудоемкая часть всех действий — это собственно сканирование.

  • Качество сканирования — не менее 300 DPI (выставляется в программе сканирования). Если выставить меньше — могут возникнуть проблемы с распознаванием текста и чтением мелкого шрифта.
  • Для книг с формулами (где есть мелкие символы) рекомендуют более высокое качество, например 600 DPI.
  • Сканирование нужно производить в полутоновом режиме (градации серого), а не черно-белом.
  • Неплотное прижатие к стеклу сканера (изогнутые строчки, тени) может создавать проблемы с распознаванием текстового слоя.
  • Если через бумагу просвечивает обратная страница книги, рекомендуется подложить под страницу черную бумагу (для этой цели может быть удобен лист тонкого черного картона из набора разноцветных картонок для детских поделок, или что-нибудь подобное).

[править] DjVu Solo

Для создания книги можно использовать бесплатную программу DjVu Solo 3.1 (инсталлятор — 2,1 Мб). Это единственная программа, которая необходима, остальное описанное в этой статье просто улучшает качество получаемой книги.

В бесплатной версии 3.1 этой программы (кажется, ее уже убрали с сайта разработчика) интуитивно-непонятный интерфейс при выборе файлов, поэтому делайте так:

  • Откройте (File-Open) первую страницу (укажите в окне выбора файла формат — например, BMP)
  • Добавьте следующие файлы BMP (Edit — Append page(s)…). Конечно, не по одному, а сразу все. Чтобы при выборе файлов не сбился их порядок, удерживая клавишу Shift, щелкните на последний, а затем — на второй файл BMP в окне выбора файлов.

После выбора файлов нужно нажать кнопку Сохранить и выбрать имя файла и режим сжатия (я выбираю Clean).

Кодировщик может «падать» на страницах с грубыми растровыми изображениями — в этом случае их нужно размыть (например, программой IrfanView сделать Blur в выделенных «мышью» прямоугольных областях или выполнить устранение растра плагином Descreen для Adobe Photoshop). Эта проблема у меня встречалась только один раз на одной из старых книг.

[править] Проблема «инь»

Пример ошибки «инь». Красным цветом отмечены проблемные буквы.[1]

В некачественно сделанных сканах кодировщик может заменить похожие буквы, например «и» на «н», и наоборот (так называемая проблема «инь», или «инь-янь»[2]). Это связано с особенностями алгоритма сжатия (Transposed Letters in Group 4). Во избежание этого эффекта компания-разработчик предлагает сканировать с разрешением не ниже 300 DPI и выставлять параметр lossless (без потерь). [1]По ссылке приведен способ, как сделать это в DjVu Solo (нужные параметры есть в файле bitonaltodjvu.conf). При этом размер файла растет в 2-4 раза. [3]

[править] Разделение и разворот страниц, удаление полей

Целесообразно нарезать скан на страницы, повернуть их под правильным углом и удалить лишние поля. Это можно делать в полуавтоматическом режиме бесплатной программой ScanKromsator (чтобы не выставлять границы вручную — сразу же используйте функцию Draft kromsate). Отрезать чем больше — тем лучше, так как поля обычно мешают и при чтении, и при распознавании текста (см. ниже), при этом увеличивая размер итогового файла DJVU.

[править] Добавление текстового слоя

Чтобы книгу можно было не только смотреть, но и производить внутри нее поиск и копировать текст в буфер обмена, целесообразно вставить в нее текстовый слой. Это делается программой FineReader (версии 7 или 8) с неофициальным дополнением DjvuOCR от gencho. При помощи этой программы можно снабдить текстовым слоем уже готовый файл DJVU без его повторного пережатия.

7 версия FineReader может быть использована в бесплатном режиме, поскольку не требуется сохранение результатов распознавания во внешние файлы (для DjvuOCR нужны только те файлики, которые нагенерил сам FineReader внутри своего проекта).

[править] Устранение последствий неплотного прижатия к стеклу сканера

Если неплотно прижимать книгу к стеклу сканера, то могут быть серые тени по краям страницы (у переплета) и изогнутые строчки. И то и другое приводит к тому, что FineReader распознает в этих местах не буквы, а какой-то мусор. Чтобы излечить такие страницы, используют программу BookRestorer. Иногда не удается прижать сильно: или сканер прекращает сканировать, или у книги склеенный переплёт, который даже при усилии не раскрывается целиком. Есть модели сканеров, где эта проблема не существует: книга кладется на угол сгибом и сканируется без усилия прижатия.

[править] Устранение фона бумаги

Установка уровней в программе Adobe Photoshop по нажатию Ctrl+L. Правый бегунок отсекает серые пиксели, близкие к белому, а левый - темные пиксели, близкие к черному.

Сканы с ксерокопий выглядят четко и ярко, тогда как сканы с книг могут выглядеть — «серым по серому», особенно если издательство использовало не совсем черную краску на не совсем белой бумаге (или она пожелтела). В этих случаях полезно устранить фон посредством установки уровней белого и черного в Photoshop (Ctrl+L). Аналогичная функция есть в Scan Kromsator - закладка Quality - Enchance image - Gray enchance - закладка hystogram.

[править] Где раздобыть редкие книги

Они есть в библиотеках. Как правило, ради сохранности фондов там работает ксерокс, на котором можно отксерить всю книгу или ее часть (ориентировочная стоимость - 5 рублей разворот). Пользование самой библиотекой бесплатно (могут взять рублей 100 или чуть больше за пропуск). Для записи в библиотеку требуется гражданский паспорт.

[править] Ссылки

[править] Примечания

Создание DjVu-книг относится к теме «Программное обеспечение»   ±