Получение текста c книги сканированной в pdf
у которой все страницы - картинки / изображения.
технол. база в докер контейнере link https://hub.docker.com/r/jbarlow83/ocrmypdf
Ставим туда допом русский язык. но об этом позже
Использование
Если надо только английский язык то
1 | $ docker run -i --rm jbarlow83/ocrmypdf -l eng - - </home/mp/Загрузки/Byuzen_T._Uchebnik_bistrogo_chteniya.pdf > /home/mp/Загрузки/Byuzen_T._Uchebnik_bistrogo_chteniya_a.pdf |
… то есть можно использовать перенаправлние, чтобы не “мудиться” с маунтингом томов.
Если надо руский
то надо русский дополнить образ. делаем контекст для сборки образа (пустая папка в которой пишем Dockerfile )
1 | # Dockerfile |
Собираем это (build.sh)
1 |
|
Используем аналогично
1 | $ docker run -i --rm jbarlow83/ocrmypdf -l rus - - </home/mp/Загрузки/Byuzen_T._Uchebnik_bistrogo_chteniya.pdf > /home/mp/Загрузки/Byuzen_T._Uchebnik_bistrogo_chteniya_a.pdf |
PS
PS ничего не получится если в книге уже есть текст. утилита скажет:
1 | Start processing 2 pages concurrently |
так, что надо возможно будет ее форсануть.
Типовой вывод в консоль
Если форсануть , то пишет такое
1 | Start processing 2 pages concurrently |