new_year

До бесплатного семинара в Москве осталось

  • 2
  • 2
дня

До бесплатного семинара в Самаре осталось

  • 2
  • 0
дней

Форум

Главнаяpdf/a формат

pdf/a формат

RSS
pdf/a формат
 
Цитата
Lexus755 пишет:
Использовать программы по распознаванию рукописного текста. Правда пока программы распознают лишь "рукопечатный" текст... т.е. символы должны быть раздельные.
а такие есть, можно название. вдруг пригодиться
 
Цитата
Sergey_P пишет:
а такие есть, можно название. вдруг пригодиться
finereader - [url:7oz8j0ji]http://kb.abbyy.ru/article/1099[/url:7oz8j0ji]
 
надо будет попробовать. как раз купил его.
 
Решил заняться я переоснасткой всех договоров и прочей бумажной ереси из ПДФ в ПДФ/А. Вылезла проблемка в виде увеличения объёма файла в 2! раза. Что я делаю не так?
итак исходные данные: был распечатанный документ, я его изначально отсканировал как картинку. Сейчас я эту картинку загружаю в FineReader, он его распознаёт. Далее сохраняю документ как PDF/A, указываю следущие параметры:
режим сохранения - текст под изображением
разрешение - чтение с экрана (150 дпи)
качество - потеря качества разрешена.

Говоря конкретнее. ФАйл ПДФ на 20 страниц в виде картинок занимал 6 Мбайт. После моих манипуляций - 12 Мбайт.
Может какие то действия делаю лишние?
 
Странно, pdf достаточно "плотный" формат и потеря качества по JPEG наоборот уменьшает размер файла с каждым пересохранением. Проверил у себя: был файл 3,87 Мб (на 3 страницы, примерно 1,29 Мб на страницу), при открытии файн ридер 11 ругнулся, что разрешение слишком мало и будет растянут. Потом поставил пользовательское качество: 150 дпи, потеря качества разрешена, 45%. Итого, размер 2,73 Мб, то есть стал меньше на 30% несмотря на добавление текстового слоя. Это при преобразовании pdf -> pdf/a. Второй пример: было 316 Кб (1 стр) стало 236 Кб, на 25% меньше. Если исходный был не pdf, а картинка, то сравнивать сложно. Настройки на скринах.
 
Цитата
two_oceans пишет:
Странно, pdf достаточно "плотный" формат и потеря качества по JPEG наоборот уменьшает размер файла с каждым пересохранением. Проверил у себя: был файл 3,87 Мб (на 3 страницы, примерно 1,29 Мб на страницу), при открытии файн ридер 11 ругнулся, что разрешение слишком мало и будет растянут. Потом поставил пользовательское качество: 150 дпи, потеря качества разрешена, 45%. Итого, размер 2,73 Мб, то есть стал меньше на 30% несмотря на добавление текстового слоя. Это при преобразовании pdf -> pdf/a. Второй пример: было 316 Кб (1 стр) стало 236 Кб, на 25% меньше. Если исходный был не pdf, а картинка, то сравнивать сложно. Настройки на скринах.
может неправильно выразился. стандартными средствами виндовс я бумажный документ сканировал и сохранял в jpeg. по 19 страниц примерно. там и текст и ручные подписи и фамилии и штампы и т.д. Из этих 19 картинок собирал в ПДФ. А сейчас этот ПДФ файл загружаю, оно распознаётся и при сохранении в ПДФ/А расширяется в 2 раза..
 
Формат pdf/a изначально и оговарилвался, как более емкий, хотя и является подмножеством формата pdf. Но первый отличается тем, что в электронную структуру фала внедрена информация, необходимая для его отображнеия. В частности все шрифты, используемые для его создания. Поэтому файл и "толстеет" при сохранении его в А.
 
В пользовательских настройках сохранения поменял 150 DPI на 96 DPI. размер исходного файла увеличился всего на 40 Кбайт. Визуально остался таким же как их при увеличении объема в 2 раза
 
Цитата
virus_mvs пишет:
А сейчас этот ПДФ файл загружаю, оно распознаётся и при сохранении в ПДФ/А расширяется в 2 раза.
Так понятнее. А то я уж перепугался, что JPEG внезапно стал многостраничным.
Цитата
Шла_мимо пишет:
Формат pdf/a изначально и оговарилвался, как более емкий, хотя и является подмножеством формата pdf. Но первый отличается тем, что в электронную структуру фала внедрена информация, необходимая для его отображнеия. В частности все шрифты, используемые для его создания. Поэтому файл и "толстеет" при сохранении его в А.
Такой вариант конечно возможен, но уж слишком большое превышение. Сильно сомневаюсь, что в договорах используется нестандартный шрифт. У меня, наоборот, размер снижается. Для гарантии, возможно, стоит ограничить набор распознаваемых символов до русско-английский (английский для римских цифр и подобного), чтобы не прицепился какой-нибудь Wingdings.

Раньше я сталкивался с передачей газеты в типографию в файлах pdf. Так вот, сам формат pdf (и ps (PostScript), который создается перед pdf) не требует обязательного внедрения шрифтов - если уверены, что у получателя есть все шрифты, их можно выкинуть. Но если по факту шрифта не найдется (в принтере, например), он будет отбражен по таблице замен шрифтов, что почти всегда коряво. Поэтому типографии специально указывают включить все шрифты, установить определенное разрешение, поделить страницу на цветовые составляющие. Размер pdf выходит в 150-600 Мб.

Все эти требования можно выполнить, только если использовать промежуточный формат PostScript и специально настроить преобразование в PDF под конкретную модель печатной машины. У нас же случай попроще - FineReader, как и прочие надстройки для офисных пакетов, виртуальные принтеры печатающие в pdf файл - не реализует 100% поддержки всех возможностей формата PDF. Сильно сомневаюсь (хотя нужно проверить, но придется разбираться в кодировке формата pdf/a), что шрифты вообще внедряются при обработке FineReader ом.
Я больше склонен думать, что в исходном pdf разрешение было 96 dpi и повышение до 150 дало увеличение размера в 2 раза. Чтобы прояснить это, нужно знать как именно собирали из картинок pdf (с каким разрешением?). Хотя по логике FineReader должен это понимать (на моем скрине настроек (FR3) видно предупреждение, что разрешение можно только уменьшить).

Отправлено спустя 3 минуты 29 секунды:
Цитата
virus_mvs пишет:
В пользовательских настройках сохранения поменял 150 DPI на 96 DPI. размер исходного файла увеличился всего на 40 Кбайт. Визуально остался таким же как их при увеличении объема в 2 раза
Значит моя догадка на правильном пути. С первого взгляда он и не будет отличаться - это те же данные, но растянутые. Но если сильно приглядеться новый файл с 96 dpi будет отличаться как от исходного, так и от нового с 150 dpi, весь смысл JPEG именно в том чтобы эти отличия были как можно меньше заметны.
Для размещения придется смотреть в требования и ставить нужное разрешение, даже если размер вырастет. Ну а для себя и 96 dpi подойдет.
 
Цитата
two_oceans пишет:
Значит моя догадка на правильном пути. Тут уже придется смотреть в требования для размещения и ставить нужное разрешение, даже если размер вырастет. Ну а для себя и 96 dpi подойдет.
Похоже на то.
сканировал текстовый документ изначально с такими параметрами.

Нашел таблицу на сайте адобэ. что при 150ДПИ изображения разрешение принтера получалось больше. Выходит что я при пересохранении увеличивал размер повышая исходное :shock: разрешения изображения.(ну или что-то типо того).
Поиск и копирование работает. визуально в глаза различия не бросаются. буду оставлять 96dpi.
 
Цитата
virus_mvs пишет:
сканировал текстовый документ изначально с такими параметрами.
Тут понятно, а при соединении jpg в pdf какие параметры были? Дело в том, что в некоторых картинках по умолчанию ставится 96 dpi, даже если они по факту отсканированы на 300 dpi. Это связано с тем, что на старых мониторах если "родное" разрешение (типа 1024 на 768) поделить на соответствующий линейный размер монитора по ширине и высоте получалось 96 dpi. Несоответствие указанного разрешения и реального разрешения обычно приводит к тому что файл на экране много больше бумажного аналога. Если изменить поле разрешение в файлах на реальное (150 или 300), визуально на экране они уменьшатся.
Не так давно я мучался с электронными заявлениями на изменение в ЕГРЮЛ - внезапно ввели что разрешение в файле TIF должно быть 300 dpi. Ну, раз хотят, исправил поле разрешения на 300, страница a4 стала как 7 на 10 на экране.
 
программа использовалась: FastStone Image Viewer
параметры такие:


И еще вопрос такой: У меня много протоколов на 1 страницу хранящихся в Jpeg-формате. По ним тоже необходимо делать возможность поиска. Получается и их нужно переводить в формат pdf/a ?
 
пдф/а формат это форрмат для нормативных документов. я выставляю распознанный пдф с графикой типа печатей и подписей ... правда сканирую я сразу ридером, размер файлов не более мегабайта.
Если же вы делаете пдф/а, то это распознанный текст поверх существующего джипега и ессно он будет больше чем изначальный размер.
У вас выходов несколько
а) перестать использовать пдфа
б) сжимать пдф понижая его качество уже после создания (например тут попробуйте http://pdf-docs.ru/)
 
Нашел статью по FastStone, DPI: Screen пишут означает 72 dpi, а Original file должно подставить правильное разрешение с которым файл сканировался. То есть в исходном было даже не 96, а 72!
Цитата
virus_mvs пишет:
По ним тоже необходимо делать возможность поиска. Получается и их нужно переводить в формат pdf/a ?
Получается так, чтобы был единый стандарт. Но на этот раз можно обойтись без FastStone Image Viewer и промежуточного pdf - FineReader и JPEG прекрасно открывает, в том числе можно открыть кучу файлов и получить многостраничный.

Отправлено спустя 4 минуты 43 секунды:
Цитата
Sergey_P пишет:
правда сканирую я сразу ридером, размер файлов не более мегабайта
Вот вот, а если несколько промежуточных операций, то там дело не в pdf/a. В данном случае похоже дело в разрешении, а не в шрифтах и текстовом слое под картинкой.
 
Провёл тесты.
исходник: квитанция на оплату стационарного телефона + несколько рукописных слов. (нет протоколов под рукой)) )
1) бумажный документ отсканировал через средства виндовс. размер файла получился 220Кб
2) Перевёл jpeg из п.1 в pdf через FastStone. размер стал 148 Кб
3) Перевёл pdf и п.2 в pdf/A через FineReader12. Размер стал 180 Кб.

4) Отсканированный jpeg из п.1 скормил сразу в FineReader12 и сделал из него pdf/A. Размер - 186 Кб.

5) отсканировал и распознал сразу через FineReader12 и сделал из него pdf/A. Размер - 170 Кб. Тут стоит сказать что минимальный dpi был 200. Мелкий шрифт находится лучше всего. Из присутствующих 4 слов - нашлось все 4. В предыдущих вариантах - из 4 одинаковых слов находилось 3 появления, а в одном случае вообще 2.

Выходит что вариант №5 самый оптимальный, а также сокращающий время на сохранение промежуточных документов.

Спасибо большое за помощь откликнувшимся!!!
 
Цитата
virus_mvs пишет:
5) отсканировал и распознал сразу через FineReader12 и сделал из него pdf/A. Размер - 170 Кб. Тут стоит сказать что минимальный dpi был 200. Мелкий шрифт находится лучше всего. Из присутствующих 4 слов - нашлось все 4. В предыдущих вариантах - из 4 одинаковых слов находилось 3 появления, а в одном случае вообще 2.
и это ... сохраняйте простой пдф, зачем вам формат, предусмотренный для законотворцев? у нас этого формата нет в перечне разрешенных.
попробуйте 5 вариант, только сохраните в пдф.
 
Цитата
Sergey_P пишет:

и это ... сохраняйте простой пдф, зачем вам формат, предусмотренный для законотворцев? у нас этого формата нет в перечне разрешенных.
попробуйте 5 вариант, только сохраните в пдф.
Оооо.. оказывается в простом ПДФе тоже можно сохранить с возможностью поиска. Я с этим никогда не сталкивался и думал что только формат ПДФ/А позволяет делать поиск в документе. Кстати размер в обычном pdf стал 107Кб.

Хммм.. Сейчас свои изначальный договор (в ПДФе составленный из jpeg-картинок) на 21 страницу и размером 7,13Мбайт запихал в ФайнРидер. Распознал и сохранил в обычном ПДФе. Размер усох до 5.65 Мбайт .
Затем тот же изначальный файл сохранил в пдф/А с теми же параметрами, получилось разжирел на 140 Кб и стал 7,27Мбайт.
 
Цитата
virus_mvs пишет:
Оооо.. оказывается в простом ПДФе тоже можно сохранить с возможностью поиска. Я с этим никогда не сталкивался и думал что только формат ПДФ/А позволяет делать поиск в документе. Кстати размер в обычном pdf стал 107Кб.
Подозреваю, что (5.65) это основной вариант pdf без целой сканированной картинки всей страницы - как если бы в ворде вставили факсимиле, картинки и сохранили в pdf. Если хорошенько почистить, уменьшить картинки и разрешение уменьшить наверно еще меньше будет - не 5 Мб текста же там. Для поиска он подойдет, но подлинность документа не докажет. В новых версиях формата pdf можно не только картинки, даже видеоролики вставлять, но это не к FineReader у однозначно, он поддерживает довольно старую версию (у меня на выходе pdf 1.4), которой достаточно для текста и картинок.

Второй вариант - с сохраненной полной картинкой страницы и тестовым слоем, он конечно больше (7.27). Спасибо за интересные опыты.
 
Цитата
two_oceans пишет:
Подозреваю, что (5.65) это основной вариант pdf без целой сканированной картинки всей страницы - как если бы в ворде вставили факсимиле, картинки и сохранили в pdf. Если хорошенько почистить, уменьшить картинки и разрешение уменьшить наверно еще меньше будет - не 5 Мб текста же там. Для поиска он подойдет, но подлинность документа не докажет.
При сохранении в формате pdf настройки сохранения такие же. Я так же (как и в случае с pdf/A) выбирал "текст под изображением", таким образом картинка, на которой находятся распознанные буквы, всё равно должна (теоретически) остаться. Не понятно что-то мне вобщем куда делись 2 Мб эти. И в каком всё таки формате правильно сохранять: pdf или pdf/A. Точнее даже так: можно ли сохранять в обычном pdf?
 
в пдф правильно, в нормативке у нас нет в перечне пдфа формата.
 
Цитата
Sergey_P пишет:
в пдф правильно, в нормативке у нас нет в перечне пдфа формата.
Да. еще раз перечитал что от нас надо, можно в ПДФ обычном. Спасибо.
#31
0 0
Цитата
Lexus755 пишет:
Использовать программы по распознаванию рукописного текста. Правда пока программы распознают лишь "рукопечатный" текст... т.е. символы должны быть раздельные.
а такие есть, можно название. вдруг пригодиться
#32
0 0
Цитата
Sergey_P пишет:
а такие есть, можно название. вдруг пригодиться
finereader - [url:7oz8j0ji]http://kb.abbyy.ru/article/1099[/url:7oz8j0ji]
#33
0 0
надо будет попробовать. как раз купил его.
#34
0 0
Решил заняться я переоснасткой всех договоров и прочей бумажной ереси из ПДФ в ПДФ/А. Вылезла проблемка в виде увеличения объёма файла в 2! раза. Что я делаю не так?
итак исходные данные: был распечатанный документ, я его изначально отсканировал как картинку. Сейчас я эту картинку загружаю в FineReader, он его распознаёт. Далее сохраняю документ как PDF/A, указываю следущие параметры:
режим сохранения - текст под изображением
разрешение - чтение с экрана (150 дпи)
качество - потеря качества разрешена.

Говоря конкретнее. ФАйл ПДФ на 20 страниц в виде картинок занимал 6 Мбайт. После моих манипуляций - 12 Мбайт.
Может какие то действия делаю лишние?
#35
0 0
Странно, pdf достаточно "плотный" формат и потеря качества по JPEG наоборот уменьшает размер файла с каждым пересохранением. Проверил у себя: был файл 3,87 Мб (на 3 страницы, примерно 1,29 Мб на страницу), при открытии файн ридер 11 ругнулся, что разрешение слишком мало и будет растянут. Потом поставил пользовательское качество: 150 дпи, потеря качества разрешена, 45%. Итого, размер 2,73 Мб, то есть стал меньше на 30% несмотря на добавление текстового слоя. Это при преобразовании pdf -> pdf/a. Второй пример: было 316 Кб (1 стр) стало 236 Кб, на 25% меньше. Если исходный был не pdf, а картинка, то сравнивать сложно. Настройки на скринах.
FR1.png (32.68 КБ)
FR2.png (13.9 КБ)
FR3.png (10.81 КБ)
#36
0 0
Цитата
two_oceans пишет:
Странно, pdf достаточно "плотный" формат и потеря качества по JPEG наоборот уменьшает размер файла с каждым пересохранением. Проверил у себя: был файл 3,87 Мб (на 3 страницы, примерно 1,29 Мб на страницу), при открытии файн ридер 11 ругнулся, что разрешение слишком мало и будет растянут. Потом поставил пользовательское качество: 150 дпи, потеря качества разрешена, 45%. Итого, размер 2,73 Мб, то есть стал меньше на 30% несмотря на добавление текстового слоя. Это при преобразовании pdf -> pdf/a. Второй пример: было 316 Кб (1 стр) стало 236 Кб, на 25% меньше. Если исходный был не pdf, а картинка, то сравнивать сложно. Настройки на скринах.
может неправильно выразился. стандартными средствами виндовс я бумажный документ сканировал и сохранял в jpeg. по 19 страниц примерно. там и текст и ручные подписи и фамилии и штампы и т.д. Из этих 19 картинок собирал в ПДФ. А сейчас этот ПДФ файл загружаю, оно распознаётся и при сохранении в ПДФ/А расширяется в 2 раза..
#37
0 0
Формат pdf/a изначально и оговарилвался, как более емкий, хотя и является подмножеством формата pdf. Но первый отличается тем, что в электронную структуру фала внедрена информация, необходимая для его отображнеия. В частности все шрифты, используемые для его создания. Поэтому файл и "толстеет" при сохранении его в А.
#38
0 0
В пользовательских настройках сохранения поменял 150 DPI на 96 DPI. размер исходного файла увеличился всего на 40 Кбайт. Визуально остался таким же как их при увеличении объема в 2 раза
#39
0 0
Цитата
virus_mvs пишет:
А сейчас этот ПДФ файл загружаю, оно распознаётся и при сохранении в ПДФ/А расширяется в 2 раза.
Так понятнее. А то я уж перепугался, что JPEG внезапно стал многостраничным.
Цитата
Шла_мимо пишет:
Формат pdf/a изначально и оговарилвался, как более емкий, хотя и является подмножеством формата pdf. Но первый отличается тем, что в электронную структуру фала внедрена информация, необходимая для его отображнеия. В частности все шрифты, используемые для его создания. Поэтому файл и "толстеет" при сохранении его в А.
Такой вариант конечно возможен, но уж слишком большое превышение. Сильно сомневаюсь, что в договорах используется нестандартный шрифт. У меня, наоборот, размер снижается. Для гарантии, возможно, стоит ограничить набор распознаваемых символов до русско-английский (английский для римских цифр и подобного), чтобы не прицепился какой-нибудь Wingdings.

Раньше я сталкивался с передачей газеты в типографию в файлах pdf. Так вот, сам формат pdf (и ps (PostScript), который создается перед pdf) не требует обязательного внедрения шрифтов - если уверены, что у получателя есть все шрифты, их можно выкинуть. Но если по факту шрифта не найдется (в принтере, например), он будет отбражен по таблице замен шрифтов, что почти всегда коряво. Поэтому типографии специально указывают включить все шрифты, установить определенное разрешение, поделить страницу на цветовые составляющие. Размер pdf выходит в 150-600 Мб.

Все эти требования можно выполнить, только если использовать промежуточный формат PostScript и специально настроить преобразование в PDF под конкретную модель печатной машины. У нас же случай попроще - FineReader, как и прочие надстройки для офисных пакетов, виртуальные принтеры печатающие в pdf файл - не реализует 100% поддержки всех возможностей формата PDF. Сильно сомневаюсь (хотя нужно проверить, но придется разбираться в кодировке формата pdf/a), что шрифты вообще внедряются при обработке FineReader ом.
Я больше склонен думать, что в исходном pdf разрешение было 96 dpi и повышение до 150 дало увеличение размера в 2 раза. Чтобы прояснить это, нужно знать как именно собирали из картинок pdf (с каким разрешением?). Хотя по логике FineReader должен это понимать (на моем скрине настроек (FR3) видно предупреждение, что разрешение можно только уменьшить).

Отправлено спустя 3 минуты 29 секунды:
Цитата
virus_mvs пишет:
В пользовательских настройках сохранения поменял 150 DPI на 96 DPI. размер исходного файла увеличился всего на 40 Кбайт. Визуально остался таким же как их при увеличении объема в 2 раза
Значит моя догадка на правильном пути. С первого взгляда он и не будет отличаться - это те же данные, но растянутые. Но если сильно приглядеться новый файл с 96 dpi будет отличаться как от исходного, так и от нового с 150 dpi, весь смысл JPEG именно в том чтобы эти отличия были как можно меньше заметны.
Для размещения придется смотреть в требования и ставить нужное разрешение, даже если размер вырастет. Ну а для себя и 96 dpi подойдет.
#40
0 0
Цитата
two_oceans пишет:
Значит моя догадка на правильном пути. Тут уже придется смотреть в требования для размещения и ставить нужное разрешение, даже если размер вырастет. Ну а для себя и 96 dpi подойдет.
Похоже на то.
сканировал текстовый документ изначально с такими параметрами.

Нашел таблицу на сайте адобэ. что при 150ДПИ изображения разрешение принтера получалось больше. Выходит что я при пересохранении увеличивал размер повышая исходное :shock: разрешения изображения.(ну или что-то типо того).
Поиск и копирование работает. визуально в глаза различия не бросаются. буду оставлять 96dpi.
фот1.jpg (48.48 КБ)
фот2.jpg (74.35 КБ)
#41
0 0
Цитата
virus_mvs пишет:
сканировал текстовый документ изначально с такими параметрами.
Тут понятно, а при соединении jpg в pdf какие параметры были? Дело в том, что в некоторых картинках по умолчанию ставится 96 dpi, даже если они по факту отсканированы на 300 dpi. Это связано с тем, что на старых мониторах если "родное" разрешение (типа 1024 на 768) поделить на соответствующий линейный размер монитора по ширине и высоте получалось 96 dpi. Несоответствие указанного разрешения и реального разрешения обычно приводит к тому что файл на экране много больше бумажного аналога. Если изменить поле разрешение в файлах на реальное (150 или 300), визуально на экране они уменьшатся.
Не так давно я мучался с электронными заявлениями на изменение в ЕГРЮЛ - внезапно ввели что разрешение в файле TIF должно быть 300 dpi. Ну, раз хотят, исправил поле разрешения на 300, страница a4 стала как 7 на 10 на экране.
#42
0 0
программа использовалась: FastStone Image Viewer
параметры такие:


И еще вопрос такой: У меня много протоколов на 1 страницу хранящихся в Jpeg-формате. По ним тоже необходимо делать возможность поиска. Получается и их нужно переводить в формат pdf/a ?
фот3.jpg (29.58 КБ)
#43
0 0
пдф/а формат это форрмат для нормативных документов. я выставляю распознанный пдф с графикой типа печатей и подписей ... правда сканирую я сразу ридером, размер файлов не более мегабайта.
Если же вы делаете пдф/а, то это распознанный текст поверх существующего джипега и ессно он будет больше чем изначальный размер.
У вас выходов несколько
а) перестать использовать пдфа
б) сжимать пдф понижая его качество уже после создания (например тут попробуйте http://pdf-docs.ru/)
#44
0 0
Нашел статью по FastStone, DPI: Screen пишут означает 72 dpi, а Original file должно подставить правильное разрешение с которым файл сканировался. То есть в исходном было даже не 96, а 72!
Цитата
virus_mvs пишет:
По ним тоже необходимо делать возможность поиска. Получается и их нужно переводить в формат pdf/a ?
Получается так, чтобы был единый стандарт. Но на этот раз можно обойтись без FastStone Image Viewer и промежуточного pdf - FineReader и JPEG прекрасно открывает, в том числе можно открыть кучу файлов и получить многостраничный.

Отправлено спустя 4 минуты 43 секунды:
Цитата
Sergey_P пишет:
правда сканирую я сразу ридером, размер файлов не более мегабайта
Вот вот, а если несколько промежуточных операций, то там дело не в pdf/a. В данном случае похоже дело в разрешении, а не в шрифтах и текстовом слое под картинкой.
#45
0 0
Провёл тесты.
исходник: квитанция на оплату стационарного телефона + несколько рукописных слов. (нет протоколов под рукой)) )
1) бумажный документ отсканировал через средства виндовс. размер файла получился 220Кб
2) Перевёл jpeg из п.1 в pdf через FastStone. размер стал 148 Кб
3) Перевёл pdf и п.2 в pdf/A через FineReader12. Размер стал 180 Кб.

4) Отсканированный jpeg из п.1 скормил сразу в FineReader12 и сделал из него pdf/A. Размер - 186 Кб.

5) отсканировал и распознал сразу через FineReader12 и сделал из него pdf/A. Размер - 170 Кб. Тут стоит сказать что минимальный dpi был 200. Мелкий шрифт находится лучше всего. Из присутствующих 4 слов - нашлось все 4. В предыдущих вариантах - из 4 одинаковых слов находилось 3 появления, а в одном случае вообще 2.

Выходит что вариант №5 самый оптимальный, а также сокращающий время на сохранение промежуточных документов.

Спасибо большое за помощь откликнувшимся!!!
#46
0 0
Цитата
virus_mvs пишет:
5) отсканировал и распознал сразу через FineReader12 и сделал из него pdf/A. Размер - 170 Кб. Тут стоит сказать что минимальный dpi был 200. Мелкий шрифт находится лучше всего. Из присутствующих 4 слов - нашлось все 4. В предыдущих вариантах - из 4 одинаковых слов находилось 3 появления, а в одном случае вообще 2.
и это ... сохраняйте простой пдф, зачем вам формат, предусмотренный для законотворцев? у нас этого формата нет в перечне разрешенных.
попробуйте 5 вариант, только сохраните в пдф.
#47
0 0
Цитата
Sergey_P пишет:

и это ... сохраняйте простой пдф, зачем вам формат, предусмотренный для законотворцев? у нас этого формата нет в перечне разрешенных.
попробуйте 5 вариант, только сохраните в пдф.
Оооо.. оказывается в простом ПДФе тоже можно сохранить с возможностью поиска. Я с этим никогда не сталкивался и думал что только формат ПДФ/А позволяет делать поиск в документе. Кстати размер в обычном pdf стал 107Кб.

Хммм.. Сейчас свои изначальный договор (в ПДФе составленный из jpeg-картинок) на 21 страницу и размером 7,13Мбайт запихал в ФайнРидер. Распознал и сохранил в обычном ПДФе. Размер усох до 5.65 Мбайт .
Затем тот же изначальный файл сохранил в пдф/А с теми же параметрами, получилось разжирел на 140 Кб и стал 7,27Мбайт.
#48
0 0
Цитата
virus_mvs пишет:
Оооо.. оказывается в простом ПДФе тоже можно сохранить с возможностью поиска. Я с этим никогда не сталкивался и думал что только формат ПДФ/А позволяет делать поиск в документе. Кстати размер в обычном pdf стал 107Кб.
Подозреваю, что (5.65) это основной вариант pdf без целой сканированной картинки всей страницы - как если бы в ворде вставили факсимиле, картинки и сохранили в pdf. Если хорошенько почистить, уменьшить картинки и разрешение уменьшить наверно еще меньше будет - не 5 Мб текста же там. Для поиска он подойдет, но подлинность документа не докажет. В новых версиях формата pdf можно не только картинки, даже видеоролики вставлять, но это не к FineReader у однозначно, он поддерживает довольно старую версию (у меня на выходе pdf 1.4), которой достаточно для текста и картинок.

Второй вариант - с сохраненной полной картинкой страницы и тестовым слоем, он конечно больше (7.27). Спасибо за интересные опыты.
#49
0 0
Цитата
two_oceans пишет:
Подозреваю, что (5.65) это основной вариант pdf без целой сканированной картинки всей страницы - как если бы в ворде вставили факсимиле, картинки и сохранили в pdf. Если хорошенько почистить, уменьшить картинки и разрешение уменьшить наверно еще меньше будет - не 5 Мб текста же там. Для поиска он подойдет, но подлинность документа не докажет.
При сохранении в формате pdf настройки сохранения такие же. Я так же (как и в случае с pdf/A) выбирал "текст под изображением", таким образом картинка, на которой находятся распознанные буквы, всё равно должна (теоретически) остаться. Не понятно что-то мне вобщем куда делись 2 Мб эти. И в каком всё таки формате правильно сохранять: pdf или pdf/A. Точнее даже так: можно ли сохранять в обычном pdf?
#50
0 0
в пдф правильно, в нормативке у нас нет в перечне пдфа формата.
#51
0 0
Цитата
Sergey_P пишет:
в пдф правильно, в нормативке у нас нет в перечне пдфа формата.
Да. еще раз перечитал что от нас надо, можно в ПДФ обычном. Спасибо.
Сейчас на форуме: 10 пользователей
10 пользователей сейчас на форуме

Подпишись на рассылку новостей ЖКХ, а также наших статей!

Спасибо, вы успешно подписались на рассылку!