Формат PDF. Описание (про PostScript), преимущества, недостатки. Предназначение и особенности формата. ПО для работы с форматом.

Читайте также:

I. Коллективный анализ и целеполагание воспитательной работы с привлечением родителей, учащихся, учителей класса.
I. Особенности формирования отраслевой системы оплаты труда работников учреждений здравоохранения
II. Особенности учета операций по осуществлению функций главного распорядителя, распорядителя и получателя средств федерального бюджета
III Блок: 5. Особенности работы социального педагога с детьми-сиротами и детьми, оставшимися без попечения родителей.
PR-мероприятия для СМИ (виды, характеристика, особенности).
Абсолютная монархия в Англии. Предпосылки возникновения, общественный и государственный строй. Особенности английского абсолютизма.
Абсолютная монархия в Англии. Предпосылки возникновения, общественный и государственный строй. Особенности английского абсолютизма. (лекция)

PDF (аббревиатура от англ. Portable Document Format) - разработанный фирмой Adobe Systems с использованием ряда возможностей языка PostScript, как независимый от платформы формат представления в электронном виде полиграфической продукции, различной электронной документации (в том числе электронные книги) и презентаций.

PostScript PostScript

Преимущества:

Недостатки:

Особенности: В формате PDF реализована возможность внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. Имеется возможность импорта из большинства современных форматов текстовых документов, векторных и растровых графических форматов.

PDF MRC – свой метод сжатия. Это тот же PDF, но заимствующий многие элементы из DjVu.

При использовании MRC размер страницы уменьшается в несколько раз при сохранении качества. Это происходит благодаря решению разделить изображение на слои и каждый слой сжимать наиболее подходящим кодеком. Текст сжимается кодеком JBIG2, всё остальное сжимается с помощью JPEG/JPEG2000/ZIP с разным качеством.

PDF может быть использован для:

Создания электронных документов;

Обмена данными (многие приложения могут читать PDF-файлы);

Архивирования данных (существуют приложения, позволяющие индексировать PDF-файлы, что позволяет создавать электронные библиотеки в PDF-формате);

Интерактивных документов (PDF может быть использован для создания электронных форм, данные из которых хранятся в базе данных).

Традиционным способом создания PDF-документов является виртуальный принтер т.е. документ как таковой готовится в своей специализированной программе - графическом или текстовом редакторе, САПР и т.д. А затем экспортируется в pdf для распространения в электронном виде, передачи в типографию и т.п. Все данные в нем могут сжиматься, причем по-разному: JPEG, RLE, CCITT, ZIP. PDF может также сохранять всю информацию для выводного устройства, которая была в исходном PostScript-файле.

Для просмотра можно использовать официальную бесплатную программу Acrobat Reader, а также программы сторонних разработчиков.

Для создания и редактирования:

Многие приложения, такие как Corel Draw 9 или Adobe InDesign, имеют опцию «export to PDF».

Из приложений, которые не имеют этой опции, вы можете просто напечатать документ в PostScript-файл и затем использовать отдельное приложение под названием Adobe Acrobat Distiller для конвертации его в PDF-файл.

Приложение Adobe Acrobat (раньше называлось Exchange) может быть использовано для добавления в PDF-файл мультимедийных функций, гиперлинков, закладок и прочего.

5. Формат PDF. Описание, преимущества, недостатки. Обобщённая структура формата. Структура файла. Структура документа. Три типа структурированных документов.

PostScript – язык программирования для работы с принтерами. Технология PostScript позволяет упростить и автоматизировать процесс печати. Во время вывода на экран документа, содержащего изображение, программа макетирования страниц преобразовывает пиксели в коды PostScript, которые понятны принтеру. Во время вывода пиксели заменяются на последовательности полутоновых точек (half-tone-dots), которые и воспроизводятся при печати. Эти точки круглые, занимают несколько пикселей. В отличие от пикселей, эти точки не имеют специального цвета и не покрывают всего изображения. Бывают разного размера, благодаря чему при их просмотре невооруженном глазом создается впечатление, что присутствуют разные оттенки. Размер точки зависит от цветов тех пикселей, которые она заменила. Программы управления векторной графикой создают истинный код PostScript уровня 2 и 3, который впоследствии отправляется в печатающее устройство. PostScript – язык программирования, имеющий набор управляющих конструкций. Программа на языке PostScriptинтерпретируются, а не компилируются. Все данные, используемые операторами языка, хранятся в стеках. Программа на языке PostScript – это последовательность операторов, заданных в постфиксной нотации или обратной польской записи: операнды записываются перед оператором. Читая файл программы, интерпретатор записывает в стек операнды, затем выполняет оператор, снимая операнды со стека.

Преимущества:

Кроссплатформенность (означает, что вы можете увидеть документ точно таким же, каким он был создан, вне зависимости от того, на какой платформе он создавался);

Машино-независимость (может быть напечатан как на принтере, так и на полиграфической машине)

Компактность, т.к. PDF поддерживает большое количество алгоритмов компрессии данных.

Мультимедийность (поддерживает элементы, такие как видео- и/или звуковые ролики, так же как и гипертекстовые элементы и превью страниц)

PDF поддерживает безопасность. Создатель PDF-файла может задать несколько опций безопасности. Возможно заблокировать файл так, что он может быть открыт только после ввода пароля. Также возможно запретить изменение файла и/или его печать.

Недостатки:

PDF - патентованный формат компании Adobe, соответственно имеет закрытую структуру.

PDF пытается стать всеохватывающим стандартом, что не позволяет ему быть настолько эффективным, как специализированные решения. Вы можете использовать PDF в Интернете, но HTML-файлы более эффективны. Можно использовать PDF для обмена графикой, но большинство препресс-приложений используют форматы EPS и TIFF.

PDF-файлы сложно редактировать. Небольшие изменения могут быть внесены, но очень сложно, если не невозможно, добавлять блоки текста или изображения в существующий PDF-файл.

Структура формата:

Объекты (несколько типов: логические; числовые; последовательность символов; таблицы, состоящие из 2 элементов, включающих значения; объекты типа stream)

Структура файла

Структура документа

Страничное описание

Структура файла:

Заголовок (Первая строка PDF-файла, определяет номер спецификации PDF, которой придерживается данный файл, грубо говоря, версию файла )

Тело (Содержит последовательность косвенных объектов, входящих в состав публикации. Объекты - это компоненты публикации: страницы, изображения, шрифты. Комментарии могут быть во всем PDF-файле. Их синтаксис совпадает с синтаксисом комментариев в PostScript, они начинаются с % и заканчиваются символом конца строки)

Таблица перекрестных ссылок (Таблица содержит информацию о каждом объекте в файле в виде одной строки описания места объекта в файле. PDF-файл содержит таблицу, состоящую из одного или более разделов. Если нет изменений или добавлений в файл, таблица состоит из одного раздела. В противном случае в ее состав добавляется новый раздел.)

Трейлер (позволяет программному приложению при чтении PDF-файла быстро находить таблицу перекрестных ссылок и специальные объекты. Приложения должны читать PDF-файл с конца)

Структура документа – иерархия объектов, содержащихся в теле PDF-файла.

Каталог – главный объект, содержащий ссылки на дерево страниц в документе, ссылку на дерево объектов, представляющих схему документа, ссылки на статьи и места их назначения. Каталог может показывать также, где хранятся публикации.

Дерево страниц - доступ к страницам документа открывается через дерево узлов, названное деревом страниц. Это дерево определяет порядок страниц в документе. Структура дерева позволяет приложению быстро открыть документ, содержащий тысячи страниц, используя ограниченный объем памяти. Структура дерева страниц документа не связана с содержимым документа.

Дерево закладок – описывает содержание и последовательность закладок на странице.

Дерево статей – может включать несколько статей, которые могу содержать несколько фрагментов.

Место назначение - комментарии и закладки могут определять место назначения, которое состоит из страницы, места на странице и масштаба показа страницы.

3 типа структурирования PDF-файлов:

1) Неструктурированные файлы – они не обладают древовидной логической структурой, все содержимое интерпретируется, как единый блок, не имеющий никакой иерархии или внутренней связи. При конвертации таких файлов сохраняется только текст и исходные абзацы, все остальное форматирование исчезает.

2) Структурированные файлы – обладают древовидной структурой, позволяют сохранять содержимое в естественном порядке. В отличие от неструктурированных, эти файлы сохраняют и внутреннее форматирование (включая, например, атрибуты шрифта), но не сохраняют таблицы, списки и т.д.

3) Размеченные файлы – характеризуются логической структурой, набором четких связей между различными элементами, содержат дополнительную информацию, позволяющую выполнять форматирование.

Формат DjVu. Описание, преимущества, недостатки. Шесть основных технологий, которые лежат в основе формата. Разрушающие и не разрушающие методы сжатия. Технология разделения на слои.

DjVu – графический формат, который используется преимущественно для сохранения и сжатия отсканированных книг, содержащих цветные изображения и текст.

Особенности:

Чисто растровый формат

Применяется для учебной литературы

Для переноса информации с бумажных носителей в электронный вид (сканирование)

Сохраняет структуру фона

Структура формата открыта

Комбинация разрушающего и неразрушающего методов упаковки . Например, упаковка цветов в палитры (преобразование цветовых координат, в том числе преобразование цветного изображения в черно-белое) или схема аппроксимации по опорным точкам относятся к типичным "разрушающим" преобразованиям, в результате которых информация теряется безвозвратно. В качестве неразрушающего преобразования обычно используются различные вариации на тему алгоритма Лемпеля-Зива.

Плюсы:

Главный плюс – это, безусловно, небольшой размер;

При небольшом размере файла сохраняется хорошее качество изображений и особенно текста;

Обрабатывается только видимое изображение, что снижает нагрузку на потребление ресурсов компьютера, что особо актуально для файлов большого размера и для владельцев слабых машин;

Возможность использования формата для отображения литературы и документов, содержащих формулы, диаграммы, таблицы, а также исторических документов, с сохранением фактуры отсканированного документа;

Текст остается четким даже при сильном увеличении.

Минусы: DjVu – это сжатие изображения с потерями. То есть часть информации неизбежно теряется. В основном, это касается картинок.

В основу разработки формата положено 6 технологий :

1) Алгоритм отделения текста от фона на отсканированном изображении

2) Вейвлетный алгоритм сжатия фона IW44

3) Универсальный алгоритм сжатия ZIP

4) Алгоритм распаковки «по запросу» (позволяет показать часть изображения, не разворачивая всю картинку в оперативной памяти компьютера, а также легко масштаб. изображение)

5) Алгоритм «маскировки» изображений

6) Алгоритм сжатия чёрно-белых изображений JB2

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска - алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

PDF(Portable Document Format), не просто всем известный и удобный формат, а и единственный, который является стандартом с 2008 года. Он был разработан командой компании Adobe Systems. Разработчики формата поставили перед собой задачу создать такой формат отображения документа, чтобы на любом устройстве документ открывался и выглядел одинаково.

Вкратце PDF мы уже рассматривали в статье , сегодня попробуем выявить достоинства и недостатки этого векторного формата.

Часто PDF ассоциируется с «безбумажным офисом», а в случае с дизайном — с подготовкой к печати и с передачей графических макетов в типографию.

Преимущества и недостатки.

Плюсы:
— стандартизованность и популярность: открывается на любых устройствах с любыми операционными системами ровно в том виде, в котором был создан;
— средство просмотра PDF формата, Adobe Acrobat Reader, часто предустановлено на компьютер, если устройство поставлялось с операционной системой. Если же нет – он доступен для скачивания с сайта разработчика Adobe Systems и это совершенно бесплатно;
— занимает мало места на жестком диске, потому что поддерживает множество алгоритмов компрессии;
— безопасность: пользователь может настроить параметры безопасности для своего PDF файла, например, запрет печати, запрет редактирования, использование электронной подписи для определения подлинности документа и т.д.

Минусы:
— редактор PDF файлов – платный;
— редактировать pdf файлы в специализированных программах, сложнее, чем любые другие графические файлы;
— сложно работать с текстом в PDF файлах, он воспринимается как картинка.

Где используется?

PDF формат используется для хранения и передачи текстовой и графической информации в сети, например для передачи фирменного бланка в полиграфию или размещение анкеты на сайте. Отлично подходит для демонстрации наработок: показать легко, отредактировать – сложно. Это усложняет воровство интеллектуальной собственности. Ну и идеи «безбумажного офиса» воспринимаются на ура всеми, кто задумывается об экологии на планете.

1 голос

Здравствуйте, уважаемые читатели моего блога. Как было бы просто, если бы существовало всего одно расширение и пару программ, позволяющих работать с тем или иным документом. Так нет же.

Один и тот же текст мы можем открыть при помощи различных утилит и выглядеть они всегда будут по-разному. Ладно бы, если бы хотя бы софт справлялся с несколькими форматами, так тоже нет. Одну книгу мы сколько не бейся не можем открыть при помощи того же Word, а другая не поддается иному решению.

Зачем это нужно? Кто это придумал? Сегодня я расскажу вам о pdf – что такое интересное содержит в себе этот формат, зачем его придумали и как с ним работать, какая программа поможет справиться с непростым расширением и чем его собственно можно открыть или отредактировать?

Начнем, пожалуй, с базы.

Кому был нужен PDF

Не буду морочить вам голову. Как и всегда объясню все простыми словами с минимальным использованием терминов, дат и прочих, на мой взгляд, ненужных сложностей. В конце концов, я работаю не на Первом канале и даже не пишу для сайта РБК.

Начать мне все же хотелось бы с истории. Файлы этого типа придумала компания Adobe и предназначался он изначально для властей США. Чуть позже его начали использовать в полиграфии. Представьте себе скан любому документа. Та же фотография. Именно в этом и заключается особенность PDF. Он создается с применением виртуального (не существующего физически) принтера.

Вы получаете как будто изображение каждой страницы книги, важного документа, с сохранением графики. Внести какие-то изменения в нее будет довольно сложно, а сам формат создает впечатление, что документ серьезный и представляет собой нечто внушительное, фундаментальное, основательное.

Работа с PDF

Как бы не было «сложно» подобные документы можно комбинировать и редактировать. Давайте посмотрим на основные преимущества и недостатки самых популярных утилит для реализации этой задачи.

Adobe Acrobat

Я уже рассказывал про Adobe Acrobat, когда готовил статью « » . Эта программа позволяет создавать свои документы, объединять их, редактировать, ну и конечно же читать.

На странице этой утилиты официального сайта Adobe acrobat.adobe.com вы можете скачать бесплатную урезанную версию, подходящую только для чтения, или воспользоваться всеми функциями по максимуму в течение бесплатного тестового периода, который длится неделю.

Я имею дело с PDF не только как пользователь, а, прежде всего, как разработчик софта, умеющего его читать и писать (возможно, вы сталкивались с продуктами компании ABBYY, работающими с PDF – ABBYY FineReader, ABBYY PDF Transformer). Я предполагаю, что вы прочитали статью habrahabr.ru/company/abbyy/blog/105006 и далее пишу только про некоторые особенности и ограничения PDF, которые больше интересны продвинутым пользователям. Никаких сложных технических деталей при этом не буду касаться, так что программистам, желающим научиться читать или писать PDF, лучше сразу перейти к чтению спецификацию версии 1.7 со страницы www.adobe.com/devnet/pdf/pdf_reference_archive.html :)

Назначение и особенности PDF

Изначально формат PDF задумывался компанией Adobe ещё в конце 80х годов прошлого века как «электронная твёрдая копия» странично-структурированных документов, которую можно просматривать и печатать в виде, идентичном оригинальному, на разных машинах и платформах, но который не предполагается редактировать. Это определение отличает PDF от большинства других форматов хранения и распространения человеко-читаемых документов. За прошедшие годы PDF сильно эволюционировал, являясь в настоящее время контейнером для самого разнообразного контента (текст, векторная и растровая графика, интерактивные элементы, формы, аудио, видео, аннотации разных видов), но его исходное предназначение до сих пор остаётся источником как его возможностей, так и многочисленных ограничений.

Так, форматы текстовых документов (DOC, RTF, DOCX и т.д.) в основном ориентированы не на просмотр, а на редактирование документов. Созданный разумным пользователем:) документ логично реагирует на вставку/замену/удаление текста, картинок, таблиц в разных местах, изменение размеров и полей страниц, изменение форматирования фрагментов текста любого размера и тому подобные действия. Интернет страницы в формате HTML не слишком ориентированы на редактирование (хотя и допускают его), но при условии прямых рук автора нормально переносят отображение не только на экране монитора своего создателя, но и на устройствах с совершенно другими экранами и взаимодействием с пользователем.

PDF-принтер переводит GDI(«интерфейс графических устройств»)-команды вывода в нужные места символов, линий, кривых, прямоугольников, растровых изображений и прочих геометрических примитивов в соответствующие им PDF-команды с сохранением в файл. При этом, разумеется, сохраняются количество и размер страниц, на которое выполнялась печать.

Такое преобразование способно очень точно передать внешний вид того, что получилось, перед печатью (например, линии и символы не теряют своей чёткости при любом масштабировании и при этом хранятся достаточно компактно), но совершенно игнорирует устройство документа, из которого это получилось. Например, для подчёркивания слова или другого фрагмента текста в PDF не предусмотрено выделенной команды или атрибута символов – вместо этого отдельно выводятся символы (группами, которые обычно даже не совпадают со словами или строками), а отдельно рисуются линии или тоненькие прямоугольники нужной толщины и цвета в нужных местах страницы. Таблицы, которые человек воспринимает как целостный набор ячеек, для приложения, отображающего PDF, – просто хаотический набор символов и линий, по случайному совпадению образовавших нечто, воспринимаемое человеком как таблица. Гиперссылки, которые в исходном документе можно было использовать как для навигации внутри документа, так и для перехода на Веб-адреса, при печати исчезают как средство навигации, остаются лишь окрашенные и/или подчёркнутые надписи. В общем, сплошные имитация и надувательство. Такие PDF я ниже буду называть «векторными» (как состоящие из векторных команд, к которым относится и рисование символов).

Другой способ получения PDF-документов, ставший особенно популярным в последние годы, – переработка в него отсканированных бумажных страниц. Сейчас большинство сканеров и многофункциональных устройств могут выдавать результат в виде «растровых» PDF – при этом предыдущий способ «имитации печати» не нужен, а драйвер или утилита устройства самостоятельно формирует страницы PDF так, чтобы на каждой из них оказалось нужное «растровое» изображение, благо набор форматов графики, которые можно использовать в PDF, покрывают большинство запросов. Такие «растровые» PDF-документы занимают больше места и выглядят менее качественными, чем «векторные».

Некоторые современные приложения (в том числе приложения комплекта OpenOffice, Microsoft Office новых версий, ABBYY FineReader и ABBYY PDF Transformer) умеют создавать PDF самостоятельно, пользуясь при этом гораздо большим арсеналом средств, чем PDF-принтеры, ибо знают об исходном документе гораздо больше, чем нужно передать принтеру. Это позволяет сохранить, например, гиперссылки как таковые (а не просто как окрашенный и/или подчёркнутый текст) или описать некоторые элементы структуры документа для его переформатирования и показа на экранах малых разрешений. Такие документы со структурной информацией называются «тегированными» или «tagged» PDF. По замыслу Adobe, «тегирование», добавленное начиная с Acrobat 5, призвано скрыть наиболее вопиющие недостатки ранних версий PDF. Например, для нетегированных документов не гарантируется корректная работа механизма копирования фрагментов текста в буфер обмена Windows (всем привычный Copy-Paste). При этом даже сегодня тегированными являются не все создаваемые PDF, в том числе из-за ограниченных возможностей программ-генераторов (или незнания пользователями, где включить нужную для этого галочку в настройках), или просто из-за большего размера таких PDF, когда остро стоит вопрос экономии дискового пространства при хранении больших архивов.

Преобразование PDF-документов в другие форматы

Желание отредактировать содержимое PDF-документа или преобразовать его в другие, желательно редактируемые форматы (как для немедленного редактирования, так и для хранения с возможностью поиска/редактирования «когда-нибудь»), возникает по разным причинам. Простейшие средства извлечения текстового содержимого предоставляет любое приложение, отображающее PDF – я имею привычный Copy-Paste, который работает довольно примитивно – как правило, теряется символьное и абзацное форматирование, игнорируются таблицы и сложная вёрстка PDF-документа. Есть приложения, которые позволяют «точечно» редактировать PDF без преобразования в другие форматы – но их арсенал средств редактирования очень ограничен, ну просто никакого сравнения с привычными текстовыми процессорами:) В дорогущем Adobe Acrobat для многих документов единственным работающим видом редактирования является «аннотирование» – есть инструменты для добавления комментариев, выделения текста маркером, зачёркивания и т.п. Да, более продвинутое редактирование как бы есть, но вы, случайно, не встречали забавного сообщения «All or part of the selection has no available system font. You cannot add or delete text using the currently selected font.» при невинной попытке удалить символ или слово из «хорошего», «векторного» PDF-документа в Акробате? А не пробовали заменить фрагмент строки на более длинный, грустно наблюдая уползающие вправо хвосты строк? Если нет, значит любовь к продуктам Adobe у вас ещё впереди! К простым и привычным для текстовых процессоров задачам – например, «заменить за несколько секунд по всему документу слово «MS» на «Microsoft», с изменением размещения текста по колонкам и страницам» – такое «редактирование» и близко не стоит.

Неслучайно в софтверной индустрии сформировалась целая отрасль, производящая средства конверсии с лучшей функциональностью. Из написанного выше (и особенно – ниже), должно стать понятно, насколько это непростая задача. Большинство пользователей, не читавших этого креатива, так не считают – поэтому я его и пишу:)

Основные проблемы при преобразовании PDF в другие форматы

Часто в обсуждении связанных с PDF вопросов употребляется понятие «текстового слоя». Интуитивно многими пользователями предполагается, что в PDF-файлах есть такие выделенные части, где логично и понятно описаны все нужные характеристики видимого текста – или невидимого, но находимого поиском или выделяемого мышью. Хочу открыть вам страшную тайну (вероятно, с риском в ближайшее время получить пулю от киллера, подосланного авторами формата PDF и их отделом маркетинга) – никакого текстового слоя в указанном смысле в PDF нет! На деле для каждой страницы есть общий поток команд её рисования, в котором совершенно произвольно перемешаны разнотипные команды – задания областей отсечения, смены текущих толщины, цвета и шаблона пунктирности линий, изменения системы координат, смены шрифта, рисования прямых и кривых (с текущими атрибутами), вывода группы символов с текущими атрибутами и указанными «номерами глифов» (глиф – описание изображение символа, без учёта других его характеристик), вывода растровых картинок и т.п. То есть даже специальные текстовые команды – это просто один из многих инструментов рисования, не выделенный в отдельные потоки.

Хуже другое – даже в пределах одной страницы PDF можно использовать (слишком) широкий набор средств изображения похожего глазу текста: буквы могут быть видны как части растрового изображения – например, в логотипах (задача их распознавания – в чистом виде задача OCR-приложений, того же ABBYY FineReader), как результат рисования кривыми Безье или специальными текстовыми командами. Этот последний случай – самый лучший для обработки, но даже здесь не обязательно указываются общепринятые коды символов из Unicode или других кодировок – ибо в PDF-файл можно записывать особые шрифты из подмножества только реально использованных символов и ссылаться на символы по совершенно условным «номерам глифов», а не по кодам. То есть не всегда просто как обнаружить символы в нужном месте, так и определить их коды! С форматированием, в том числе с выбором похожего шрифта при отсутствии точного аналога, всё ещё хитрее.

Символы, даже если их присутствие и коды тем или иным способом установлены, своим порядком вывода на страницу очень часто никак не соответствуют исходной последовательности их размещения и чтения на странице. Например, на двухколоночной странице команды вывода текста из правой и левой колонок могут быть произвольно перемешаны. На такой странице нужно выделить области, в каждой из которых размещён логически связный текст – это тоже задача, много лет решаемая OCR -приложениями. Некоторую помощь даёт структурная информация из тегированных PDF – но часто даже у сделанных сейчас PDF эта информация либо отсутствует – как при выводе через PDF-принтер – либо бывает недостаточно полна.

Когда мы решили, что в некоторых местах страницы есть связный текст (а где-то даже поняли, как он сгруппирован в таблицы – это очень нетривиальная задача!), и нашли, какие символы и в какие строчки складываются, нужно преобразовать эти строчки в абзацы и более высокоуровневые элементы, привычные пользователям как текстовых процессоров, так и HTML – колонки, таблицы, врезки. Данных об абзацном форматировании в PDF обычно нет, так что все эти характеристики тоже нужно вычислять – как при всём том же распознавании. Если пытаться игнорировать элементы текста сложнее строчек или абзацев, то, выведя всё в коротких врезках, получим документ, который выглядит как настоящий, но почти не редактируется – помните задачу о замене по всему документу слова «MS» на «Microsoft»? Это очень хороший тест на редактируемость. Для редактируемого документа важна способность текста перетекать из одних зон в другие – в нужных случаях, которые ещё надо суметь отличить от ненужных.
Добавить метки

IT-сообщество постоянно пытается стандартизировать и унифицировать каждую составляющую цифрового мира. Именно поэтому так много существует различных стандартов и спецификаций.

Так же дело обстоит и с текстовым форматом. Иногда при открытии документа на ином устройстве, чем на котором был создан файл, документ может выглядеть совершенно по-иному. Чтобы этого избежать, был разработан единый формат, понятный каждому устройству, – .

Именно поэтому вся техническая документация (руководства пользователя и инструкции) представлена в формате pdf. Если вы являетесь пользователем сервиса «Гос Услуги», то, наверное, обратили внимание, что все бланки заявлений в электронной форме также представлены в формате pdf.

Примеров можно приводить много: кстати, свою книгу «, которую вы, наверное, уже скачали, я также выложил в сеть в формате pdf.

PDF – portable document format – был разработан компанией Adobe. С течением времени формат стал очень популярным.

С помощью каких программ можно его открыть и создать, я еще расскажу ниже. Но акцентирую ваше внимание на интересном факте: в документы pdf уже можно встраивать не только текст и графику, но и мультимедийные файлы: музыку и видео.

Неоспоримые преимущества формата

Совместимость . На каждом новом компьютере, как правило, уже предустановленна программа для просмотра файлов pdf. Следует отметить, что любой просмотрщик отображает файл pdf именно с теми шрифтами, с которыми он был создан. Даже если данные шрифты не установлены на ПК. Таким образом, пользователь может просматривать и распечатывать документ pdf на любом ПК именно в том виде, в котором документ был создан.
Универсальность . Сегодня разработано большое количество бесплатных программ, позволяющих открывать документ pdf на ПК с операционной системой Windows, MacOS, Linux, а также на различных мобильных платформах.
Компактность . Как правило, файлы pdf имеют небольшой размер, и поэтому они очень удобны для отправки их по почте в качестве вложений или как вариант хранения документов на жестком диске.
Безопасность . Разработчики формата предусмотрели достаточно средств для защиты документа. Так, файл в формате pdf можно защитить паролем, и никто, кроме владельца пароля не сможет даже открыть документ. Можно, например, разрешить просмотр документа, но запретить его редактирование, копирование контента (содержимого) и даже распечатку.

Варианты создания pdf файлов?

1. Использование программ для создания pdf. Специальное программное обеспечение наделено большим набором функций, однако, как правило, большинство из этих программ платные.

Кроме широко распространенного «тяжелого» пакета Adobe Acrobat, есть хорошие бесплатные аналоги. Большинство из них представляют собой виртуальные принтеры, которые выводят файл на печать не на принтер, а в создаваемый pdf файл.

2. Путем сохранения документа в pdf формате. Такой функцией обладают наиболее известные офисные пакеты: OpenOffice и MS Office 2007. Просто при сохранении файла необходимо выбрать пункт «Сохранить как…” –> “PDF или XPS».

Если у вас установлена более ранняя версия MS Office, то можно с сайта Microsoft бесплатно скачать надстройку «Сохранение в формате XPS или PDF».

3. Путем использования интернет сервиса. Я вам порекомендую два сайта: и WebPDF . Единственный совет: не используйте интернет сервисы для преобразования файлов с конфиденциальной или личной информацией.

Что представляют собой формы PDF?

Документы pdf обладают еще одним весьма полезным свойством: в них можно создавать формы, анкеты, опросники. Т.е. вы можете создать конкретные текстовые поля, подлежащие изменению.

Таким образом, пользователю достаточно открыть документ в любом просмотрщике, заполнить необходимые поля и отправить файл адресату. Например, таким образом созданы бланки заявлений на сайте ГосУслуги.

Насколько хорошо защищены pdf документы?

Как известно, 100% защитой не обладает ни один алгоритм, конструкция pdf не исключение. Защищенный паролем файл можно открыть с помощью программы «PDF Recover». После чего файлом можно пользоваться без ограничений.

Основные программы для работы с pdf

1. Для создания и редактирования pdf файлов

2. Для просмотра pdf файлов

3. Pdf-утилиты