Как извлечь текст из файла в формате PDF
Теория
Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.

В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader (http ://studia.at.ua/load/adobe_reader_9_rusificirovannyj/15-1-0-126 русифицированная версия), а также программы сторонних разработчиков.
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов.
В этом формате распространяется большое количество сопутствующей документации (подробнее в Википедии http ://ru.wikipedia.org/wiki/Portable_Document_Format).
Практика
Как извлечь текст из файла в формате PDF
1. «Save as text»
В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.
2. «Text Select»
Также в Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.
3. OCR-программы
Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition - оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним:
* abbyy.ru > ABBYY FineReader,
* irislink.com > ReadIris,
* cuneiform.ru > CuneiForm,
* nuance.com > OmniPage.
4. Программы-конверторы
* abbyy.ru > ABBYY PDF Transformer переводит на выбор в форматы.doc,.rtf,.xls,.txt.
* toppdf.com > PDF2Word (PDF to DOC Word)
* verypdf.com > VeryPDF PDF2Word
* hellopdf.com > Free PDF to Word Converter
* soliddocuments.com > Solid Converter PDF
* tweakpdf.com > Tweak PDF Converter
* iceni.com > Infix PDF Editor
5. Бесплатные онлайн-сервисы
* zamzar.com > ZamZar - бесплатный онлайн конвертор файлов, способный преобразовать PDF документ во многие графические и текстовые форматы. Сервис работает через электронную почту. Лимит на размер исходного файла - 100 Мб. Файл храниться на сервере в течение 24 часов.
* freepdfconvert.com > FreePDFConvert - конвертация PDF в Word (doc), Excel (xls) или RichText (rtf), извлечение картинок из PDF. После конвертации сервис предоставляет возможности: скачать файл, отправить его на Ваш почтовый ящик, удалить файл с сервера. Интервал до отправки следующего файла – 30 минут.
* pdfonline.com > PDFOnline - преобразование документов PDF в Word (RTF). Сервис не требует указания почтового ящика и не накладывает ограничений на размер файла и количество загрузок по времени.
* freepdftoword.org > бесплатный сервис от производителей программного обеспечения Solid. Для конвертации файла PDF в отформатированный документ Word разработчики предлагают предварительно отправить им PDF документ по электронной почте - и уже после этого получите результат конвертирования в Word.
Использовались материалы сайтов: wikipedia.org, genon.ru, studia.at.ua, bravedefender.ru
Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.

В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader (http ://studia.at.ua/load/adobe_reader_9_rusificirovannyj/15-1-0-126 русифицированная версия), а также программы сторонних разработчиков.
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов.
В этом формате распространяется большое количество сопутствующей документации (подробнее в Википедии http ://ru.wikipedia.org/wiki/Portable_Document_Format).
Практика
Как извлечь текст из файла в формате PDF
1. «Save as text»
В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.

2. «Text Select»
Также в Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.

3. OCR-программы
Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition - оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним:
* abbyy.ru > ABBYY FineReader,
* irislink.com > ReadIris,
* cuneiform.ru > CuneiForm,
* nuance.com > OmniPage.
4. Программы-конверторы
* abbyy.ru > ABBYY PDF Transformer переводит на выбор в форматы.doc,.rtf,.xls,.txt.
* toppdf.com > PDF2Word (PDF to DOC Word)
* verypdf.com > VeryPDF PDF2Word
* hellopdf.com > Free PDF to Word Converter
* soliddocuments.com > Solid Converter PDF
* tweakpdf.com > Tweak PDF Converter
* iceni.com > Infix PDF Editor
5. Бесплатные онлайн-сервисы
* zamzar.com > ZamZar - бесплатный онлайн конвертор файлов, способный преобразовать PDF документ во многие графические и текстовые форматы. Сервис работает через электронную почту. Лимит на размер исходного файла - 100 Мб. Файл храниться на сервере в течение 24 часов.
* freepdfconvert.com > FreePDFConvert - конвертация PDF в Word (doc), Excel (xls) или RichText (rtf), извлечение картинок из PDF. После конвертации сервис предоставляет возможности: скачать файл, отправить его на Ваш почтовый ящик, удалить файл с сервера. Интервал до отправки следующего файла – 30 минут.
* pdfonline.com > PDFOnline - преобразование документов PDF в Word (RTF). Сервис не требует указания почтового ящика и не накладывает ограничений на размер файла и количество загрузок по времени.
* freepdftoword.org > бесплатный сервис от производителей программного обеспечения Solid. Для конвертации файла PDF в отформатированный документ Word разработчики предлагают предварительно отправить им PDF документ по электронной почте - и уже после этого получите результат конвертирования в Word.
Использовались материалы сайтов: wikipedia.org, genon.ru, studia.at.ua, bravedefender.ru
Комментарии
Вставка изображения
Можете загрузить в текст картинку со своего компьютера: