Магазин handmade Присоединяйтесь к нам в соцсетях:
Присоединяйтесь к нам в соцсетях: ВКонтакте  facebook 

Как извлечь текст из файла в формате PDF

Теория
Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.

В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader (http ://studia.at.ua/load/adobe_reader_9_rusificirovannyj/15-1-0-126 русифицированная версия), а также программы сторонних разработчиков.

Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов.

В этом формате распространяется большое количество сопутствующей документации (подробнее в Википедии http ://ru.wikipedia.org/wiki/Portable_Document_Format).

Практика
Как извлечь текст из файла в формате PDF

1. «Save as text»

В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.


2. «Text Select»

Также в Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.


3. OCR-программы

Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition - оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним:

* abbyy.ru > ABBYY FineReader,
* irislink.com > ReadIris,
* cuneiform.ru > CuneiForm,
* nuance.com > OmniPage.

4. Программы-конверторы

* abbyy.ru > ABBYY PDF Transformer переводит на выбор в форматы.doc,.rtf,.xls,.txt.
* toppdf.com > PDF2Word (PDF to DOC Word)
* verypdf.com > VeryPDF PDF2Word
* hellopdf.com > Free PDF to Word Converter
* soliddocuments.com > Solid Converter PDF
* tweakpdf.com > Tweak PDF Converter
* iceni.com > Infix PDF Editor

5. Бесплатные онлайн-сервисы

* zamzar.com > ZamZar - бесплатный онлайн конвертор файлов, способный преобразовать PDF документ во многие графические и текстовые форматы. Сервис работает через электронную почту. Лимит на размер исходного файла - 100 Мб. Файл храниться на сервере в течение 24 часов.
* freepdfconvert.com > FreePDFConvert - конвертация PDF в Word (doc), Excel (xls) или RichText (rtf), извлечение картинок из PDF. После конвертации сервис предоставляет возможности: скачать файл, отправить его на Ваш почтовый ящик, удалить файл с сервера. Интервал до отправки следующего файла – 30 минут.
* pdfonline.com > PDFOnline - преобразование документов PDF в Word (RTF). Сервис не требует указания почтового ящика и не накладывает ограничений на размер файла и количество загрузок по времени.
* freepdftoword.org > бесплатный сервис от производителей программного обеспечения Solid. Для конвертации файла PDF в отформатированный документ Word разработчики предлагают предварительно отправить им PDF документ по электронной почте - и уже после этого получите результат конвертирования в Word.

Использовались материалы сайтов: wikipedia.org, genon.ru, studia.at.ua, bravedefender.ru
Печать Получить код для блога/форума/сайта
Коды для вставки:

Скопируйте код и вставьте в окошко создания записи на LiveInternet, предварительно включив там режим "Источник"
HTML-код:
BB-код для форумов:

Как это будет выглядеть?
Страна Мам Как извлечь текст из файла в формате PDF
Теория
Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.
В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Читать полностью
 

Комментарии

З о л о т и н к а О
20 сентября 2010 года
0
У меня вопрос: а можно как - то снять чужую защиту?
WAROHA (автор поста)
20 сентября 2010 года
+1
Будем искать

Оставить свой комментарий

Вставка изображения

Можете загрузить в текст картинку со своего компьютера:


Закрыть
B i "

Поиск рецептов


Поиск по ингредиентам