1. 1. ¿Qué es PDF?
PDF es el acrónimo en inglés de Portable Document Format o, en español, Formato de
Documento Portátil. Se trata de un formato de almacenamiento de documentos,
desarrollado para capturar completamente las características de formato y presentación
de un documento. Es un formato es de tipo compuesto (imagen vectorial, mapa de bits y
texto.
El PDF ha sido impulsado por la empresa Adobe, que nos ofrece un programa gratuito
para visualizar los documentos: el Adobe Reader. Sin embargo, si queremos crearlos,
podemos utilizar programas especializados o cualquier procesador de textos que permita
exportar (realmente “imprimir”) nuestro documento a PDF. De hecho, normalmente los
documentos PDF no han sido escritos en este formato, sino que se crean a partir de
documentos escritos en otros programas, como por ejemplo MSWord.
1.1. Características
Es multiplataforma, es decir, puede ser representado por los principales
sistemas operativos (Windows, Unix/Linux o Mac), sin que se modifiquen ni el
aspecto ni la estructura del documento original.
El archivo PDF puede crearse desde varias aplicaciones exportando el
archivo. Puede generarse desde cualquier aplicación mediante la instalación de
una impresora virtual en el sistema operativo, en caso de usar aplicaciones sin esa
funcionalidad embebida.
Se puede incluir cualquier combinación de texto, elementos multimedia
como vídeos o sonido, elementos de hipertexto como vínculos y marcadores,
enlaces y miniaturas de páginas.
Es uno de los formatos más extendidos en Internet para el intercambio de
documentos. Por ello es muy utilizado por empresas, gobiernos e instituciones
educativas.
Es una especificación abierta, para la que se han generado herramientas
de software libre que permiten crear, visualizar o modificar documentos en formato
PDF.
Es el estándar ISO para ficheros contenedores de documentos electrónicos
con vistas a su preservación de larga duración.
Puede cifrarse para proteger su contenido e incluso firmarlo digitalmente.
Los ficheros PDF son independientes del dispositivo, el mismo archivo
puede imprimirse en una impresora de inyección de tinta o una filmadora. Para la
optimización de la impresión podremos configurar las opciones de creación del
fichero PDF.
2. 1.2. Historia
Los archivos PDF, junto con las aplicaciones que podían ver y crear este tipo de
documentos, comenzaron a desarrollarse a partir de 1991. Su software se distribuía
como software de licencia comercial. En esa época el visor de documentos PDF estaba
disponible de forma gratuita, pero no de forma libre.
Su adopción comercial y general era muy reducida. Las versiones tempranas de los
documentos PDF no tenían hipervínculos externos; por este motivo, su adopción en
Internet era considerablemente reducida y no tenía mucha popularidad. En aquella
época eran comunes las conexiones a Internet a través de módem telefónico, y el
tamaño de los documentos PDF era demasiado grande. Se preferían otros tipos de
documentos, como puede ser el texto simple (sin formato). Por este motivo, la banda
ancha fue un factor clave para la aceptación del PDF en Internet. Por otra parte, existían
otros tipos de documentos que le hacían fuerte competencia al tipo de documentos PDF.
Uno de los más populares era el tipo “PostScript” (.ps).
Con el paso del tiempo el formato PDF fue adquiriendo una gran popularidad a través
de diferentes medios, como la publicidad, y llegó a convertirse en un estándar.
Actualmente existen varias aplicaciones lectoras y se ha abierto la posibilidad de crear
documentos PDF con programas de software libre, como OpenOffice.org. Otras
aplicaciones son incluso capaces de editarlos, sin necesidad de usar la típica aplicación
para crear y editar documentos PDF de Adobe.
El formato de archivos PDF ha cambiado varias veces por lo que podemos encontrar un
total de nueve versiones de PDF.
1.3. Importancia
1.3.1. General
La importancia del PDF radica en que nos permite almacenar, transmitir e intercambiar
información con cualquier usuario de otro ordenador.
1.3.2. Para los traductores
Muchas veces vamos a recibir encargos de traducción en formato PDF y deberemos
devolver la traducción en la misma maquetación. Además, tendremos que realizar el
presupuesto, para lo cual será necesario contabilizar las palabras. Por todo esto, es
necesario dominar una serie de herramientas que nos permitan visualizar el documento,
convertirlo a un formato que se pueda editar (útil también para contar las palabras) y,
después, volverlo a transformar en PDF. Como veremos más adelante, existen
programas que nos permiten contabilizar las palabras del PDF sin necesidad de
convertirlo.
3. 2. Diferencias de PDF
Existen dos tipos de documentos PDF: aquellos que han sido creados a partir de texto y
aquellos creados a partir de una imagen.
2.1. Creados a partir de texto
Se obtienen al convertir un archivo de texto a PDF. Cuando buscamos una palabra
dentro de un PDF de este tipo, el programa es capaz de ofrecer resultados. Es decir, el
programa toma el documento como un texto formado por un conjunto de palabras. Así
pues, es capaz de discernir dónde acaba una palabra y dónde empieza la siguiente.
2.2. Creados a partir de imagen
Generalmente se obtienen al escanear una imagen. En este caso, el PDF entiende la
imagen como un todo y no es capaz de discernir si dentro de ella hay texto o no. Así
pues, si realizamos una búsqueda, el programa no será capaz de ofrecer ningún
resultado. Este tipo de archivo es difícil que sea convertido posteriormente en texto.
3. Programas de cómputo de palabras en PDF
Nos vamos a centrar en dos programas de este tipo: AnyCount y Abacus. Estas
aplicaciones nos permiten disponer de una práctica herramienta para contar
automáticamente los caracteres (con o sin espacios), las palabras, las líneas y las
páginas de tus documentos y unidades personales. Soportan los formatos de archivo más
comunes.
3.1. AnyCount
AnyCount soporta los siguientes formatos de texto: RTF, DOC, DOCX, WPD, XLS,
XLSX, PPT, PPS, PPTX, PDF, CSV, HTM, HTML, XML, MIF, TXT, ZIP, ODT,
SDW, SXW, ODS, SDC, SXC, ODP, SXI, SDD, CHM, HLP, RAR, SLP, PUB, VSD,
BMP, JPG, PNG y GIF.
AnyCount se encuentra disponible en tres ediciones separadas:
AnyCount Standard: Permite la cuenta de caracteres, palabras y renglones
en todos los formatos MS y Open Office, así como .WPD y .TXT. Además,
ofrece estadísticas de ZIPs y .RARs sin descomprimir el archivo.
AnyCount Professional: Permite la cuenta de caracteres, palabras y
renglones en todos los formatos de archivo soportados, excepto en archivos
OCR (BMP, GIF, JPG y PNG).
4. AnyCount Enterprise: Permite la cuenta en todos los formatos de archivo,
incluyendo archivos OCR y, además, puede llevar a cabo procesamiento de
facturas.
Para realizar un conteo de un texto en PDF de forma rápida y sencilla, debemos seguir
tres pasos únicamente:
1) Incluir el archivo (“Add+”).
2) Especificarle qué debe contar (caracteres, palabras, renglones, etc).
3) Pulsar “Count!”.
Una vez que el conteo ha finalizado podemos:
- Ordenar los resultados en columnas.
- Copiar los resultados al portapapeles.
- Exportar los resultados a uno de los siguientes formatos: TXT, CSV, HTML,
DOC, RTF, XLS.
- Exportar los resultados como una factura.
Esta última opción fue la mostrada en clase. Para ello, pulsamos “Invoice”. En el cuadro
de diálogo que se nos abre, podemos cambiar la divisa y el precio por unidad, entre
otras cosas.
3.2. Abacus
El programa Translator’s Abacus es una herramienta gratuita y fácil de usar que puede
descargarse desde http://www.globalrendering.com/download.html. Translator’s
Abacus nos permite contar palabras de documentos HTML, PDF, DOC, RTF y TXT.
Simplemente arrastrando y soltando los archivos en el programa, incluso las carpetas,
obtendremos un informe con el resultado final. También es capaz de ofrecernos tarifas
orientativas de traducción para lenguas como el chino, japonés, coreano, francés,
italiano, inglés, alemán y español.
4. Programas para convertir archivos de PDF a Word o texto
4.1. Programas
Para convertir archivos de PDF a .DOC o .TXT tenemos varias opciones:
- Si el documento está totalmente desprotegido, podemos hacerlo directamente
con Acrobat Reader.
- Si por el contrario, el archivo está protegido, podemos utilizar el programa
Document Image Writer que viene instalado con Microsoft Office 2003 ó 2007.
5. - También es posible llevar a cabo la conversión de archivos si se posee la versión
Profesional de Adobe (Adobe Acrobat Professional).
- Si no poseemos Adobe Acrobat Professional y tampoco queremos usar Internet
para la conversión (por ejemplo, por temas de confidencialidad) la mejor opción
es instalar una impresora gratuita de PDF, como puede ser Bullzip o CutePDF.
Una vez instaladas funcionan igual que el programa Document Image Writer de
Microsoft Office.
- También existen algunos programas como OCR y Abby Fine Reader, softwars
especializados en el reconocimiento de textos y creación de archivos
electrónicos para su futura edición.
4.2. Opciones on-line
- OCRTerminal (demostración en clase) http://www.ocrterminal.com
Este programa permite convertir archivos de imagen a .DOC, .TXT, .RTF o .PDF, de
manera sencilla y rápida. Es ideal para la edición de documentos cuando todo lo que
tenemos son imágenes, así como para convertir archivos de PDF para su posterior
edición. Además, se mantiene el tipo de fuente, la forma del texto, las tablas, los títulos,
etc.
Registrarse en su página web es gratis, así como la posibilidad de convertir 20 páginas
al mes. En caso de querer convertir más páginas, sería necesario pagar. Os dejamos a
vuestra disposición el usuario y la contraseña que utilizamos para de demostración en
clase: tictrad.
Los pasos a seguir para convertir un archivo son los siguientes:
1) Pulsar “Examinar” y añadir el documento.
2) Pulsar “Upload”.
3) Especificar el idioma del documento.
4) Pulsar “OCR this document now”.
5) Elegimos a qué formato queremos transformar el documento original (ej. .doc).
6) Elegimos la ubicación de destino del nuevo documento y ya podemos editarlo.
OCRTerminal es muy útil para los traductores. Por una parte, nos permite la conversión
de archivos PDF en formatos editables. Por otra parte, también nos permite convertir
documentos que nos envían en papel. En este último caso, tendríamos que pasar una
imagen del texto al ordenador, bien escaneándolo, o bien haciéndole una foto.
Posteriormente, seguiríamos los pasos enumerados anteriormente y ya podríamos
proceder a la traducción, habiéndonos ahorrado una gran cantidad de trabajo y de
tiempo.
6. - PDFtoWord http://www.pdftoword.com
PDFtoWord también es un programa online gratuito que permite generar documentos
.doc o .rtf a partir de archivos de PDF. La página web detalla los pasos a seguir, de
modo que es muy fácil y rápido realizar la conversión. No hay que registrarse,
simplemente seguir estos pasos:
1) Escoger el PDF que queremos convertir.
2) Seleccionar el tipo de extensión al que queremos convertir nuestro PDF
3) Añadir el correo electrónico al que será enviado el nuevo archivo y pulsar
Convertir.
Esta página también nos permite transformar archivos de PDF a Excel y de Word a PDF
(los links están en la parte superior derecha).
5. Página exclusivamente dedicada a PDF
www.abracadabrapdf.net
Esta página, disponible en francés y en inglés, nos ofrece distintas opciones y servicios.
Encontramos información sobre dónde y cuándo podemos realizar cursos de Acrobat y
PAO. También está disponible una guía rápida de cómo usar PDF, con un apartado
especial para aquellos que tengan más dificultades. Hay otros apartados en los que se
explican las normas y servicios del PDF, las distintas versiones que existen de este
programa o información sobre OCR. La página nos ofrece información sobre las
opciones para las diferentes versiones en Mac y Windows o sobre cómo proteger un
archivo PDF. Por otra parte, encontramos diversos artículos publicados que hablan de
los adelantos que se han llevado a cabo en este programa. Además, AbracadabraPDF
pone a nuestra disposición una gran cantidad de demos, así como plug-ins y utilidades,
que nos ayudarán a sacar el máximo partido posible al PDF.
Para más información visitad estas páginas web:
[1] http://www.globalrendering.com/download.html
[2] http://www.supershareware.com/word-count-in-pdf-free/software/3/
[3] https://www.ocrterminal.com/
[4] http://www.pdftoword.com/
[5] http://www.abracadabrapdf.net/
[6] http://www.bullzip.com/products/pdf/info.php
[7] http://www.cutepdf.com/
[8] http://sourceforge.net/projects/pdfcreator/