Los tipos de archivo de documentos son de lo más variado. No solo existen los propietarios creados por y para un software concreto, también otros muchos estandarizados o abiertos. Además, los encontrarás para varios tipos de propósitos, como los que se pueden editar, los que no admiten modificaciones, los que aceptan enriquecimiento multimedia o los que solo admiten texto, etc.
En este tutorial podrás conocer más de cerca qué es un documento en informática, qué es el tipo de archivo de documentos o formato, y cuáles son los más destacados, así como sus características.
¿Qué es un documento?
Se entiende por documento o archivo de documento a una información codificada y representada en binario que contiene algún tipo de material, ya sea texto, imágenes, un mix de ambos, hipervínculos, marcadores, y un largo etc. Estos documentos son creados de forma informatizada, generalmente por un procesador de textos o por un editor de texto, aunque también se pueden crear a partir de otro tipo de software.
Con los documentos se pueden realizar múltiples acciones: crear, editar, guardar, eliminar, imprimir, convertir a otro formato, leer o escribir metadatos, compartir, etc. Todas esas acciones implican una serie de procedimientos (syscalls, uso de controladores y periféricos de entrada y/o salida,…).
Extensiones: ¿qué es el formato de un archivo?
Para identificar estos tipos de archivo de documentos se necesita un formato y una extensión para reconocer dicho formato. Estas extensiones son .doc, .docx, .rtf, .txt, .pdf, y un largo etc., y los formatos son cómo la información de dicho archivo está organizada, en texto plano, crudo o raw, o codificada. Por ejemplo, un .mp4 identifica a un vídeo, pero ese no es su codec o sistema de codificación, sino simplemente un contenedor. Dentro de dicho contenedor se encuentra tanto el contenido del propio documento como también otra información como los metadatos. El codec en ese caso podría ser, entre otros, un h.265.
Por otro lado, las extensiones suelen contener 3 caracteres en la mayoría de los casos. Esto se debe a la limitación que había en los sistemas operativos DOS (a partir de Windows 95 se eliminó esa limitación), donde solo se permitía esa longitud máxima. Es por eso que encontrarás páginas webs antiguas con extensión .htm en vez de .html.
Sin embargo, en los sistemas operativos tipo Unix, todo era muy diferente, incluso se puede prescindir de la extensión, ya que identifican al formato mediante un «magic number» (código o cadena de texto indicando el formato). Además, en los *nix no tienen un límite de caracteres en cuanto a su extensión, solo el FS limita la longitud de los nombres.
Formato abierto o propietario
Los tipos de archivo de documentos, o formatos, pueden ser abiertos o propietarios:
- Propietarios: un formato de archivo propietario es aquel que ha creado una compañía, organización o individuo y que es controlado por dicho creador a través de patentes o de información secreta, evitando o dificultando que otros puedan emplear este tipo de archivos. Generalmente, para que otro software sea compatible, se deberá realizar ingeniería inversa o no tendrá interoperabilidad. Algunos formatos propietarios conocidos son .rar, .dwg, .psd, .pdf, .docx, .ppt, etc.
- Abiertos: en este otro caso, se publican las especificaciones para que cualquiera pueda implementarlos sin necesidad de usar ingeniería inversa. Están bajo licencias open-source. Algunos de estos formatos son .png, .flac, .webM, .html, .css, .gzip, .pdf (solo las versiones más antiguas, antes del PDF 1.8), .c, etc.
Tanto los abiertos como los propietarios también pueden ser estandarizados si su uso es amplio, lo que implica algunos cambios. En este caso, será reconocido en todos los sistemas operativos, como por ejemplo PDF, JPG, PNG, SVG, GIF, etc.
Tipos de formatos
Los tipos de formato se pueden catalogar según sus objetivos:
- Compresión: son formatos que definen el tipo de algoritmo de compresión empleado, como puede ser .rar, .7z, .zip, .gz, .xz, etc.
- Archivos para almacenamiento de medios: su propio nombre define el acometido de este tipo de formatos, como pueden ser .tar, .iso, .img, .dmg, .cif, etc.
- Imágenes virtuales: los discos virtuales emplean extensiones como .vdhx, .vdi, .vhd, .vmdk, .cow, .qcow, etc.
- CAD/CAM: estos otros formatos para diseño asistido por ordenador pueden ser .dwg, .3mf, .3dxml, etc.
- EDA: para el software de diseño electrónico se pueden tener formatos como .bsdl, .gdsii, .hex, .vhdl, .v, etc.
- BBDD: para bases de datos existen multitud de formatos como .dat, .db, .mdb, .sql, etc.
- Big Data, bioinformática y ciencia de datos: cuando se manejan grandes cantidades de datos para su análisis, también se emplean formatos como .ocr, .avro, .spc, .ost, .hitran, .sdf, .sdxf, .grib, .cml, graph6, .ab1, .cram, .sam, .sff, .vcf, .nii, .gdf, .xdf, .xDT, etc.
- Edición de imagen: programas como CorelDraw, Ilustrator, Photoshop, GIMP, entre otros, pueden trabajar con formatos como .cdr, .psd, .pub, .sla, .xcf, etc.
- Documentos: (véase siguiente apartado)
- Fuentes y cursores: los tipos de letras también tienen sus propios formatos de archivo, destacando .abf, .fnt, .otf, PostScript (.pfa, .pfb,…), .sfd, .tfm, .ani, .cur, etc.
- GIS: para la información de sistemas geográficos están .gpx, .kml, .ntf, .asc, etc.
- Gráficos:
- Raster – mapas de bits: para los gráficos también existen formatos específicos tales como .blp, .bmp, .ico, .jpeg, .gif, .png, .raw, etc.
- Gráficos vectoriales: en el caso de los vectoriales tenemos .svg, .dxf, .ai, .eps, .stl, .sxd, etc.
- 3D: también están los tridimensionales como .3mf, .blend, .c4d, .ctm, .g, .gITF, .md5, .ogex, .sldasm/.sldptr, .u3d, etc.
- Matemáticos: formatos para documentos matemáticos como las hojas de cálculo como .odf, .xlsx, etc.
- Bibliotecas, código objeto, binarios ejecutables, código fuente, etc.: para programación, también se emplean multitud de formatos como .a, .jar, .dll, .out, .exe, .o, .so, .c, .cpp, .go, .r, .sh, .js, .cs, .php, .ads, .asm, .html, .css, .ps, .bin, .run, .bat, etc.
- Seguridad: para algunas claves y protocolos de seguridad tenemos .ssh, .pub, .cer, .tc, .kdbx, etc.
- Sonido: los formatos para archivos de audio son .wav, .mp3, .flac, .ac3, .ogg, .m3u, etc.
- Vídeo: para el vídeo está .3gp, .avi, .mpeg, .mp4, .flv, .mkv, .swf, .wmv, webM, etc.
- Web: en la web encontramos formatos como .html, .xhtml, .php, .pl, .aspx, .stm, etc.
- Información general: como .csv, .json, .xml, .yaml, .md, .ascii, .asc, etc.
- Temporales: .tmp, .temp, …
- Otros…
Tipos de archivo de documentos más comunes
Por último, algunos de los tipos de archivo de documentos más empleados en la actualidad, y sus características, son:
- Documentos de texto e ebooks: pueden contener todo tipo de información, desde simplemente texto plano, hasta otros formatos de texto, pasando por texto enriquecido con hipervínculos, imágenes, vídeos incrustados, gráficos, marcadores, etc.
- ANS: es el formato de texto basado en el estándar American National Standards Institute (ANSI).
- ASC: similar al anterior, también de texto plano, pero en esta ocasión basado en el código ASCII.
- CSV: también es texto en ASCII text, pero usado para bases de datos con información que debe estar catalogada o separada. Por ejemplo, para una agenda de contactos.
- DOC: es el formato nativo de Microsoft Word, aunque es aceptado por otros programas ofimáticos alternativos.
- DOCX: surgió como reemplazo del anterior, para las nuevas versiones de Microsoft Office, y está basado en XML.
- EPUB: es muy habitual para libros y manuales, ya que es un estándar abierto para ebooks o libros electrónicos.
- GDOC: este otro es un tipo de documento nativo de GDrive.
- HTML: aunque se puede usar en páginas webs, también se puede usar para presentar documentos, ebooks, manuales, etc.
- LOG: son ficheros de texto plano en los que se almacena información de registro de diferentes programas o sistemas operativos.
- MD: es un formato de markdown para documentos de texto.
- Mobi: es otro formato habitual de Mobipocket para documentos, también frecuente en algunos ebooks.
- ODT: la alternativa a .doc/.docx de Microsoft es esta otra que es abierta y empleada por software como LibreOffice, OpenOffice, etc., y gestionado por la The OpenDocument.
- PAP: es el formato empleado por documentos del procesador de texto Papyrus.
- PDAX: este es otro formato de documentos que se emplea como un fichero índice.
- PDF: son las siglas de Portable Document Format, y se ha transformado en uno de los formatos más empleados para todo tipo de documentos e ebooks.
- RTF: también puede ser empleado para libros electrónicos, ya que es un formato de documento enriquecido como su propio nombre indica (Rich Text document).
- TeX: es el formato del popular software TeX, para desarrollar manuales técnicos y otro tipo de documentos.
- TXT: se trata de texto plano, empleado por multitud de editores de texto. El contenido puede estar en código ASCII o Unicode, y bajo diferentes esquemas, DOS o UNIX que se diferencian, entre otras cosas, en los caracteres de salto de línea.
- XHTML: este formato también es una extensión del html, y se emplea para lo mismo.
- XML: son las siglas de eXtensible Markup Language, y puede ser empleado para un amplio número de documentos.
- Presentaciones: las presentaciones se pueden emplear para mostrar trabajos, desarrollos, para conferencias, etc. Sea como sea, son archivos con texto, imágenes, vídeos incrustados, etc., con ciertas semejanzas con respecto a los documentos anteriores.
- GSLIDES: es un formato nativo de Google Drive Presentation.
- ODP: es la alternativa abierta de .ppt o .pptx, gestionada por la OpenDocument, para programas como Impress.
- PEZ: las presentaciones con el software Prezi son muy populares, y éste es su formato.
- PPS: es el formato para Microsoft PowerPoint Show.
- PPT: para Microsoft PowerPoint tenemos este otro formato de presentación.
- PPTX: basado en XML, y es el sucesor del PPT.
- Hojas de cálculo: son un tipo de archivo en el que se suelen almacenar datos de texto y números, además de permitir operar sobre dicha información. Por ejemplo, se puede sumar, restar, dividir, multiplicar, realizar operaciones binarias, y otras muchas funciones de forma rápida y automatizada, sobre una o varias celdas de la tabla.
- GSHEET: por supuesto, también tenemos un formato nativo para presentaciones en Google Drive Spreadsheet.
- ODS: es el empleado por OpenDocument, como LibreOffice Calc.
- XLK: este formato se refiere a un backup o copia de seguridad para Microsoft Excel.
- XLS: es el formato empleado por el software Microsoft Excel de Office 97–2003.
- XLSX: en versione posteriores de Office se ha cambiado a este otro formato más moderno y basado en XML.
- Markup: para la marcación de grupos de datos, o sindicación, también existen otros formatos de archivo. Para estos archivos se utiliza lenguaje de marcado, como puede ser HTML, XML, entre otros.
- Atom (.atom, .xml): es un formato basado en XML y usado para canales de información web. Usa el protocolo Atom Publishing, que a su vez se basa en HTTP para crear y actualizar recursos web.
- EML: un formato usado por varios clientes de correo electrónico para el escritorio.
- PS: se basa en XML serializado para el scripts PowerScripts para aplicaciones basadas en K2.
- RSS (.rss, .xml): si te has querido suscribir a algunas páginsa o blog (feed) seguro que lo conoces.
- Markdown (.markdown, .md): es otro formato de texto plano con una sintaxis específica, y que es popularmente utilizada para los formatos de ficheros tipo README que se incluyen junto con el código fuente de algunos programs. Por ejemplo, GitHub está plagado de ellos.
Por supuesto, existen muchos más formatos o tipos de archivo de documentos, pero estos son los más habituales. Así, cuando te topes con uno de ellos y no sepas qué es o qué aplicación puede abrirlos, ya no tendrás problema.