Tipos de datasets y para qué sirven

Por Felipe

Publicado en:

La gran cantidad de datos que manejan las empresas y organizaciones hoy en día ha propiciado que tecnologías como el aprendizaje automático, la inteligencia artificial o el big data se hayan convertido en fundamentales para gestionarla y sacar valor para el negocio.

En la gestión y organización de esta información hay muchos elementos indispensables, siendo uno de los más utilizados el dataset.

Veamos qué es un dataset y qué tipos existen para garantizar un buen tratamiento y gestión de la información que generar y con la que trabaja una empresa.

 

Qué son los datasets

Un dataset es un conjunto de datos de manera tabulada que se almacena utilizando un sistema de datos estructurados, como puede ser una base de datos relacional, por ejemplo. La traducción de este concepto es “conjunto de datos”, y corresponde con el contenido de una tabla dentro de una base de datos compuesta por una serie de columnas donde se guardan los registros en distintas filas.

Cuando se habla de dataset se está hablando de las tablas, filas y columnas, pero también de la relación entre las distintas tablas que contiene una base de datos.

Estos elementos trabajan con datos estructurados, es decir, tienen definida una estructura. Para trabajar con conjuntos de datos desestructurados hay que utilizar otros sistemas diferentes al conjunto de datos.

 

Ejemplo de un dataset

Con un ejemplo sobre qué es un conjunto de datos será mucho más sencillo comprender su significado y utilidad en la gestión y organización de información.

Una tabla de una base de datos empresarial que contiene los productos y todos sus datos relacionados es un ejemplo del dataset. La tabla dentro de la base de datos se llama Productos y contiene una serie de columnas que corresponden con las distintas características de los artículos (nombre, código, precio, descripción, tipo de impuesto…). Cada vez que se añada un nuevo producto al conjunto de datos, se creará en la tabla una nueva fila o registro con los datos de ese producto en concreto, y que corresponde con cada una de las columnas.

 

Diferencia entre dataset y dataframe

Es habitual que se confundan los términos de dataset y dataframe, pues ambos términos están relacionados con el big data. Un dataframe es un conjunto de datos organizado en columnas que admite valores alfanuméricos, es como una gran hoja de cálculo organizada en columnas y tablas.

 

Dónde encontrar los datasets

Cada vez es más habitual el uso de estos elementos para acceder a información valiosa, por lo que en internet existen multitud de lugares donde se puede acceder a ellos de forma gratuita y libre.

Algunos de los lugares más interesantes para acceder a conjuntos de datos públicos son:

  • Google Data Search. Es el buscador de datos más grande y popular a nivel global, donde los distintos datasets que contiene están indexados a una enorme cantidad de fuentes de datos públicas.
  • FiveThrityEight. Para acceder a dataset actualizados de datos sobre distintas materias, como política, encuestas, deportes, tecnologías…
  • API de Twitter. Para acceder a hashtags, tendencias y cuentas (puede conectarse fácilmente con herramientas de business intelligence como Power BI o Tableau).

 

Tipos de datasets

Podemos hacer referencia a distintos tipos, además de los populares propios de las bases de datos.

 

De archivo

Se trata de un fichero independiente donde se guarda toda la información con la que se va a trabajar (por ejemplo, en formato .csv, .mif o .dxf). Se trata de una manera muy segura y rápida de gestionar la información de manera local, es decir, en una computadora o máquina local, aunque no es eficiente para el uso compartido de conjuntos de datos a través de la red.

 

De Carpeta

Se hace referencia a un folder dataset cuando se almacenan en la misma carpeta distintos datasets de archivo que se encuentran interconectados o relacionados entre ellos.

 

De bases de datos

Es el tipo más habitual en las empresas, ya que se encuentran en las bases de datos relacionales que utilizan para gestionar sus datos, por ejemplo, dentro de una base de datos Access o MySQL.

 

Conjunto de datos web

El dataset web engloba todos los datos que se guardan en una página web, blog o tienda online y se accede al mismo a través de la URL que lleva al sitio. Es decir, todos los datos que conforman un sitio web son el dataset web.

 

Tras ver qué es un dataset y los distintos tipos existentes, podemos concluir que se trata de un método de gestión y organización de información para trabajar de forma óptima con datos estructurados.

Es habitual que en las empresas se utilicen datasets en sus bases de datos para contener toda la información que manejan en grupos de datos definidos. Gracias a los conjuntos de datos es más sencillo almacenar, organizar y acceder a la información, pudiendo realizar complejas consultas al dataset para que proporcione unos datos específicos según los criterios de búsqueda proporcionados.