OpenWebinars

Big Data

Datasets: Qué son y cómo acceder a ellos

El término Dataset es común en el campo del Big Data y todos los relacionados. En este artículo profundizamos en su definición, los tipos existentes y en qué consideraciones legales debes conocer y tener en cuenta a la hora de utilizarlos.

Diego Caceres Solis

Diego Caceres Solis

Lectura 10 minutos

Publicado el 1 de mayo de 2023

Compartir

¿Tienes claro que los datos son el petróleo del siglo XXI? En la actualidad, la información es poder, los datos son la materia prima que mueve el motor de la economía digital.

Pero, ¿te has preguntado dónde se pueden encontrar estos datos? Los Datasets son parte de esa la respuesta a esa pregunta.

Al hablar sobre Big Data y el análisis de datos, es inevitable nombrar los Datasets, aunque es un término que no todo el mundo conoce. Sin embargo, no todo el mundo está familiarizado con los mismos.

Si quieres descubrir cómo mejorar tus conocimientos y habilidades en el análisis de datos a través del acceso a Datasets, en este artículo vamos a profundizar en qué son los Datasets, los tipos que existen y cómo acceder a ellos

¡Sigue leyendo!

Introducción a los Datasets

Sin duda, hoy en día si quieres trabajar en un sitio web o API que, por ejemplo, trate de buscar información o trabajar con una gran cantidad d datos de manera sencilla y rápida, es necesario estar al día de las nuevas tecnologías que van surgiendo y que abarcan nuevos conceptos. Una de ellas es el Big Data, que básicamente habla de un conjunto de datos de mayor tamaño o escala, que se procesan o proceden de nuevas fuentes de datos.

Otra nueva tecnología de la cual podríamos hacer referencia es el Data Science, que se trata básicamente de la extracción de la información a partir de un conjunto de datos en bruto. Si quisieras leer más e interiorizarte respecto a la importancia que tendrá este tema en el futuro, te recomiendo que leas el siguiente blog Qué es Data Science y su importancia en el futuro

Tomando en cuenta las definiciones anteriores, vamos a describir y comenzar a hablar sobre los Datasets en las siguientes líneas.

Aprende las técnicas más avanzadas en análisis de datos
Comienza 15 días gratis en OpenWebinars y accede a cursos, talleres y laboratorios prácticos de Hadoop, Spark, Power BI, Pandas, R y más.
Registrarme ahora

Qué es un Dataset

Un Dataset, como su nombre lo dice, es simplemente un conjunto de datos, ordenado bajo un sistema de almacenamiento que otorga los lineamientos principales de búsqueda o directorio de la información que se quiere trabajar.

Es básicamente el contenido de una tabla dentro de una base de datos que posee diferentes columnas, en donde se van almacenando registros en cada una de sus filas. Estas filas se podrían llamar como las categorías de los datos, y las columnas, las posibles variables que la conforman. Esta unión entre columnas y filas, es lo se llama Dataset.

Para qué sirve un Dataset

Este conjunto de datos por supuesto que se puede utilizar para muchas cosas, dependiendo de la metodología, orientación o tratamiento que se le quiera dar a la información. Su finalidad es hacer mucho más fácil la vida a las personas, automatizar tareas o simplemente analizar información de una manera más ágil.

Algunos ejemplos de estas ciencias o aplicaciones podrían ser la Inteligencia Artificial o también la Ciencia de Datos o Data Science.

Si te interesa aprender o leer más acerca de lo que es el Data Science y cómo puede ayudar, por ejemplo, a los departamentos de Recursos Humanos, te aconsejo leer el siguiente artículo: Data Science para optimizar los recursos de las personas.

Diferencias entre Dataset y Dataframe

También hay que tener claros otros conceptos que podríamos llegar a confundir con lo que es un Dataset, como por ejemplo el Dataframe.

Cuando comienzas a estudiar algo relacionado a la programación, necesitas de una estadística o similar que proporcione la información de una manera sencilla y a la vez también los objetos de una muestra de datos. Para esto se usa el Dataframe, que en el fondo también son columnas y filas, pero se podría considerar también como una matriz de análisis, en la que se pueden almacenar no solo datos numéricos, sino también alfanuméricos.

Otro término que también se pueden relacionar son los Datatable, que son básicamente datos almacenados en columnas y filas y que conforman una tabla, que finalmente es un conjunto de datos, que es el tema que estamos tratando en este artículo.

Tipos de Datasets

Dentro del mundo de la tecnología podemos encontrar diversos sitios web informativos que describen varios tipos de Datasets, sin embargo, a continuación, nos centraremos en definir los más importantes

Dataset estructurado o de base de datos

Aquí ya hablamos de algo que podríamos denominar más profesional, en el sentido que este tipo de información se encuentra almacenada en un gestor de base de datos, bajo una base de datos y bajo una tabla dentro de esta base de datos, compuesta por columnas, filas y registros.

El gestor de base de datos puede ser de diferentes marcas, open source o de pago, como, por ejemplo, por nombrar algunos: PostgreSQL, Oracle o MySQL.

Dataset no estructurado

Al contrario del anterior, este conjunto de datos ya no se encuentra en un gestor de base de datos, sino que podríamos hablar de archivos dentro de nuestro sistema de archivos o en información publicada en algún sitio web, y que está trabajado de manera diferente.

Podemos encontrar los siguientes tipos:

Dataset de archivo

Este es un fichero o archivo independiente, generalmente de extensión .csv, .xls o el formato elegido para trabajarlos. En los mismos se guarda toda la información que se va a trabajar.

Este tipo de Dataset tiene ciertas ventajas y desventajas, como, por ejemplo, que su forma de trabajarlo va a ser mucho más rápida y directa, ya que el acceso a los datos generalmente se va a dar de manera local.

Para el trabajo con otra fuente de datos esto se va a complicar un poco más, ya que no siempre va a estar disponible otro archivo en la misma máquina o en alguna ruta especificada de carpeta compartido y web.

Dataset de folder o carpeta

Aquí ya podríamos hablar de un conjunto de Datasets, todos almacenados dentro del mismo directorio. Puede que también se encuentren conectados o enlazados entre ellos, dependiendo del tipo de extensión en el que se trabajen, ya que lo ideal es que, si trabajan en conjunto, estén bajo la misma extensión.

Dataset web

Este tipo de Dataset incluye todos los datos o información que se almacenan dentro de un sitio web, cualquiera que sea, como, por ejemplo, un sitio de compras online, una web informativa, un blog, una red social, etc.

Dataset semiestructurado

En esta oportunidad hablamos de datos que se encuentran entre los estructurados y los no estructurados, teniendo como referencia la información almacenada en un servidor local y dependiendo de los resultados o logs de un sistema de correo electrónico o algún otro sistema que ofrezca registros.

Fuentes de Datasets

Hemos hablado sobre qué es un Dataset, para qué sirven y los tipos que existen, sin embargo, ¿de dónde obtengo estos conjuntos de datos?

Es súper importante entender que uno mismo puede crear un Dataset al tratar de almacenar información o datos en alguna parte, pero también existen muchas personas que de manera libre o porque su trabajo lo exige, publican Datasets en diferentes fuentes públicas, privadas o de pago, para que el resto de las personas pueda hacer un tratamiento con estos datos.

Así toda esta información, sobre todo la que esta publica, puede ser usada por aplicaciones desarrolladas para la Inteligencia Artificial o el Machine Learning, por ejemplo.

Fuentes públicas

Tal como lo dijimos anteriormente, este tipo de fuente está disponible para cualquier tipo de usuario en el internet o en la situación que se estime conveniente. Es así como muchas aplicaciones, laboratorios o nosotros mismos, nos alimentamos y hacemos variado tipo de cosas con los datos gratuitos que podemos obtener.

Fuentes privadas

Este tipo de fuente suele ser para empresas u organizaciones del ambiente privado, en donde la información solo va a estar disponible para los usuarios que pertenecen a estas organizaciones, teniendo en cuenta por supuesto los 3 términos importantes relativos a la ciberseguridad, como lo son la confidencialidad, integridad y disponibilidad.

Como estos datos pasan a ser privados, hay que tener mucha delicadeza en el almacenamiento y protección, ya que los cibercriminales están al pendiente de encontrar cualquier tipo y vulnerabilidad disponible en cualquier sitio web u organización y tratar de tomar datos sin permiso, para lucrar o poner en jaque a las diferentes organizaciones.

Fuentes de pago

Aquí su nombre lo dice todo, hay que pagar para obtener los datos. Es algo que está público, que puede ser privado, pero que de igual manera uno tiene que sacar de su presupuesto para llegar a las fuentes de estos datos pagados.

Ejemplos de fuentes de Datasets

A continuación, describiré un par de fuentes gratuitas de Datasets, en donde podrás descargar o interactuar con ellos online y sin ningún tipo de pago:

  • Google Public Data

    Uno de los sitios en la nube por excelencia y más usado a nivel mundial es Google, y por supuesto que van a tener información acerca de Datasets dentro de su gran variedad de almacenamiento. Se puede buscar un variado número de colecciones de datos, en donde en algunos casos se direcciona hacia otros sitios web, lo que lo hace bastante confiable en muchos sentidos. Puedes visitar el siguiente enlace en caso quieras indagar un poco por este sitio.

  • Worldbank

    En este sitio se almacena una gran variedad de Datasets provenientes del Banco Mundial, en donde no solamente puedes encontrar información referente a la economía de los países que componen nuestro planeta, sino que también posee una gran cantidad de datos relacionados a otros temas de importancia global. Si deseas acceder a esta colección puedes seguir el siguiente enlace.

  • Organización Mundial de la Salud

    Este sitio ofrece una enorme cantidad de Datasets relativos a la salud mundial, datos médicos, etc. Es muy sencilla la búsqueda, además de tener un fuerte control sobre los filtros que se pueden realizar. Si quieres visitar este sitio sigue el siguiente enlace.

Cómo acceder a los Datasets

Acceder a los Datasets es bastante sencillo en algunos casos. Según los ejemplos vistos previamente, podemos acceder simplemente podemos través de un sitio web, realizar un par de búsquedas o filtros y descargar la información. Sin embargo, también podemos acceder a descargar de otras formas que veremos a continuación.

Descarga directa desde la fuente

Si los datos están publicados en un sitio web oficial, podríamos obtener los mismos descargándolos directamente desde la fuente oficial. De la misma forma, si obtenemos estos datos desde otra fuente que no sea la web, pero aun así es la fuente oficial, los estamos descargando directamente desde la fuente.

A través de APIs

Una API es una Interfaz de Programación de Aplicaciones según sus siglas, pero también se puede definir como una porción de código que se encuentra en un servidor y que permite a una aplicación comunicarse con ella, pudiendo así descargar los datos o la información que la misma tenga almacenada.

Dentro de Internet hay una variedad de APIs publicadas de las cuales es posible descargar datos a través de código en el lenguaje de programación que cada uno utilice.

Mediante consultas a bases de datos

Por supuesto una de las más comunes es una simple consulta a una Base de Datos. Generalmente trabajamos con bases de datos relacionales, a través de lenguaje o consultas SQL, en donde a través de código de igual manera, podemos obtener acceso a los diferentes registros almacenados en las columnas y filas disponibles dentro de una base de datos estructurada.

A través de herramientas de scraping

El Scraping es, dicho de forma general, la extracción de datos desde un programa informático hacia un resultado que podemos obtener desde otro programa informático.

Algo que está muy en auge hoy en día es el Web Scraping, por el que, a través de scripts realizados en algún lenguaje de programación, se puede acceder a sitios web y obtener datos almacenados en los mismos, después de realizar la ejecución de un código.

Consideraciones a tener en cuenta

Licencias de uso

Algunos datos, incluso en el caso de que sea pagado, puede que tenga licencia de uso. En ese sentido, si no pagas o si no obtienes la licencia para usarlo de alguna manera que sea verificable por un tercero, no podrás usarlo por ningún motivo, y si lo usas y eres descubierto, puede que tengas problemas en el futuro.

Calidad de los datos

Sobre la calidad de los datos, algo que siempre lo va a determinar el cliente, puede que las distintas fuentes ofrezcan una enorme cantidad de datos, y solo algunos de ellos sean de la calidad necesaria.

Por eso, debemos preocuparnos de que nuestros datos estén disponibles, presentar lo que nosotros necesitemos y así lograr de la máxima calidad dentro de lo que se espera.

Actualización de los datos

Como fuentes de datos debemos preocuparnos también por mantener una actualización necesaria sobre la información agrupada. No podemos tener publicados datos antiguos que finalmente no sirvan para lo que los diferentes usuarios necesitan, o entregar información que no va a sea correcta en el momento de usarla.

Analiza los datos para tomar mejores decisiones en tu empresa
Cursos y talleres para formar a tus científicos de datos e ingenieros en las herramientas más utilizadas: Hadoop, Spark, Power BI, Pandas, R y más.
Solicitar más información

Conclusiones

Para concluir podemos comenzar a hablar de la importancia que tiene que tener cualquier dato para cualquier persona.

Hoy en día tenemos que tener presentes tres conceptos esenciales dentro de lo que es la seguridad informática y la seguridad de la información, como lo son la Confidencialidad, Integridad y Disponibilidad.

Con esto tenemos que tener presente que, en caso de encontrarnos con algún dato que se confidencial, que solo el dueño y los usuarios autorizados puedan trabajarlo, por lo que tenemos que estar pendientes de la integridad de estos mismos, que el dato no sufra modificaciones por terceros en su recorrido y, finalmente, la disponibilidad, aunque eso dependerá exclusivamente del portal o de donde estén publicados estos datos para que puedan ser ubicados a cualquier hora de cualquier día.

Finalmente, podemos decir que el uso de tecnología para trabajar con información, sin duda ayuda mucho, pero hay que tener bastante cuidado en el sentido del tratamiento que le vamos a dar, ya que sin quererlo podemos hacer daño a alguien o alguna empresa, y como dije en el párrafo anterior, tenemos que cuidarnos y trabajar con los mismos de forma cuidadosa, para evitar problemas futuros.

Si quieres mejorar tus habilidades o las de tu equipo con la mejor formación en Big Data, OpenWebinars te propone dos opciones: solicitar una demostración gratuita de nuestra plantaforma o suscribirte al Plan Profesional y comenzar con 15 días de prueba totalmente gratuitas.

Bombilla

Lo que deberías recordar de los Datasets

  • La importancia de los datos es cada vez mayor y cada vez se generan una mayor cantidad de datos desde diferentes fuentes.
  • Poder acceder a esos datos y trabajar con ellos, tiene gran relevancia para todo tipo de empresas, por lo que es un campo con mucha demanda de perfiles.
  • Un Dataset es un conjunto de datos ordenado bajo un sistema de almacenamiento, organizados en filas y columnas.
  • Son de gran utilidad para automatizar tareas relacianadas con esos datos o para analizar los mismos de una forma más ágil.
  • Los campos que más utilizan estas agrupaciones de datos son, por ejemplo, la Inteligencia Artificial y el Data Science.
  • Existen dos tipos básicos de Datasets, los estructurados y los no estructurados, teniendo estos últimos diferentes tipologías.
  • Estos Datasets se obtienen tanto de fuentes públicas como privadas.
  • El uso de los datos contenidos en los mismos debe hacerse teniendo en cuenta importantes consideraciones legales y éticas.
Compartir este post

También te puede interesar

Icono de la tecnología
Curso

Curso de tratamiento de datos con Pandas

Avanzado
3 h. y 29 min.

¿Ya te manejas con Python y quieres seguir avanzando para ser un profesional del procesamiento de datos? Entonces...

Abraham Requena Mesa
4.5