Diferencias entre Scraping, Crawling y Parsing
Te aclaramos tus dudas sobre tres conceptos que a veces se confunden, como son el web scraping, web crawling y parsing.
El web scraping es una técnica muy utilizada en la actualidad, si quieres saber más sobre ella, te contamos qué es y los muchos usos que tiene.
Tabla de contenidos
El web scraping es una técnica muy utilizada en la actualidad, si quieres saber más sobre ella, te contamos qué es y los muchos usos que tiene.
El web scraping, cuya traducción al español sería algo así como “raspado de páginas web”, consiste en la extracción de datos significativos de una o varias páginas web, para una manipulación o análisis posterior.
Existen herramientas que nos permiten extraer datos web y también podemos crear programas en lenguaje de programación como Python.
Estas técnicas nos permiten hacer muchas cosas con los datos de la web, que cada vez son más valiosos. Entre su gran número de aplicaciones prácticas, vamos a destacar algunas:
El web scraping, en resumen, nos permite sacar datos de la web, que es la mayor fuente de datos que existe y existirá.
No obstante existe cierta controversia y algunos problemas a la hora de extraer datos en la web, ya que no es algo ilegal, ni mucho menos, pero cuanto más interesantes sean los datos que proporciona una web, más se van a intentar proteger para evitar estas técnicas de web scraping o web crawling.
Muchas webs pueden detectar accesos que no se corresponden con acciones humanas, como por ejemplo si se detecta un acceso a una web mil veces por segundo para obtener datos, es fácilmente detectable y puede incluso provocar que bloqueen la IP y no se pueda acceder nunca más.
Siempre es conveniente leer los términos legales de cualquier web y tener en consideración aspectos legales a la hora de utilizar cualquier técnica de web scraping, ya que hay que hacerlo siempre con responsabilidad.
Un ejemplo es Facebook, en cuyos términos y condiciones al crear una cuenta, se asegura que no se va a utilizar técnicas para extraer datos con programas o robots de la web de Facebook, y se hace nos pueden cerrar la cuenta y/o bloquearnos la IP y no se pueda acceder a Facebook.
Otra de las limitaciones del web scraping es que automatizamos un programa para extraer datos de la web y la misma cambia de un día para otro, puede que el programa comience a generar errores y haya que estar pendiente de ese tipo de cosas.
Conviértete en un experto del web scrapping, aprende cómo extraer datos de sitios web utilizando Python como lenguaje de programación.
Recuerda que puedes comenzar este curso con tu suscripción a OpenWebinars. Si todavía no estás suscrito, aprovecha para hacerlo ahora.
También te puede interesar
Te aclaramos tus dudas sobre tres conceptos que a veces se confunden, como son el web scraping, web crawling y parsing.
Si quieres aprender cómo hacer web scraping con Python de forma sencilla, puedes comenzar realizando este completo curso...