Web scraping: qué es y cómo funciona la herramienta que extrae información de los sitios web | España | México | USA | TECNOLOGIA | EL COMERCIO PERÚ

marfeel

Últimas noticias

Qué es y cómo funciona el web scraping. (Foto: Getty Images)

María Maraza Saravia

30/5/2023 11H43 - ACTUALIZADO A 30/5/2023 11H44

A principios de 2023, en marzo, se reveló que Meta pagó durante muchos años a Bright Data, una empresa de recopilación de datos, para que lleve a cabo un servicio de raspado web, también conocido como web scraping.

LEE TAMBIÉN: Así se puede activar el nuevo ‘modo Mario Bros’ en WhatsApp

El hecho causó controversia, puesto que la empresa liderada por Mark Zuckerberg condenó esta práctica públicamente e incluso demandó a aquellas compañías que extraían datos de sus propias redes sociales y plataformas.

De acuerdo con el medio Europa Press, dentro de la información que obtenía están los ‘Me gusta’, seguidores, publicaciones y comentarios “de plataformas de las redes sociales TikTok y Twitter, y de sitios de comercio electrónico como Amazon, eBay y Walmart”.

Pero, ¿en qué consiste exactamente esta práctica?

MIRA: Las temibles predicciones de Stephen Hawking sobre la IA: “Podría conducir al fin de la humanidad”

¿Qué es y cómo funciona el web scraping?

De acuerdo con Sergio Azahuanche, consultor de ciberseguridad senior de Marsh Advisory, se trata de una técnica que permite extraer y recopilar información de páginas web de forma automatizada. Este procedimiento funciona a través del uso de programas o noscripts, también conocidos como ‘scrapers’, capaces de “navegar por múltiples sitios web” y así “identificar y extraer información relevante de acuerdo con criterios preestablecidos”.

Dicha información se recopila y exporta a un formato que sea más útil para el usuario, agrega Eduardo Chavarro, especialista en respuesta a incidentes del equipo global de respuesta a emergencias en Kaspersky.

Azahuanche explica a este Diario que el proceso incluye tres etapas:

Acceder a la página web mediante una solicitud HTTP.
Analizar el contenido HTML de la página para identificar la información deseada.
Extraer la información y almacenarla en una base de datos o en un formato estructurado, como CSV o JSON.

MIRA: Facebook estaría ganando popularidad entre los creadores de contenido antes que Instagram, según encuesta

¿Para qué se utiliza el web scraping?

Chavarro señala que es usado para múltiples propósitos. “Uno de ellos es como herramienta de investigación de mercado para recopilar datos de precios, características de productos y reseñas de productos en línea. Esto permite a las empresas realizar un análisis más detallado de sus competidores”, menciona.

Por su parte, el experto de Marsh agrega que es empleado para realizar un análisis contextual, es decir, extraer opiniones y comentarios de usuarios en redes sociales, foros y blogs “para evaluar la percepción pública de una marca, producto o servicio”.

MIRA: Elon Musk planea cobrar 1.000 dólares mensuales a las empresas por su verificación en Twitter

Asimismo, se utiliza para recopilar información de contacto de posibles clientes en directorios o sitios web de empresas. De igual forma, para “estudiar tendencias del mercado, demanda y competidores mediante la recopilación y análisis de información en línea”.

El web scraping también se emplea para crear bases de datos para inteligencia artificial y aprendizaje automático.

¿Qué páginas web pueden ser objeto de web scraping?

El especialista de Kaspersky explica que “se puede ‘scrapear’ cualquier información que sea visible y accesible en una página web, como texto, enlaces, imágenes, tablas, bases de datos y metadatos”.

Azahuanche agrega que algunas de las páginas ‘scrapeadas’ incluyen, por supuesto, a las redes sociales, como Facebook, Twitter e Instagram. Las plataformas bancarias, sitios de compra y las plataformas de comercio electrónico, como Amazon, Alibaba y otras también están incluidas. Igualmente, los sitios de reserva de viaje, como Booking y Airbnb.

Es importante recalcar que este procedimiento debe realizarse respetando las leyes. “En algunos casos, el web scraping puede ser ilegal o violar los términos de servicio, por lo que es importante tener cuidado y consultar las leyes y regulaciones aplicables antes de realizar cualquier extracción de datos”, explica Chavarro.

MIRA: WhatsApp Web ya tiene beta pública: ¿cómo acceder a las nuevas funciones antes de sus lanzamientos?

La otra cara de la moneda: el web scraping malicioso

De acuerdo con Eduardo Chavarro, el web scraping malicioso “es la extracción de datos de manera ilegal o no ética, generalmente para obtener información personal o confidencial de los usuarios de un sitio web sin su consentimiento”.

La información que se puede extraer va desde tarjetas de crédito hasta recopilación de datos de inicio de sesión. “Otras formas de uso malicioso extraen toda la información de comercios o sitios web organizacionales, para suplantar marcas y productos, generando fraudes o recolectando información de clientes”, agrega.

¿Cómo podemos protegernos del web scraping malicioso?

Ambos especialistas recomiendan los siguientes puntos:

1

1. No exponer información confidencial o datos personales en sitios web con acceso al público en general.

2

2. Utilizar archivos 'robots.txt' para especificar qué partes del sitio pueden ser 'scrapeadas' y por qué agentes.

3

3. Implementar CAPTCHAs o sistemas de autenticación para restringir el acceso a las páginas web.

4

4. Habilitar cuando sea posible múltiples factores de autenticación.

5

5. Confirmar la URL del sitio al que estas accediendo y verificar que corresponda al sitio real al que deseas navegar.

Conforme a los criterios de

Google

Sigue a El Comercio en

Google

TAGS

Ciberseguridad

VIDEO RECOMENDADO

Los delincuentes pueden presentar datos falsos o datos personales que son comprados en el mercado negro. Expertos en el tema comentan sobre la situación.

TE PUEDE INTERESAR

Este es el rostro que da vida al payaso de Terrifier

Con solo 8 episodios, este es el arco más corto de un icónico anime y por fin puede verse en Netflix tras una larga espera

Este es el segundo país con más hispanohablantes en todo el mundo: no está en Latinoamérica ni es España

Pareja en Ohio halla un coche enterrado en su terreno recién comprado

Descubre cómo una moneda olvidada durante casi medio siglo se convirtió en un tesoro de US$506,250

El impactante elogio de Ben Affleck a su ex Jennifer Lopez en medio del divorcio

Te puede interesar:

¿Cómo evitar las estafas en línea y por teléfono?

Expertos en ciberseguridad: ¿qué hacen, cómo se forman y cuál es su perfil ideal?

¿Puede la nueva red World reconocer humanidad y evadir a los hackers?

Prosegur, mucho más que seguridad: innovación, sostenibilidad y equipo humano