Últimas noticias

Ciberseguridad

/ NoticiasInformación basada en hechos y verificada de primera mano por el reportero, o reportada y verificada por fuentes expertas.

Web scraping: qué es y cómo funciona la herramienta que extrae información de los sitios web

  • La verdad detrás de las Cookies: ¿cómo se utilizan para personalizar la publicidad?
  • Desde ‘entrenadores de IA’ hasta ‘etiquetadores de temas prohibidos’: ¿quiénes están detrás del desarrollo de la inteligencia artificial?
Uno de los usos que tiene es como herramienta de investigación de mercado para recopilar características, datos de precios y reseñas de productos en línea. El Comercio conversó con dos especialistas en ciberseguridad para explorar más esta práctica
Qué es y cómo funciona el web scraping. (Foto: Getty Images)

María Maraza Saravia

30/5/2023 11H43 - ACTUALIZADO A 30/5/2023 11H44

A principios de 2023, en marzo, se reveló que Meta pagó durante muchos años a Bright Data, una empresa de recopilación de datos, para que lleve a cabo un servicio de raspado web, también conocido como web scraping.

LEE TAMBIÉN: Así se puede activar el nuevo ‘modo Mario Bros’ en WhatsApp

El hecho causó controversia, puesto que la empresa liderada por Mark Zuckerberg condenó esta práctica públicamente e incluso demandó a aquellas compañías que extraían datos de sus propias redes sociales y plataformas.

De acuerdo con el medio Europa Press, dentro de la información que obtenía están los ‘Me gusta’, seguidores, publicaciones y comentarios “de plataformas de las redes sociales TikTok y Twitter, y de sitios de comercio electrónico como Amazon, eBay y Walmart”.

Pero, ¿en qué consiste exactamente esta práctica?

MIRA: Las temibles predicciones de Stephen Hawking sobre la IA: “Podría conducir al fin de la humanidad”

¿Qué es y cómo funciona el web scraping?

De acuerdo con Sergio Azahuanche, consultor de ciberseguridad senior de Marsh Advisory, se trata de una técnica que permite extraer y recopilar información de páginas web de forma automatizada. Este procedimiento funciona a través del uso de programas o noscripts, también conocidos como ‘scrapers’, capaces de “navegar por múltiples sitios web” y así “identificar y extraer información relevante de acuerdo con criterios preestablecidos”.

Dicha información se recopila y exporta a un formato que sea más útil para el usuario, agrega Eduardo Chavarro, especialista en respuesta a incidentes del equipo global de respuesta a emergencias en Kaspersky.

Azahuanche explica a este Diario que el proceso incluye tres etapas:

  • Acceder a la página web mediante una solicitud HTTP.
  • Analizar el contenido HTML de la página para identificar la información deseada.
  • Extraer la información y almacenarla en una base de datos o en un formato estructurado, como CSV o JSON.
MIRA: Facebook estaría ganando popularidad entre los creadores de contenido antes que Instagram, según encuesta

¿Para qué se utiliza el web scraping?

Chavarro señala que es usado para múltiples propósitos. “Uno de ellos es como herramienta de investigación de mercado para recopilar datos de precios, características de productos y reseñas de productos en línea. Esto permite a las empresas realizar un análisis más detallado de sus competidores”, menciona.

Por su parte, el experto de Marsh agrega que es empleado para realizar un análisis contextual, es decir, extraer opiniones y comentarios de usuarios en redes sociales, foros y blogs “para evaluar la percepción pública de una marca, producto o servicio”.

MIRA: Elon Musk planea cobrar 1.000 dólares mensuales a las empresas por su verificación en Twitter

Asimismo, se utiliza para recopilar información de contacto de posibles clientes en directorios o sitios web de empresas. De igual forma, para “estudiar tendencias del mercado, demanda y competidores mediante la recopilación y análisis de información en línea”.

El web scraping también se emplea para crear bases de datos para inteligencia artificial y aprendizaje automático.

¿Qué páginas web pueden ser objeto de web scraping?

El especialista de Kaspersky explica que “se puede ‘scrapear’ cualquier información que sea visible y accesible en una página web, como texto, enlaces, imágenes, tablas, bases de datos y metadatos”.

Azahuanche agrega que algunas de las páginas ‘scrapeadas’ incluyen, por supuesto, a las redes sociales, como Facebook, Twitter e Instagram. Las plataformas bancarias, sitios de compra y las plataformas de comercio electrónico, como Amazon, Alibaba y otras también están incluidas. Igualmente, los sitios de reserva de viaje, como Booking y Airbnb.

Es importante recalcar que este procedimiento debe realizarse respetando las leyes. “En algunos casos, el web scraping puede ser ilegal o violar los términos de servicio, por lo que es importante tener cuidado y consultar las leyes y regulaciones aplicables antes de realizar cualquier extracción de datos”, explica Chavarro.

MIRA: WhatsApp Web ya tiene beta pública: ¿cómo acceder a las nuevas funciones antes de sus lanzamientos?

La otra cara de la moneda: el web scraping malicioso

De acuerdo con Eduardo Chavarro, el web scraping malicioso “es la extracción de datos de manera ilegal o no ética, generalmente para obtener información personal o confidencial de los usuarios de un sitio web sin su consentimiento”.

La información que se puede extraer va desde tarjetas de crédito hasta recopilación de datos de inicio de sesión. “Otras formas de uso malicioso extraen toda la información de comercios o sitios web organizacionales, para suplantar marcas y productos, generando fraudes o recolectando información de clientes”, agrega.

¿Cómo podemos protegernos del web scraping malicioso?
Ambos especialistas recomiendan los siguientes puntos:
1
1. No exponer información confidencial o datos personales en sitios web con acceso al público en general.
2
2. Utilizar archivos 'robots.txt' para especificar qué partes del sitio pueden ser 'scrapeadas' y por qué agentes.
3
3. Implementar CAPTCHAs o sistemas de autenticación para restringir el acceso a las páginas web.
4
4. Habilitar cuando sea posible múltiples factores de autenticación.
5
5. Confirmar la URL del sitio al que estas accediendo y verificar que corresponda al sitio real al que deseas navegar.

Conforme a los criterios de

Saber más

Google

News
Sigue a El Comercio en

Google

News

TAGS

Ciberseguridad

VIDEO RECOMENDADO

Los delincuentes pueden presentar datos falsos o datos personales que son comprados en el mercado negro. Expertos en el tema comentan sobre la situación.

TE PUEDE INTERESAR

  • ¿Cuál es el cargador que carga más rápido? Tome nota de estos puntos claves
  • Los relojes inteligentes de Google ya cuentan con una aplicación nativa de WhatsApp
  • ¿Cómo usar una canción de Spotify como tono de llamada en su celular?

Contenido Sugerido

Contenido GEC

Cheque de estímulo por inflación en California: requisitos

MAG.

Cómo saber si alguien está “en línea” sin abrir WhatsApp

MAG.

Cómo saber si leyeron tu mensaje de WhatsApp aunque no haya doble check azul

MAG.

Encuentra los 13 animales de este reto visual en 10 segundos

MAG.

Productor televisivo y empresario: quién es Anuar Zidan, el esposo de Maity Interiano

MAG.

El nuevo salario mínimo por hora en Florida desde el 30 de septiembre

Diario Depor

Te puede interesar:

La actualización de Windows 11 deja atrás las contraseñas y apuesta por ‘passkeys’

Ciberataques con inteligencia artificial: en qué consisten y por qué la defensa va perdiendo

¿Me espían desde la cámara de mi computadora? De esta manera puedes comprobarlo

Ciberseguridad: ¿tu Smart TV puede infectarse con un virus?

Más en Ciberseguridad

La actualización de Windows 11 deja atrás las contraseñas y apuesta por ‘passkeys’

Ciberataques con inteligencia artificial: en qué consisten y por qué la defensa va perdiendo

¿Me espían desde la cámara de mi computadora? De esta manera puedes comprobarlo

Ciberseguridad: ¿tu Smart TV puede infectarse con un virus?

Se detectan campañas de phishing que suplantan el nombre del BCP para robar datos

Google pide a usuarios actualizar Chrome para corregir una vulnerabilidad crítica

Ver más de Ciberseguridad
Do Not Sell My Info
Privacy Settings