Skip to main content

SITIOS

Sección Sitios

 Esta sección permite gestionar los sitios web para realizar scraping, activación o desactivación y definir las frecuencias.

  • Configurar los sitios web que deseas monitorear. Define la URL, la frecuencia de revisión y el tipo de monitoreo (básico, PDF, etc.)..

  • Exportar e importar en excel los datos de scraping.

  • Editar y/o eliminar la configuración de los sitios.

Podemos ubicar la información en una tabla la cual está conformado por las siguientes variables: ID, Nombre, Redes sociales, Caracterización, Notificar, Ultima sincronización, Acciones.

  • ID: Identificador generado de manera automática para los perfiles creados.
  • Nombre: Corresponde al nombre que se le asigna al sitio.
  • Url: URL del sitio.
  • Tags: Tags o clasificación que se asigna al sitio, importante separar por comas.
  • Frecuencia: Frecuencia en la que se realizara el scraping.
  • Tipo Scraping: Selección del tipo de scraping; básico, PDF scanning, personalizado (Endpoint Rest) personalizado (Script playwright). 
  • Ultima ejecución: Fecha de la ultima ejecución del scraping.
  • Activo: Check de marcación de estado.
  • Acciones:  Acción de editar y /o eliminar.

Captura de pantalla 2025-10-05 162728.png

Añadir sitio para scraping

Esta funcionalidad permite añadir nuevos sitios para realizar el scraping. Los campos a diligenciar son:

  • Nombre del sitio: Indicar el nombre asignar al sitio.sitio, nombre descriptivo para identificarlo facilmente: ("ministerio de salud").
  • URL del sitio Web: Indicar la URL del sitio.sitio a monitorear.
  • Tags: Indicar el o los tags asignar al sitio, se debe tener en cuenta que deben separare por coma.coma, palabra clave para categorizar el sitio: ("gobierno, salud). 
  • Frecuencia de scraping: Frecuencia en que se realizara el scraping:
    • Diariamente
    • Semanalmente
    • Mensualmente
    • Cada hora
    • Cada 30 minutos
    • Cada 15 minutos
    • Cada 10 minutos
      • Cada 5 minuto

-    Tipo de scraping: Indicar el tipo de scraping:scraping (método extracción de datos):

      • Básico,Básico: Monitoreo estándar del contenido HTML. Ideal para sitios simples
      • PDF scanning,scanning: Descarga y analiza el texto de los documentos PDF en la página. Puede activar la opción de OCR para extraer texto de imágenes dentro de los PDFs.
      • PDF Crawling: Similar a PDF Scanning, pero además recorre los enlaces internos del sitio para encontrar más PDFs en páginas secundarias.
      • Personalizado (Endpoint Rest): Para sitios complejos que requieren un servicio externo (API) para obtener los datos. Debe proporcionar la URL del endpoint. 
      • Personalizado (Script playwright):  Escriba un script personalizado en Playwright/JavaScript para navegar e interactuar con sitios dinámicos y extraer la información precisa. Puede probar su script directamente desde el formulario
      • Prompt Personalizado: (Opcional) Proporcione instrucciones específicas para la IA sobre cómo debe analizar el contenido extraído (ej: "Extraer solo los títulos y los dos primeros párrafos de cada noticia").
      • Activar Scraping: Marque esta casilla para que el monitoreo de este sitio esté activo.
  •  Prompt personalizado: Indicaciones para la personalización del scraping.
  •  Check de activar: Check de activación de scraping.

Captura de pantalla 2025-10-05 163240.png

Pantalla de añadir nueva configuración de scraping.

  •   Horario de Ejecución: Configure un horario global (días y rango de horas) en el que se ejecutarán todos los monitoreos

Captura de pantalla 2025-10-16 155116.png

Importar desde Excel

Esta funcionalidad permite importar archivos en formato Excel de manera masiva. 

Exportar desde Excel

Esta funcionalidad permite exportar y/o descargar archivos en formato Excel.