tipologia-PRA1-subastas-diputacion

robots.txt

Un archivo robots.txt indica a los rastreadores de los buscadores qué páginas o archivos de tu sitio pueden solicitar y cuáles no. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si lo que buscas es esto último, debes usar directivas noindex o proteger esas páginas con contraseña.

import os
from utils import robots_to_df

De un archivo plano con las páginas web de subastas obtenemos las URL y ejecutamos el script robots.py.

with open("data/dfg.txt", encoding="utf-8") as file:
    diputacion = [l.rstrip("\n") for l in file]
diputacion = diputacion[0]
diputacion
'https://www.gipuzkoa.eus/es'
robots_to_df(diputacion)
User-agent Status Pattern
0 MauiBot Disallow /
1 AhrefsBot Disallow /
2 DotBot Disallow /
3 SemrushBot Disallow /
4 MJ12bot Disallow /
5 Seekport Disallow /
6 Seekport Disallow /es/resultados-buscador
7 Seekport Disallow /eu/bilaketaren-emaitzak
8 Seekport Disallow /*DLF_Bilatzailea
9 Seekport Disallow /*DLYCrossSiteRequestProxy-portlet
10 Seekport Disallow /*DLYServices-portlet
11 Seekport Disallow /*notifications-portlet
12 Seekport Disallow /*calendar-portlet
13 Seekport Disallow /*buscar
14 Seekport Disallow /*INSTANCE
15 Seekport Disallow /*combo
16 Seekport Disallow /*busqueda
17 Seekport Disallow /*bilaketa
18 Seekport Disallow /*galeria-bektoriala
19 Seekport Disallow /*asset_publisher