Un archivo robots.txt indica a los rastreadores de los buscadores qué páginas o archivos de tu sitio pueden solicitar y cuáles no. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si lo que buscas es esto último, debes usar directivas noindex o proteger esas páginas con contraseña.
import os
from utils import robots_to_df
De un archivo plano con las páginas web de subastas obtenemos las URL y ejecutamos el script robots.py.
with open("data/dfg.txt", encoding="utf-8") as file:
diputacion = [l.rstrip("\n") for l in file]
diputacion = diputacion[0]
diputacion
'https://www.gipuzkoa.eus/es'
robots_to_df(diputacion)
| User-agent | Status | Pattern | |
|---|---|---|---|
| 0 | MauiBot | Disallow | / |
| 1 | AhrefsBot | Disallow | / |
| 2 | DotBot | Disallow | / |
| 3 | SemrushBot | Disallow | / |
| 4 | MJ12bot | Disallow | / |
| 5 | Seekport | Disallow | / |
| 6 | Seekport | Disallow | /es/resultados-buscador |
| 7 | Seekport | Disallow | /eu/bilaketaren-emaitzak |
| 8 | Seekport | Disallow | /*DLF_Bilatzailea |
| 9 | Seekport | Disallow | /*DLYCrossSiteRequestProxy-portlet |
| 10 | Seekport | Disallow | /*DLYServices-portlet |
| 11 | Seekport | Disallow | /*notifications-portlet |
| 12 | Seekport | Disallow | /*calendar-portlet |
| 13 | Seekport | Disallow | /*buscar |
| 14 | Seekport | Disallow | /*INSTANCE |
| 15 | Seekport | Disallow | /*combo |
| 16 | Seekport | Disallow | /*busqueda |
| 17 | Seekport | Disallow | /*bilaketa |
| 18 | Seekport | Disallow | /*galeria-bektoriala |
| 19 | Seekport | Disallow | /*asset_publisher |