tipologia-PRA1-subastas-diputacion

robots.txt

Un archivo robots.txt indica a los rastreadores de los buscadores qué páginas o archivos de tu sitio pueden solicitar y cuáles no. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si lo que buscas es esto último, debes usar directivas noindex o proteger esas páginas con contraseña.

import os
from utils import robots_to_df

De un archivo plano con las páginas web de subastas obtenemos las URL y ejecutamos el script robots.py.

with open("data/dfg.txt", encoding="utf-8") as file:
    diputacion = [l.rstrip("\n") for l in file]
diputacion = diputacion[0]
diputacion

'https://www.gipuzkoa.eus/es'

robots_to_df(diputacion)

	User-agent	Status	Pattern
0	MauiBot	Disallow	/
1	AhrefsBot	Disallow	/
2	DotBot	Disallow	/
3	SemrushBot	Disallow	/
4	MJ12bot	Disallow	/
5	Seekport	Disallow	/
6	Seekport	Disallow	/es/resultados-buscador
7	Seekport	Disallow	/eu/bilaketaren-emaitzak
8	Seekport	Disallow	/*DLF_Bilatzailea
9	Seekport	Disallow	/*DLYCrossSiteRequestProxy-portlet
10	Seekport	Disallow	/*DLYServices-portlet
11	Seekport	Disallow	/*notifications-portlet
12	Seekport	Disallow	/*calendar-portlet
13	Seekport	Disallow	/*buscar
14	Seekport	Disallow	/*INSTANCE
15	Seekport	Disallow	/*combo
16	Seekport	Disallow	/*busqueda
17	Seekport	Disallow	/*bilaketa
18	Seekport	Disallow	/*galeria-bektoriala
19	Seekport	Disallow	/*asset_publisher

This site is open source. Improve this page.