Foto de carboxaldehyde en Pexels
Oscar Rojo Martín zumaia@uoc.edu
Álvaro Rodríguez Pardo alvarorp22@uoc.edu
El objetivo de este proyecto es el de obtener dos dataset de la Diputación Foral de Gipuzkoa con los datos de las subastas pendientes y las realizadas, respectivamente. Al final del proyecto dispondremos de dos ficheros CSV donde se muestran todos los datos almacenados.
Se encuentran almacenados en la carpeta data dentro de la carpeta code:
Previo a la realización del trabajo, se ha generado un script para el análisis del fichero robots.txt con objeto de conocer las páginas y ficheros que podemos solicitar y las que no.
Para ejecutar el script:
$ python code/robots.py
El resultado del análisis de la web de la Diputación Foral de Gipuzkoa, se puede consultar en el fichero robots.md.
Los dos datasets obtenidos tienen como estructura común los siguientes campos:
Las formas de recopilar los datasets son muy parecidas y siguen el siguiente orden:
https://www.gipuzkoa.eus/es/
El presente proyecto se inspira en la primera publicación que realizó la Diputación Foral de Gipuzkoa en los portales inmobiliarios de internet como “Idealista” y “Fotocasa”, donde se informaba de las subastas.
Como se puede comprobar, muchas de las subastas que hay en el dataset que se ha obtenido han quedado desiertas. Habría que valorar si el motivo fue el precio, las condiciones del inmueble o la falta de publicidad del evento.
Se ha elegido CC BY-NC-SA 4.0 ya que: Esta licencia no permite un uso comercial de la obra original ni de las posibles obras derivadas. Además, la distribución de estas obras derivadas se debe hacer con una licencia igual a la que regula la obra original.
Para su correcta ejecución se recomienda:
Generar una carpeta
$ mkdir -directorio
Generar un entorno virtual
en Linux
$ python3 -m venv /path/to/new/virtual/environment
en Windows
c:\>c:\Python35\python -m venv c:\path\to\myenv
Instalar los módulos necesarios detallados en el fichero requirements.txt
$ pip install requirements.txt
Ejecutar el scraping sobre las subastas de la Diputación:
$ python code/diputacion.py
Contribuciones | Firma |
---|---|
Investigación previa | Integrante 1, Integrante 2 |
Redacción de las respuestas | Integrante 1, Integrante 2 |
Desarrollo código | Integrante 1, Integrante 2 |
Integrante 1:
Oscar Rojo Martín zumaia@uoc.edu
Integrante 2:
Álvaro Rodríguez Pardo alvarorp22@uoc.edu