Scraping de EDUC.ar

Notas del sistema educ.ar

Definido como hacer el scrapping desde el buscador.

  • Obteniendo todos los registros visitando página a página (1758 actualmente.)
  • Se carga en base de datos sqlite un registro con la siguiente estructura base de datos.
  • Luego se visita la página individual de cada registro para obtener lo que llaman Ficha ficha_tipo.png
  • De la misma página se obtiene el resumen desde los metas de facebookl (og:description)
  • Por cada registro ficha se genera un Objeto Jsoncon toda la información para guardar en el campo "metadata" de la base de datos

Tecnologías involucradas
...

Instado Laravel zero (para hacer la aplicación de consola), https://phpscraper.de (librería de scrapping) , sqlite para guardar los registros

Desarrollo
...

Uso de la aplicación

  • clonar
  • entrar al directorio
  • composer install
  • php oa-scrap migrate

Cosecha de registros

  • php oa-scrap resource // creador de los registros y obtención de las fichas
  • php oa-scrap app:objects Libro //obtiene filtrado por el type de libro (like %% )