Scraping con python

28 de mar. de 2016

hola scesi-readers :-)

jugando un poco con BeautifulSoup me puse a sacar un listado de todos los docentes de la Carrera de Informatica y Sistemas(un desafio que me planteo Irvin).

Aqui les muestro el codigo:

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.cs.umss.edu.bo/rep\_docentes.jsp')
soup = BeautifulSoup(response.text, "lxml")

td\_docentes = soup.findAll('td', {'class': 'letra\_central', 'width': '65%'})

docentes = []
for row in td\_docentes:
    for col in row.find\_all('a'):
        docentes.append(row.get\_text())

title = 'Docentes'
print title
print '=' * len(title) + '\n'

for docente in docentes:
    print('Docente: ' + (docente.strip()).rstrip())

(Si quieren probar el codigo les sugiero que usen el link que va a gitgub que esta mas abajo)

En este codigo el primer for agarra todos los td's donde estan los nombres de los docentes. El segundo for agarra el texto del tag 'a' y le hace un append a la lista de docentes.

Lo feo del texto que agarra es que hay un '\n' al inicio y al final del nombre del docente, por eso uso la funcion strip y rstrip en la cadena del nombre del docente.

aqui les dejo el enlace en github:

https://gist.github.com/josben/714cdf8ce9f9a56f0eda

./benjo

¿Te gustó el contenido o lo que hacemos? ¡Cualquier colaboración es agradecida para mantener los servidores o crear proyectos!

Comentarios:

¡Genial! Te has suscrito con éxito.
¡Genial! Ahora, completa el checkout para tener acceso completo.
¡Bienvenido de nuevo! Has iniciado sesión con éxito.
Éxito! Su cuenta está totalmente activada, ahora tienes acceso a todo el contenido.