Scraping con python

hola scesi-readers :-)

jugando un poco con BeautifulSoup me puse a sacar un listado de todos los docentes de la Carrera de Informatica y Sistemas(un desafio que me planteo Irvin).

Aqui les muestro el codigo:

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.cs.umss.edu.bo/rep\_docentes.jsp')
soup = BeautifulSoup(response.text, "lxml")

td\_docentes = soup.findAll('td', {'class': 'letra\_central', 'width': '65%'})

docentes = []
for row in td\_docentes:
    for col in row.find\_all('a'):
        docentes.append(row.get\_text())

title = 'Docentes'
print title
print '=' * len(title) + '\n'

for docente in docentes:
    print('Docente: ' + (docente.strip()).rstrip())

(Si quieren probar el codigo les sugiero que usen el link que va a gitgub que esta mas abajo)

En este codigo el primer for agarra todos los td's donde estan los nombres de los docentes. El segundo for agarra el texto del tag 'a' y le hace un append a la lista de docentes.

Lo feo del texto que agarra es que hay un '\n' al inicio y al final del nombre del docente, por eso uso la funcion strip y rstrip en la cadena del nombre del docente.

aqui les dejo el enlace en github:

https://gist.github.com/josben/714cdf8ce9f9a56f0eda

./benjo