Estou utilizando o Selenium para navegar no site https://www.osapublishing.org/ e o BeautifulSoup para extrair nome dos autores, título, revista, ano, link do abstract, link do html e link do pdf de todos os artigos referente ao tema de busca. Em seguida salvo em um arquivo csv.
Vale mencionar que a ordem dos artigos corresponde a relevância dos mesmo, de acordo com o site.
Pretendo no futuro:
- Utilizar os link's do pdf para fazer download's dos artigos, porém nem todas as revistas tem acesso livre, ao menos que esteja conectado alguma universidade e que rederecione o link para o site da CAPES-Periodicos.
- Acessar os link's do Abstract, extrair o texto e verificar quantas citações tem cada artigo. Ter em mãos quais artigos tem mais citações é interessante para o pesquisador (estudantes de graduação, mestrado, doutorado e pós-doc), principalmente se o mesmo está iniciando sua pesquisa no tema de busca.