Skip to content

Utiliza o Selenium e BeautifulSoup para extrair nome dos autores, titlo, revista, ano, link do abstract, link do html e link do pdf de todos os artigos referente ao tema de busca.

Notifications You must be signed in to change notification settings

Octavio-Santana/OSA_Publishing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

OSA Publishing

Estou utilizando o Selenium para navegar no site https://www.osapublishing.org/ e o BeautifulSoup para extrair nome dos autores, título, revista, ano, link do abstract, link do html e link do pdf de todos os artigos referente ao tema de busca. Em seguida salvo em um arquivo csv.

Vale mencionar que a ordem dos artigos corresponde a relevância dos mesmo, de acordo com o site.

Pretendo no futuro:

  • Utilizar os link's do pdf para fazer download's dos artigos, porém nem todas as revistas tem acesso livre, ao menos que esteja conectado alguma universidade e que rederecione o link para o site da CAPES-Periodicos.
  • Acessar os link's do Abstract, extrair o texto e verificar quantas citações tem cada artigo. Ter em mãos quais artigos tem mais citações é interessante para o pesquisador (estudantes de graduação, mestrado, doutorado e pós-doc), principalmente se o mesmo está iniciando sua pesquisa no tema de busca.

About

Utiliza o Selenium e BeautifulSoup para extrair nome dos autores, titlo, revista, ano, link do abstract, link do html e link do pdf de todos os artigos referente ao tema de busca.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages