首页 > 编程知识 正文

python获取页面标签路径,selenium获取页面表格

时间:2023-05-03 09:17:18 阅读:280154 作者:1337

driver.page_source

selenium的page_source方法可以获取到页面源码

跟爬虫有点相似,获取到页面资源,提取出我们需要的信息

 

案例

以煎蛋网为例,获取首页的全部title(获取页面源码 -- 使用re正则提取需要的title)

代码

#coding:utf-8from selenium import webdriverimport reclass JianDan(): def __init__(self): self.browser = webdriver.Chrome() self.browser.get("http://jandan.net/") self.browser.maximize_window() self.browser.implicitly_wait(3) def get_page_title(self): self.page = self.browser.page_source # 非贪婪匹配,匹配所有满足'target="_blank">....</a></h2>'格式的信息,结果显示是一个列表 self.titles = re.findall(r'target="_blank">(.*?)</a></h2>',self.page) for title in self.titles: print(title)if __name__ == '__main__': jian_dan = JianDan() jian_dan.get_page_title()

结果

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。