python获取页面标签路径,selenium获取页面表格

driver.page_source

selenium的page_source方法可以获取到页面源码

跟爬虫有点相似，获取到页面资源，提取出我们需要的信息

案例

以煎蛋网为例，获取首页的全部title（获取页面源码 -- 使用re正则提取需要的title）

代码

#coding:utf-8from selenium import webdriverimport reclass JianDan(): def __init__(self): self.browser = webdriver.Chrome() self.browser.get("http://jandan.net/") self.browser.maximize_window() self.browser.implicitly_wait(3) def get_page_title(self): self.page = self.browser.page_source # 非贪婪匹配，匹配所有满足'target="_blank">....</a></h2>'格式的信息，结果显示是一个列表 self.titles = re.findall(r'target="_blank">(.*?)</a></h2>',self.page) for title in self.titles: print(title)if __name__ == '__main__': jian_dan = JianDan() jian_dan.get_page_title()

结果