获取网页所有Xpath

Python实例

获取网页所有Xpath

获取网页所有Xpath，运行代码会在首页生成Output的Excel文件，获取到所有Xpath信息。

链接直达手机查看

关注一下呗

微信

#获取网页所有Xpath


import os
import requests
from lxml import etree
from openpyxl import Workbook

# 定义多个网页链接
urls = [
    "https://www.baidu.com"
    # 添加更多网页链接...
]

# 获取桌面路径
desktop_path = os.path.join(os.path.expanduser('~'), 'Desktop')

# 创建Excel工作簿
workbook = Workbook()
sheet = workbook.active
sheet.cell(row=1, column=1, value="XPath")
sheet.cell(row=1, column=2, value="Text")
sheet.cell(row=1, column=3, value="Content")

# 设置请求头信息
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36",
    # 添加其他请求头字段...
}

# 遍历每个网页链接
for url in urls:
    # 发送HTTP请求获取网页内容
    response = requests.get(url, headers=headers)

    # 解析网页内容
    html = etree.HTML(response.text)

    # 使用XPath表达式提取所有节点
    nodes = html.xpath("//*")

    # 将XPath路径、Text和Content写入Excel文件的三列
    for i, node in enumerate(nodes, start=2):
        tree = etree.ElementTree(html)
        xpath = tree.getpath(node)
        text = node.xpath("string()")
        content = node.text if node.text else ""
        sheet.cell(row=i, column=1, value=xpath)
        sheet.cell(row=i, column=2, value=text.strip())
        sheet.cell(row=i, column=3, value=content.strip())

# 保存Excel文件到桌面
output_file = os.path.join(desktop_path, 'output.xlsx')
workbook.save(output_file)

# 打印Xpath内容



import requests
from lxml import html

url = "https://www.xxx.com/"
xpath = '/html/body/main/div[1]/section[1]/div/span[2]/a'

# 发送网络请求获取网页内容
response = requests.get(url)
content = response.content

# 使用lxml库解析HTML
tree = html.fromstring(content)

# 使用XPath表达式获取目标文本内容
result = tree.xpath(xpath)

# 打印采集结果
if result:
    print(result[0].text)
else:
    print("未找到目标文本内容")

重要的事情说三遍!!!
这是网站预览，如果预览不正常，有可能需要外网才能访问，或网站已经不存在，或对方服务器拒绝预览访问。
这是网站预览，如果预览不正常，有可能需要外网才能访问，或网站已经不存在，或对方服务器拒绝预览访问。
这是网站预览，如果预览不正常，有可能需要外网才能访问，或网站已经不存在，或对方服务器拒绝预览访问。

（网址均来源于网络，如有侵权，请联系删除）

1. 链接直达将跳转网址： https://www.qaqlinks.com/sites/17.html

2. 网址收录时间：2023-09-20 08:57:42

3. 这是第“17”个收录网址。

如对此链接有任何疑问，可以添加以上微信，或此链接底部留言。看到会马上回复。

QaQlinks 跨境电商导航网站声明：网站上的服务均为第三方提供，与 QAQlinks 网站无关。请用户注意甄别第三方服务质量，避免上当受骗。

（文章来源于网络，如有侵权，请联系删除）

相关导航

发表回复取消回复

相关导航

发表回复 取消回复

发表回复取消回复