#获取网页所有Xpath
import os
import requests
from lxml import etree
from openpyxl import Workbook
# 定义多个网页链接
urls = [
"https://www.baidu.com"
# 添加更多网页链接...
]
# 获取桌面路径
desktop_path = os.path.join(os.path.expanduser('~'), 'Desktop')
# 创建Excel工作簿
workbook = Workbook()
sheet = workbook.active
sheet.cell(row=1, column=1, value="XPath")
sheet.cell(row=1, column=2, value="Text")
sheet.cell(row=1, column=3, value="Content")
# 设置请求头信息
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36",
# 添加其他请求头字段...
}
# 遍历每个网页链接
for url in urls:
# 发送HTTP请求获取网页内容
response = requests.get(url, headers=headers)
# 解析网页内容
html = etree.HTML(response.text)
# 使用XPath表达式提取所有节点
nodes = html.xpath("//*")
# 将XPath路径、Text和Content写入Excel文件的三列
for i, node in enumerate(nodes, start=2):
tree = etree.ElementTree(html)
xpath = tree.getpath(node)
text = node.xpath("string()")
content = node.text if node.text else ""
sheet.cell(row=i, column=1, value=xpath)
sheet.cell(row=i, column=2, value=text.strip())
sheet.cell(row=i, column=3, value=content.strip())
# 保存Excel文件到桌面
output_file = os.path.join(desktop_path, 'output.xlsx')
workbook.save(output_file)
# 打印Xpath内容
import requests
from lxml import html
url = "https://www.xxx.com/"
xpath = '/html/body/main/div[1]/section[1]/div/span[2]/a'
# 发送网络请求获取网页内容
response = requests.get(url)
content = response.content
# 使用lxml库解析HTML
tree = html.fromstring(content)
# 使用XPath表达式获取目标文本内容
result = tree.xpath(xpath)
# 打印采集结果
if result:
print(result[0].text)
else:
print("未找到目标文本内容")
重要的事情说三遍!!!
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
(网址均来源于网络,如有侵权,请联系删除)
1. 链接直达将跳转网址: https://www.qaqlinks.com/sites/17.html
2. 网址收录时间:2023-09-20 08:57:42
3. 这是第“17”个收录网址。
如对此链接有任何疑问,可以添加以上微信,或此链接底部留言。看到会马上回复。
QaQlinks 跨境电商导航网站 声明:网站上的服务均为第三方提供,与 QAQlinks 网站无关。请用户注意甄别第三方服务质量,避免上当受骗。
(文章来源于网络,如有侵权,请联系删除)
依此打开urls然后执行JS代码