批量检查Url链接的title信息
Python实例
批量检查Url链接的title信息

批量检查Url链接的title信息, 用于检查链接是否有效,还是404页面。



import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

def get_url_title(url):
    try:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        title = soup.title.string
        return title
    except requests.exceptions.RequestException:
        return "404"

# 你的URL列表
urls = ['https://example.com/url1', 'https://example.com/url2']

# 创建一个新的Excel文档
wb = Workbook()
ws = wb.active
ws['A1'] = "URL"
ws['B1'] = "Title"

# 遍历URL列表,并获取标题信息
for i, url in enumerate(urls, start=2):
    title = get_url_title(url)
    ws.cell(row=i, column=1, value=url)
    ws.cell(row=i, column=2, value=title)

# 保存Excel文档到桌面
wb.save("C:/Users/your_username/Desktop/url_titles.xlsx")





#以下是多线程获取网址Description信息的Python代码

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from openpyxl.utils import get_column_letter
from concurrent.futures import ThreadPoolExecutor

def get_url_description(url):
    try:
        response = requests.get(url)
        response.encoding = response.apparent_encoding
        soup = BeautifulSoup(response.text, 'html.parser')
        meta_tags = soup.find_all('meta', attrs={'name': 'description'})
        if meta_tags:
            description = meta_tags[0].get('content', 'No description found')
        else:
            description = "No description found"
        return description
    except requests.exceptions.RequestException:
        return "404"

# 你的URL列表
urls = ['https://www.baidu.com', 'https://www.google.com']

# 创建一个新的Excel文档
wb = Workbook()
ws = wb.active
ws['A1'] = "URL"
ws['B1'] = "Description"

# 使用多线程处理URL列表
with ThreadPoolExecutor() as executor:
    results = executor.map(get_url_description, urls)

# 遍历结果并保存到Excel文档
for i, result in enumerate(results, start=2):
    ws.cell(row=i, column=1, value=urls[i-2])
    ws.cell(row=i, column=2, value=result)

# 调整列宽以适应内容
for column in ws.columns:
    max_length = 0
    column = [cell for cell in column]
    for cell in column:
        try:
            if len(str(cell.value)) > max_length:
                max_length = len(cell.value)
        except:
            pass
    adjusted_width = (max_length + 2)
    ws.column_dimensions[get_column_letter(column[0].column)].width = adjusted_width

# 保存Excel文档到桌面,以UTF-8格式
wb.save("C:/Users/op/Desktop/url_descriptions.xlsx")












重要的事情说三遍!!!
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。

(网址均来源于网络,如有侵权,请联系删除)












1. 链接直达将跳转网址: https://www.qaqlinks.com/sites/49.html

2. 网址收录时间:2023-11-23 15:20:46

3. 这是第“49”个收录网址。

如对此链接有任何疑问,可以添加以上微信,或此链接底部留言。看到会马上回复。

QaQlinks 跨境电商导航网站 声明:网站上的服务均为第三方提供,与 QAQlinks 网站无关。请用户注意甄别第三方服务质量,避免上当受骗。

(文章来源于网络,如有侵权,请联系删除)




相关导航

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注