如何用Python提取网页标签中的文本信息？

2025-04-27 23:36:38

推荐回答（1个）

回答1：

提供两种思路仅供参考：

一、使用内置的正则表达式

Python代码

import re

regex1 = r"]+?>(.+?)"
regex2 = r"/span>([\s\S]+?)<"

html = ("

\n"
"1、以下哪条不是VRRP双主可能的原因\n"
"

")
result_a = re.search(regex1, html).group(1)
result_span = re.search(regex2, html).group(1)
print(result_a, result_span)

二、使用第三方库bs4:

from bs4 import BeautifulSoup

html = ("

\n"
"1、以下哪条不是VRRP双主可能的原因\n"
"

")
soup = BeautifulSoup(html,"html.parser")
text = soup.get_text()
print(text)