如何用Python提取网页标签中的文本信息?

2025-04-27 23:36:38
推荐回答(1个)
回答1:

提供两种思路 仅供参考:

一、使用内置的正则表达式


Python代码


import re

regex1 = r"]+?>(.+?)"
regex2 = r"/span>([\s\S]+?)<"

html = ("

\n"
"1、 以下哪条不是VRRP双主可能的原因\n"
"
")
result_a = re.search(regex1, html).group(1)
result_span = re.search(regex2, html).group(1)
print(result_a, result_span)


二、使用第三方库bs4:




from bs4 import BeautifulSoup

html = ("

\n"
"1、 以下哪条不是VRRP双主可能的原因\n"
"
")
soup = BeautifulSoup(html,"html.parser")
text = soup.get_text()
print(text)