Python 去除 HTML 标签获取纯文本

张

张建站

2026/5/14 8:14:07

10分钟阅读

方法1使用 BeautifulSoup推荐frombs4importBeautifulSoup htmlpHello bWorld/b! a href#Click/a/psoupBeautifulSoup(html,html.parser)textsoup.get_text()print(text)# Hello World! Click方法2使用正则表达式简单场景importre htmlpHello bWorld/b! a href#Click/a/ptextre.sub(r[^],,html)print(text)# Hello World! Click方法3使用 html.parser标准库fromhtml.parserimportHTMLParserclassMyHTMLParser(HTMLParser):def__init__(self):super().__init__()self.text[]defhandle_data(self,data):self.text.append(data)defget_text(self):return.join(self.text)htmlpHello bWorld/b!/pparserMyHTMLParser()parser.feed(html)print(parser.get_text())# Hello World!方法4使用 lxml性能最好fromlxmlimporthtml html_strpHello bWorld/b!/ptreehtml.fromstring(html_str)texttree.text_content()print(text)# Hello World! 对比方法优点缺点BeautifulSoup简单易用容错强需要安装第三方库正则无需安装速度快复杂HTML可能出错html.parser标准库无需安装代码稍多lxml速度最快功能强大需要安装C库推荐一般用BeautifulSoup简单场景用正则。pipinstallbeautifulsoup4 lxml

XUnity.AutoTranslator完整指南：让外语游戏瞬间变中文的免费神器

XUnity.AutoTranslator完整指南：让外语游戏瞬间变中文的免费神器【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为语言障碍而无法畅玩海外Unity游戏吗？XUnity.AutoTranslator…...

2026/5/14 8:06:05 阅读更多 →

AGENTS.md：为AI编码助手定制的项目说明书，提升人机协作效率

1. 项目概述：为什么你的项目需要一个“AI专属说明书”？如果你最近在尝试用GitHub Copilot、Cursor或者Claude Code来辅助开发，大概率遇到过这样的场景：你满怀期待地给AI下达一个指令，比如“帮我给这个React组件添加一个…...

2026/5/14 8:06:05 阅读更多 →

基于OFDM的认知无线电网络的功率分配

将人工鱼群算法（Artificial Fish Swarm Algorithm, AFSA）应用于基于OFDM的认知无线电（Cognitive Radio, CR）网络的功率分配，是一个非常经典的启发式算法解决通信资源分配的跨领域课题。传统的拉格朗日乘子法或凸优化工…...

2026/5/14 7:56:10 阅读更多 →

【阳师范学院主办，多高校承协办 | IET出版，往届连续4届EI稳定检索，平均刊后2个月EI检索，EI检索稳定 | 择优至EI期刊】第五届电力工程与电气技术学术会议（ICPEET 2026）

ICPEET 2026 已申请IET (CA) EAI (JA) 出版会议论文（CA）： 会议已申请IET Conference Proceedings (ISSN: 2732-4494) 出版，收录于IET数字图书馆，并提交EI Compendex、Scopus、IEEE Xplore等数据库进行检索。期刊论文…...

2026/5/12 3:35:40 阅读更多 →