Python中HTMLParse模块详解 - vip共享吧
  • 网站首页
  • IT技术笔记
    • Java教程
    • MySql数据库
    • PHP开发
    • Python教程
    • JavaScript
    • SEO优化
    • 常用工具
  • 好资源福利
    • 会员账号共享
  • 网站模板源码
    • 小程序源码
    • 网站源码
  • 共享网络资源
  • 更多功能
    • 留言吐槽
    • 文章归档
    • 我的邻居
    • 史上今日
    • 视频解析
    • 高清壁纸
    • 公告动态
    • 广告合作
    • 关于我们


导航菜单
  • 网站首页
  • IT技术笔记
    • Java教程
    • MySql数据库
    • PHP开发
    • Python教程
    • JavaScript
    • SEO优化
    • 常用工具
  • 好资源福利
    • 会员账号共享
  • 网站模板源码
    • 小程序源码
    • 网站源码
  • 共享网络资源
  • 更多功能
    • 留言吐槽
    • 文章归档
    • 我的邻居
    • 史上今日
    • 视频解析
    • 高清壁纸
    • 公告动态
    • 广告合作
    • 关于我们
Python

Python中HTMLParse模块详解

2024/9/5 韩俊  Python教程 576 0

我们前面用 urllib2 爬取了网站页面,第二步就是解析该 HTML 页面,比如看看里面的内容到底是文本,图片还是视频等等。HTML 本质上是 XML 的子集,但是 HTML 的语法没有 XML 那么严格,所以不能用标准的 DOM 或 SAX 来解析 HTML,Python 提供了 HTMLParser 来非常方便地解析 HTML。

使用 HTMLParser

我们只需要定义一个 HTMLParser 的子类,然后重写一些函数,就可以解析网页了。

from html.parser import HTMLParser

class MyHtmlParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_endtag(self, tag):
        print("</%s>" % tag)

    def handle_starendtag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print("<!-- -->")

    def handle_entityref(self, name):
        print("&%s;" % name)

    def handle_charref(self, name):
        print("&#%s" % name)

parser = MyHtmlParser()
html = "<html><head></head><body><p>python</p></body>"
parser.feed(html)

feed 函数可以多次调用,也就是不一定一次把整个 HTML 字符串都塞进去,可以一部分一部分塞进去。

from html.parser import HTMLParser

class MyHtmlParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_endtag(self, tag):
        print("</%s>" % tag)

    def handle_starendtag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print("<!-- -->")

    def handle_entityref(self, name):
        print("&%s;" % name)

    def handle_charref(self, name):
        print("&#%s" % name)

parser = MyHtmlParser()
htmlone = "<html><head></head><body>"
htmltwo = "<p>python</p></body>"
parser.feed(htmlone)
parser.feed(htmltwo)

我们解析 html 有更多的更好用的第三方模块,比如 beautifulsoup,xpath 等等,我们在爬虫阶段详细介绍这些模块,对于 Python 内置的 HtmlParser 模块,作为了解内容即可。

本节重要知识点

会使用 HtmlParser 解析简单的网页。

了解一下其它解析 html 的第三方模块。

点赞:0 分享

上一篇
Python中hashlib模块详解
下一篇
Python中urllib模块详解
作者头像 作者名称 作者性别
韩俊

热门推荐

1 python中collections库详解
2 Python中xml文件处理
3 Python3推导式
4 Python3的for 循环和 while 循环
5 Python自定义模块
6 《Python编程从入门到精通》由浅入深地讲解Python语言开发

评论列表

取消回复

    •  
      Login

      韩俊

      趁你现在还有时间,尽你自己最大的努力,努力做成你最想做的那件事,成为你最想成为的那种人,过着你最想过的那种生活。这个世界永远比你想的要更精彩,不要败给生活。

      退出登陆
      • 10076文章
      • 455评论
      • 80微语
  • 广告赞助

  • 二零二五年06月
    一二三四五六日
          1
    2345678
    9101112131415
    16171819202122
    23242526272829
    30      
  • 分类

    • 网站模板源码
    • IT技术笔记
    • 好资源分享
    • 共享网络资源
  • 最新文章

      • 幼儿端午祝福语简短句
        • 端午简短祝福语送家人
          • 端午文案祝福语简短励志
            • 经典的黄句子
              • 经典黄色搞笑句子
                • 迷雾通:免费使用的VPN软件
                  • 任推邦:打造你的赚钱新途径!
                    • 任推邦是正规平台吗?任推邦邀请码多少?
  • 热门文章

    • 酷狗音乐VIP账号 酷狗音乐会员账号共享2017.01.29更新
    • 芒果tv vip会员账号 芒果tv会员账号共享2017.01.29更新
    • 爱奇艺vip账号 爱奇艺/PPS会员账号共享2016.12.12更新
    • 优酷/土豆vip会员账号 优酷会员账号共享2017.01.29更新
    • 活动:免费获得爱奇艺VIP/PPS会员账号50天以上的使用权!
    • 酷我音乐VIP账号 酷我音乐会员账号共享2016.12.31更新
    • 暴风影音会员账号 暴风影音会员账号共享2016.12.31更新
    • m1905会员账号 m1905会员账号共享2016.10.21更新
  • 最新评论

    • https://www.vipshare8.com/content/templates/meta/Static/images/tx/10.jpg

      你丫的 文章写得太好了 支持下!![F3...

    • https://www.vipshare8.com/content/templates/meta/Static/images/avatar.jpg

      很棒!刚在某网站看到这个,很欣赏,可惜下...

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=3861064027

      呃呃呃 oooo

    • https://www.vipshare8.com/content/uploadfile/202103/thum-490d1614564497.png

      回复了111:根据激活的时间有一年的有效期!

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=792480561

      到2025就到期了吗?

    • https://www.vipshare8.com/content/uploadfile/202103/thum-490d1614564497.png

      [blockquote]打卡时间:16:...

    • https://www.vipshare8.com/content/templates/meta/Static/images/tx/7.jpg

      俊哥,想借用迅雷一用!但需要手机验证!看...

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=3293901900

      感谢大大的分享

    • https://www.vipshare8.com/content/uploadfile/202103/thum-490d1614564497.png

      回复了好奥v:如果没有解析成功,可以切换接口...

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=131241242441

      现在视频解析网站怎么用不了啦?

  • 网站统计 I 当前在线:165人

    • 本站管理:1位
    • 用户总数:591位
    • 置顶文章:2篇
    • 日志总数:10076篇
    • 微语总数:80条
    • 评论总数:455条
    • 标签总数:83条
    • 页面总数:8页
    • 分类总数:14个
    • 链接总数:16条
    • 运行天数:3699天
    • 最后更新:5月26日
    • 登录
    • 注册
    • 找回
    Copyright © 2025vip共享吧网站地图 网站备案豫ICP备19004194号-1

    免责声明:本站资源仅供用于学习和交流,本站部分素材内容来源于网络,如有侵权/投稿等,请及时联系站长.

    • 首页
    • 秒懂百科 秒懂百科
    • 搜索
    • 史上今日

    大家都在搜

    • seo优化
    • 电影抢先看
    • 土豆vip账号共享
    • 搜狐视频会员账号
    • 爱奇艺会员账号共享
    • swoole
    • 乐视会员账号共享
    • m1905会员账号
    • 微信小程序源码
    • 起点账号共享
    • 咪咕会员账号
    • 掌阅vip账号共享
    • PHP
    • PHP教程
    • pptv
    • 2345网址导航
    • 
    • 