Python中HTMLParse模块详解 - vip共享吧
  • 网站首页
  • IT技术笔记
    • Java教程
    • MySql数据库
    • PHP开发
    • Python教程
    • JavaScript
    • SEO优化
    • 常用工具
  • 好资源福利
    • 会员账号共享
  • 网站模板源码
    • 小程序源码
    • 网站源码
  • 共享网络资源
  • 更多功能
    • 留言吐槽
    • 文章归档
    • 我的邻居
    • 史上今日
    • 视频解析
    • 高清壁纸
    • 公告动态
    • 广告合作
    • 关于我们


导航菜单
  • 网站首页
  • IT技术笔记
    • Java教程
    • MySql数据库
    • PHP开发
    • Python教程
    • JavaScript
    • SEO优化
    • 常用工具
  • 好资源福利
    • 会员账号共享
  • 网站模板源码
    • 小程序源码
    • 网站源码
  • 共享网络资源
  • 更多功能
    • 留言吐槽
    • 文章归档
    • 我的邻居
    • 史上今日
    • 视频解析
    • 高清壁纸
    • 公告动态
    • 广告合作
    • 关于我们
Python

Python中HTMLParse模块详解

2024/9/5 韩俊  Python教程 585 0

我们前面用 urllib2 爬取了网站页面,第二步就是解析该 HTML 页面,比如看看里面的内容到底是文本,图片还是视频等等。HTML 本质上是 XML 的子集,但是 HTML 的语法没有 XML 那么严格,所以不能用标准的 DOM 或 SAX 来解析 HTML,Python 提供了 HTMLParser 来非常方便地解析 HTML。

使用 HTMLParser

我们只需要定义一个 HTMLParser 的子类,然后重写一些函数,就可以解析网页了。

from html.parser import HTMLParser

class MyHtmlParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_endtag(self, tag):
        print("</%s>" % tag)

    def handle_starendtag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print("<!-- -->")

    def handle_entityref(self, name):
        print("&%s;" % name)

    def handle_charref(self, name):
        print("&#%s" % name)

parser = MyHtmlParser()
html = "<html><head></head><body><p>python</p></body>"
parser.feed(html)

feed 函数可以多次调用,也就是不一定一次把整个 HTML 字符串都塞进去,可以一部分一部分塞进去。

from html.parser import HTMLParser

class MyHtmlParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_endtag(self, tag):
        print("</%s>" % tag)

    def handle_starendtag(self, tag, attrs):
        print("<%s>" % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print("<!-- -->")

    def handle_entityref(self, name):
        print("&%s;" % name)

    def handle_charref(self, name):
        print("&#%s" % name)

parser = MyHtmlParser()
htmlone = "<html><head></head><body>"
htmltwo = "<p>python</p></body>"
parser.feed(htmlone)
parser.feed(htmltwo)

我们解析 html 有更多的更好用的第三方模块,比如 beautifulsoup,xpath 等等,我们在爬虫阶段详细介绍这些模块,对于 Python 内置的 HtmlParser 模块,作为了解内容即可。

本节重要知识点

会使用 HtmlParser 解析简单的网页。

了解一下其它解析 html 的第三方模块。

点赞:0 分享

上一篇
Python中hashlib模块详解
下一篇
Python中urllib模块详解
作者头像 作者名称 作者性别
韩俊

热门推荐

1 python搜索模块的路径
2 Python多重继承
3 Python3推导式
4 Python3的tuple类型
5 Python3的if条件判断
6 python文件和目录操作

评论列表

取消回复

    •  
      Login

      韩俊

      趁你现在还有时间,尽你自己最大的努力,努力做成你最想做的那件事,成为你最想成为的那种人,过着你最想过的那种生活。这个世界永远比你想的要更精彩,不要败给生活。

      退出登陆
      • 10358文章
      • 455评论
      • 80微语
  • 广告赞助

  • 二零二五年07月
    一二三四五六日
     123456
    78910111213
    14151617181920
    21222324252627
    28293031   
  • 分类

    • 网站模板源码
    • IT技术笔记
    • 好资源分享
    • 共享网络资源
  • 最新文章

      • 婚礼新郎祝福语简短励志
        • 嫁女结婚祝福语简短精辟
          • 祝医生节简短祝福语
            • 大童生日祝福语简短
              • 女孩参军祝福语大全简短
                • 敬平辈祝福语简短霸气
                  • 经典的黄句子
                    • 教师祝福语句简短唯美
  • 热门文章

    • 酷狗音乐VIP账号 酷狗音乐会员账号共享2017.01.29更新
    • 芒果tv vip会员账号 芒果tv会员账号共享2017.01.29更新
    • 爱奇艺vip账号 爱奇艺/PPS会员账号共享2016.12.12更新
    • 优酷/土豆vip会员账号 优酷会员账号共享2017.01.29更新
    • 活动:免费获得爱奇艺VIP/PPS会员账号50天以上的使用权!
    • 酷我音乐VIP账号 酷我音乐会员账号共享2016.12.31更新
    • 暴风影音会员账号 暴风影音会员账号共享2016.12.31更新
    • m1905会员账号 m1905会员账号共享2016.10.21更新
  • 最新评论

    • https://www.vipshare8.com/content/templates/meta/Static/images/tx/10.jpg

      你丫的 文章写得太好了 支持下!![F3...

    • https://www.vipshare8.com/content/templates/meta/Static/images/avatar.jpg

      很棒!刚在某网站看到这个,很欣赏,可惜下...

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=3861064027

      呃呃呃 oooo

    • https://www.vipshare8.com/content/uploadfile/202103/thum-490d1614564497.png

      回复了111:根据激活的时间有一年的有效期!

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=792480561

      到2025就到期了吗?

    • https://www.vipshare8.com/content/uploadfile/202103/thum-490d1614564497.png

      [blockquote]打卡时间:16:...

    • https://www.vipshare8.com/content/templates/meta/Static/images/tx/7.jpg

      俊哥,想借用迅雷一用!但需要手机验证!看...

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=3293901900

      感谢大大的分享

    • https://www.vipshare8.com/content/uploadfile/202103/thum-490d1614564497.png

      回复了好奥v:如果没有解析成功,可以切换接口...

    • https://www.vipshare8.com/content/templates/meta/Api/qqtx.php/?qq=131241242441

      现在视频解析网站怎么用不了啦?

  • 网站统计 I 当前在线:508人

    • 本站管理:1位
    • 用户总数:593位
    • 置顶文章:2篇
    • 日志总数:10358篇
    • 微语总数:80条
    • 评论总数:455条
    • 标签总数:83条
    • 页面总数:8页
    • 分类总数:14个
    • 链接总数:16条
    • 运行天数:3723天
    • 最后更新:7月9日
    • 登录
    • 注册
    • 找回
    Copyright © 2025vip共享吧网站地图 网站备案豫ICP备19004194号-1

    免责声明:本站资源仅供用于学习和交流,本站部分素材内容来源于网络,如有侵权/投稿等,请及时联系站长.

    • 首页
    • 秒懂百科 秒懂百科
    • 搜索
    • 史上今日

    大家都在搜

    • swoole
    • 全民娱乐
    • 哔哩哔哩vip会员账号
    • 乐视会员账号共享
    • 聊天app
    • qq音乐vip账号共享
    • 电影抢先看
    • 千图网会员账号共享
    • 网赚网盘
    • 设计素材
    • 华数tv会员账号
    • 小程序
    • 经典句子
    • Java教程
    • 手机赚钱软件
    • redis
    • 
    • 