博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个小小的百度贴吧爬虫(Python)
阅读量:5060 次
发布时间:2019-06-12

本文共 628 字,大约阅读时间需要 2 分钟。

整个爬虫十分的简单。
但是我再写他的过程中,可能是由于我看基础的时候不太仔细,再raw_input()括号里面没有加入(u'string')...导致乱码。
在看了一下午的python之后,终于开始写爬虫了。
我这次写的爬虫很简单。
下载百度贴吧指定页数的HTML。
废话不多说,让我们开始吧。主要的模块只有一个 urllib2
import string,urllib2def a(url,bgp,ep):    for i in range(bgp,ep):        sName = string.zfill(i,5)+'.html' #自动补全为五位0000X的html文件名        print('downloading the'+str(i)+'page')        f = open(sName,'w+')        m = urllib2.urlopen(url+str(i)).read()        f.write(m)        f.close        burl = str(raw_input(u'请输入百度贴吧地址,去掉页数\n'))bgp1 = int(raw_input(u'请输入开始页数'))ep1 = int(raw_input(u'请输入结束页数'))a(burl,bgp1,ep1)
 

转载于:https://www.cnblogs.com/verain/p/4524546.html

你可能感兴趣的文章
web服务器
查看>>
js数组操作大全
查看>>
创业者要处理好的10大关系
查看>>
佛教和道教对“妖”的差异
查看>>
[TimLinux] Python IDE工具
查看>>
[TimLinux] Python Django与WSGI的简介
查看>>
从其它系统登录到SharePoint 2010系统的单点登录
查看>>
ElMAH(ASP.NET错误日志记录与通知)系列文章-基础应用篇
查看>>
pexpect学习阶段
查看>>
做最多的,展示最好的
查看>>
会员未登录显示ID=1的会员信息 解决方案
查看>>
Git与Repo入门(转载)
查看>>
夺命雷公狗---linux NO:10 linux的文件与目录的基本操作
查看>>
Count the string
查看>>
poj 1438--One-way Traffic(边的双连通)
查看>>
vue 城市列表与字母表联动
查看>>
一段js代码解决网页内容无法复制的问题
查看>>
JS九大内置对象
查看>>
144 Binary Tree Preorder Travesal
查看>>
Linux信号实践(5) --时间与定时器
查看>>