查看: 23829|回复: 21

【用Python写爬虫】获取html的方法

[复制链接]
论坛徽章:
0
跳转到指定楼层
1#
发表于 2008-6-13 16:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
【用Python写爬虫】获取html的方法【一】:使用urllib

个人觉得,Python是一种让编程人员非常自在的语言。脚本性,实时性,开源性..........无不信手拈来。用Python书写爬虫更是如此。


  
     在此处没有语法介绍,没有hello world.....,只有应用,只有代码


   
  # -*- coding: UTF-8 -*-
  import urllib
  
  ' 获取web页面内容并返回'
  def getWebPageContent(url):
      f = urllib.urlopen(url)
      data = f.read()
      f.close()
  return data
   
  url = 'http://www.itpub.net'
  content = getWebPageContent(url)
  print content

[ 本帖最后由 howklp 于 2008-6-13 16:34 编辑 ]
论坛徽章:
0
2#
 楼主| 发表于 2008-6-13 16:30 | 只看该作者

【用Python写爬虫】获取html的方法【二】:使用pycurl

# Pycurl参考地址:http://pycurl.sourceforge.net/
# Pycurl下载地址:http://pycurl.sourceforge.net/download/pycurl-7.18.1.tar.gz


# -*-coding: UTF-8 -*-
import pycurl
import
StringIO


def
getURLContent_pycurl(url):



c = pycurl.Curl()

c.setopt(pycurl.URL,url)

b = StringIO.StringIO()

c.setopt(pycurl.WRITEFUNCTION, b.write)

c.setopt(pycurl.FOLLOWLOCATION, 1)

c.setopt(pycurl.MAXREDIRS, 5)

# 代理

#c.setopt(pycurl.PROXY, 'http://11.11.11.11:8080')

#c.setopt(pycurl.PROXYUSERPWD, 'aaa:aaa')

c.perform()

return b.getvalue()


url = 'http://www.itpub.net'
content = getURLContent_pycurl(url)
print
content


[ 本帖最后由 howklp 于 2008-6-13 16:33 编辑 ]

使用道具 举报

回复
论坛徽章:
5
奥运会纪念徽章:摔跤
日期:2008-07-02 08:48:392009日食纪念
日期:2009-07-22 09:30:00优秀写手
日期:2013-12-18 09:29:11SQL数据库编程大师
日期:2016-01-13 10:30:43SQL大赛参与纪念
日期:2016-01-13 10:32:19
3#
发表于 2008-6-30 01:11 | 只看该作者
不错

使用道具 举报

回复
论坛徽章:
0
4#
发表于 2008-7-10 06:13 | 只看该作者
简洁!

使用道具 举报

回复
论坛徽章:
0
5#
发表于 2009-2-16 02:13 | 只看该作者
问下两种方式有啥区别吗?

使用道具 举报

回复
论坛徽章:
4
6#
发表于 2009-2-16 13:07 | 只看该作者
语法而已

使用道具 举报

回复
论坛徽章:
3
2009新春纪念徽章
日期:2009-01-04 14:52:28生肖徽章2007版:牛
日期:2009-03-10 21:26:49ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:20
7#
发表于 2009-3-1 19:37 | 只看该作者
强!!!!!!!!!!!!!!!!

使用道具 举报

回复
论坛徽章:
2
8#
发表于 2009-3-16 23:46 | 只看该作者
收藏,直接套用

使用道具 举报

回复
论坛徽章:
4752
季节之章:冬
日期:2019-07-13 22:29:26季节之章:春
日期:2019-07-13 22:29:26季节之章:夏
日期:2019-07-13 22:29:26季节之章:秋
日期:2019-07-13 22:29:26嫦娥
日期:2019-08-03 07:05:29玉石琵琶
日期:2019-08-03 08:17:02铁扇公主
日期:2019-08-03 21:12:36九尾狐狸
日期:2019-08-05 21:05:25玉石琵琶
日期:2019-08-06 06:36:05玉兔
日期:2019-08-06 16:05:50
9#
发表于 2009-5-4 23:56 | 只看该作者
很简洁。

使用道具 举报

回复
论坛徽章:
236
BLOG每日发帖之星
日期:2010-08-11 01:01:02BLOG每日发帖之星
日期:2010-08-12 01:01:01BLOG每日发帖之星
日期:2010-08-13 01:01:01BLOG每日发帖之星
日期:2010-08-15 01:01:02BLOG每日发帖之星
日期:2010-08-16 01:01:01BLOG每日发帖之星
日期:2010-08-17 01:01:02BLOG每日发帖之星
日期:2010-08-18 01:01:01BLOG每日发帖之星
日期:2010-08-19 01:01:01BLOG每日发帖之星
日期:2010-08-20 01:01:01BLOG每日发帖之星
日期:2010-08-22 01:01:01
10#
发表于 2009-5-9 17:30 | 只看该作者
很多网站讨厌爬虫

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表