楼主: howklp

【用Python写爬虫】获取html的方法

[复制链接]
论坛徽章:
1
授权会员
日期:2009-06-22 09:15:49
11#
发表于 2009-5-31 16:10 | 只看该作者
收藏~~

使用道具 举报

回复
论坛徽章:
3
八级虎吧徽章
日期:2009-01-24 11:59:34CTO参与奖
日期:2009-02-20 09:44:20授权会员
日期:2009-03-21 09:19:07
12#
发表于 2009-6-1 09:49 | 只看该作者
收藏~~~

使用道具 举报

回复
论坛徽章:
0
13#
发表于 2009-6-19 21:48 | 只看该作者
获取的web页面内容保存在哪里?

使用道具 举报

回复
论坛徽章:
0
14#
发表于 2009-6-19 22:31 | 只看该作者
# -*- coding: utf-8 -*-
#WebPageContent.py for Python 2.5.4

import urllib
'''Grabing WebPageContent'''
   
def getWebPageContent(url):
      f = urllib.urlopen(url)
      data = f.read()
      f.close()
      return data
   
url = 'http://www.itpub.com'
content = getWebPageContent(url)

#将抓取的网页保存到WebPageContent.txt文件中

WebPageContent = open('G:\\WebPageContent.txt', 'a')
print >>WebPageContent, content
WebPageContent.close()

#指定的是utf-8,可是输出文件后变成ANSI啦,不知道怎么搞!?

使用道具 举报

回复
论坛徽章:
209
蜘蛛蛋
日期:2011-10-13 13:19:01蜘蛛蛋
日期:2011-09-29 14:31:08蜘蛛蛋
日期:2011-10-13 13:19:01蜘蛛蛋
日期:2011-06-15 19:00:28蜘蛛蛋
日期:2011-10-13 13:19:01蜘蛛蛋
日期:2012-05-16 16:46:542016猴年福章
日期:2016-02-23 09:58:34马上有房
日期:2014-02-18 16:42:02法拉利
日期:2013-08-25 17:34:36 2014年世界杯参赛球队: 德国
日期:2014-06-30 23:54:04
15#
发表于 2009-6-28 17:08 | 只看该作者
收藏~~~

使用道具 举报

回复
论坛徽章:
20
奥运会纪念徽章:蹦床
日期:2012-06-15 11:17:34三菱
日期:2013-11-27 11:07:49凯迪拉克
日期:2013-11-26 16:46:46马自达
日期:2013-11-07 08:41:49马自达
日期:2013-11-06 11:51:40红旗
日期:2013-11-06 00:17:58一汽
日期:2013-11-06 00:01:02雪铁龙
日期:2013-11-01 13:34:26宝马
日期:2013-10-28 11:47:30问答徽章
日期:2013-10-26 21:18:18
16#
发表于 2009-7-24 17:14 | 只看该作者
看来python 还是很强大的,值得学习下!

使用道具 举报

回复
论坛徽章:
212
现任管理团队成员
日期:2012-01-16 14:02:09马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:202012欧洲杯之星
日期:2012-07-02 11:27:02奥运会纪念徽章:射击
日期:2012-06-27 15:36:35NBA季后赛纪念徽章
日期:2012-06-25 12:19:11NBA常规赛纪念章
日期:2012-04-27 16:07:05
17#
发表于 2009-8-1 23:03 | 只看该作者
学习

使用道具 举报

回复
论坛徽章:
33
2011新春纪念徽章
日期:2011-01-25 15:41:012012新春纪念徽章
日期:2012-02-13 15:11:52ITPUB 11周年纪念徽章
日期:2012-10-10 13:11:14兰博基尼
日期:2013-11-04 12:55:50马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上加薪
日期:2014-02-19 11:55:142012新春纪念徽章
日期:2012-02-13 15:11:52
18#
发表于 2009-8-13 10:50 | 只看该作者
原帖由 bubill 于 2009-6-19 22:31 发表
# -*- coding: utf-8 -*-
#WebPageContent.py for Python 2.5.4

import urllib
'''Grabing WebPageContent'''
   
def getWebPageContent(url):
      f = urllib.urlopen(url)
      data = f.read()
      f.close()
      return data
   
url = 'http://www.itpub.com'
content = getWebPageContent(url)

#将抓取的网页保存到WebPageContent.txt文件中

WebPageContent = open('G:\\WebPageContent.txt', 'a')
print >>WebPageContent, content
WebPageContent.close()

#指定的是utf-8,可是输出文件后变成ANSI啦,不知道怎么搞!?



easy_install 一个chartdet包
用chardet.detect(content)看一下编码,然后content.decode(chardet.detect).encode("utf8")转码之后存到文件中

使用道具 举报

回复
论坛徽章:
0
19#
发表于 2009-9-7 10:56 | 只看该作者
呵呵,学习了

使用道具 举报

回复
论坛徽章:
0
20#
发表于 2014-11-22 07:15 | 只看该作者
简洁!thanks

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表