博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网页采集中文乱码问题
阅读量:6261 次
发布时间:2019-06-22

本文共 1170 字,大约阅读时间需要 3 分钟。

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

源码

# -*- coding: utf-8 -*-

"""
Created on Tue Mar 15 08:53:08 2016
采集化工标准补录项目
@author: Administrator
"""
import requests,bs4
text=open("hb.txt",'w',encoding='utf-8')
webpage="http://www.bzwxw.com/html/2016/1988_0116/9.html"
res=requests.get(webpage)
requests.codes.ok

#中文显示全是乱码

res.text

#soup1=bs4.BeautifulSoup(res.text,"lxml",from_encoding="gb18030")

soup1=bs4.BeautifulSoup(res.text,"lxml")

elems=soup1.select('title')

len(elems)
content=elems[0].getText()

#text.write("hello")

text.write(content)

text.close()

 

bs4显示出来是乱码

 

 

查看网页源码

发现charset=gbk,这可能是中文编码

增加一句话res.encoding = 'gbk'

 

 

# -*- coding: utf-8 -*-

"""
Created on Tue Mar 15 08:53:08 2016
采集化工标准补录项目
@author: Administrator
"""
import requests,bs4
text=open("hb.txt",'w',encoding='utf-8')
webpage="http://www.bzwxw.com/html/2016/1988_0116/9.html"
res=requests.get(webpage)
res.encoding = 'gbk'
requests.codes.ok

#中文显示全是乱码

res.text

#soup1=bs4.BeautifulSoup(res.text,"lxml",from_encoding="gb18030")

soup1=bs4.BeautifulSoup(res.text,"lxml")

elems=soup1.select('title')

len(elems)
content=elems[0].getText()

#text.write("hello")

text.write(content)

text.close()

 

发现输出正常

 

而且写入txt的中文也能正常显示

 

转载地址:http://yeqsa.baihongyu.com/

你可能感兴趣的文章
Android 运行时权限库
查看>>
网易漫画Swift混编实践
查看>>
如何针对业务设计架构?——QCon热点专题前瞻
查看>>
你的可用性达标了吗?云端业务性能高可用的深度实践
查看>>
Mozilla开发全新的公开网络API WebXR 来实现增强现实
查看>>
用户超5亿,三年投10亿,开发者如何抢滩支付宝小程序蓝海?
查看>>
[使用 Weex 和 Vue 开发原生应用] 2 编写独立页面
查看>>
Cosmos DB:全球分布式数据库
查看>>
Scrum联盟的新任全球营销副总裁访谈
查看>>
从把事做对到做对的事
查看>>
悟空:用Go语言编写的全文搜索引擎
查看>>
.NET 4.6的RyuJIT编译器中又发现两个严重的Bug
查看>>
Rust发布1.32版本,跟踪、模块化、宏等方面均有改进
查看>>
Go语言开源这九年:它是不是你最喜欢的语言?
查看>>
2017敏捷沙滩大会:完美软件,测量持续交付,以及探索未来
查看>>
Visual Studio 2017 15.6发布
查看>>
使用人工智能测试软件
查看>>
如何基于Kubernetes构建完整的DevOps流水线
查看>>
Rust 1.30带来更多元编程支持,并改进了模块系统
查看>>
【转载】10个Web3D可视化精彩案例
查看>>