网页采集中文乱码问题-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

网页采集中文乱码问题

阅读量：6261 次

发布时间：2019-06-22

本文共 1170 字，大约阅读时间需要 3 分钟。

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

源码

# -*- coding: utf-8 -*-

"""

Created on Tue Mar 15 08:53:08 2016

采集化工标准补录项目

@author: Administrator

"""

import requests,bs4

text=open("hb.txt",'w',encoding='utf-8')

webpage="http://www.bzwxw.com/html/2016/1988_0116/9.html"

res=requests.get(webpage)

requests.codes.ok

#中文显示全是乱码

res.text

#soup1=bs4.BeautifulSoup(res.text,"lxml",from_encoding="gb18030")

soup1=bs4.BeautifulSoup(res.text,"lxml")

elems=soup1.select('title')

len(elems)

content=elems[0].getText()

#text.write("hello")

text.write(content)

text.close()

bs4显示出来是乱码

查看网页源码

发现charset=gbk,这可能是中文编码

增加一句话res.encoding = 'gbk'

# -*- coding: utf-8 -*-

"""

Created on Tue Mar 15 08:53:08 2016

采集化工标准补录项目

@author: Administrator

"""

import requests,bs4

text=open("hb.txt",'w',encoding='utf-8')

webpage="http://www.bzwxw.com/html/2016/1988_0116/9.html"

res=requests.get(webpage)

res.encoding = 'gbk'

requests.codes.ok

#中文显示全是乱码

res.text

#soup1=bs4.BeautifulSoup(res.text,"lxml",from_encoding="gb18030")

soup1=bs4.BeautifulSoup(res.text,"lxml")

elems=soup1.select('title')

len(elems)

content=elems[0].getText()

#text.write("hello")

text.write(content)

text.close()

发现输出正常

而且写入txt的中文也能正常显示

转载地址：http://yeqsa.baihongyu.com/

你可能感兴趣的文章

Android 运行时权限库

网易漫画Swift混编实践

如何针对业务设计架构？——QCon热点专题前瞻

你的可用性达标了吗？云端业务性能高可用的深度实践

Mozilla开发全新的公开网络API WebXR 来实现增强现实

用户超5亿，三年投10亿，开发者如何抢滩支付宝小程序蓝海？

[使用 Weex 和 Vue 开发原生应用] 2 编写独立页面

Cosmos DB：全球分布式数据库

Scrum联盟的新任全球营销副总裁访谈

从把事做对到做对的事

悟空：用Go语言编写的全文搜索引擎

.NET 4.6的RyuJIT编译器中又发现两个严重的Bug

Rust发布1.32版本，跟踪、模块化、宏等方面均有改进

Go语言开源这九年：它是不是你最喜欢的语言？

2017敏捷沙滩大会：完美软件，测量持续交付，以及探索未来

Visual Studio 2017 15.6发布

使用人工智能测试软件

如何基于Kubernetes构建完整的DevOps流水线

Rust 1.30带来更多元编程支持，并改进了模块系统

【转载】10个Web3D可视化精彩案例

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-09 11:17:18 当前IP: 3.145.12.185 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我