python爬虫中遇到“\xb5”、“xa0”等字符时报错编码错误的处理方式

时间:2021-01-26 07:55:19

写python爬虫是遇到编码错误 

报错为:

UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 

经过多方查找发现 \xa0是html网页源码中的空格

解决方法

替换掉字符 :replace(u'\xa0', u' ')

下面是一些html中的常见符号

chr 

HexCode  

Numeric  

HTML entity 

"

\x22

"

"

&

\x26

&

&

\x3C

<

<

\x3E

>

>

空格

\xA0

 

 

¡

\xA1

¡

¡

¢

\xA2

¢

¢

£

\xA3

£

£

¤

\xA4

¤

¤

¥

\xA5

¥

¥

¦

\xA6

¦

¦

§

\xA7

§

§

¨

\xA8

¨

¨

©

\xA9

©

©

ª

\xAA

ª

ª

«

\xAB

«

«

¬

\xAC

¬

¬

 

\xAD

­

­

®

\xAE

®

®

¯

\xAF

¯

¯

°

\xB0

°

°

±

\xB1

±

±

²

\xB2

²

²

³

\xB3

³

³

´

\xB4

´

´

µ

\xB5

µ

µ

\xB6

¶

¶

·

\xB7

·

·

¸

\xB8

¸

¸

¹

\xB9

¹

¹

º

\xBA

º

º

»

\xBB

»

»

¼

\xBC

¼

¼

½

\xBD

½

½

¾

\xBE

¾

¾

¿

\xBF

¿

¿

×

\xD7

×

×

÷

\xF7

÷

÷

ƒ

\u0192

ƒ

ƒ

ˆ

\u02C6

ˆ

ˆ

˜

\u02DC

˜

˜

\u2002

 

 

\u2003

 

 

\u2009

 

 

 

\u200C

‌

‌

 

\u200D

‍

‍

 

\u200E

‎

‎

 

\u200F

‏

‏

\u2013

–

–

\u2014

—

—

\u2018

‘

‘

\u2019

’

’

\u201A

‚

‚

\u201C

“

“

\u201D

”

”

\u201E

„

„

\u2020

†

†

\u2021

‡

‡

\u2022

•

•

\u2026

…

…

\u2030

‰

‰

\u2032

′

′

\u2033

″

″

\u2039

‹

‹

\u203A

›

›

\u203E

‾

‾

\u2044

⁄

⁄

\u20AC

€

€

\u2111

ℑ

ℑ

?

\u2113

ℓ

 

\u2116

№

 

\u2118

℘

℘

\u211C

ℜ

ℜ

\u2122

™

™

\u2135

ℵ

ℵ

\u2190

←

←

\u2191

↑

↑

\u2192

→

→

\u2193

↓

↓

\u2194

↔

↔

\u21B5

↵

↵

\u21D0

⇐

⇐

\u21D1

⇑

⇑

\u21D2

⇒

⇒

\u21D3

⇓

⇓

\u21D4

⇔

⇔

\u2200

∀

∀

\u2202

∂

∂

\u2203

∃

∃

\u2205

∅

∅

\u2207

∇

∇

\u2208

∈

∈

\u2209

∉

∉

\u220B

∋

∋

\u220F

∏

∏

\u2211

∑

∑

\u2212

−

−

\u2217

∗

∗

\u221A

√

√

\u221D

∝

∝

\u221E

∞

∞

\u2220

∠

∠

\u2227

∧

∧

\u2228

∨

∨

\u2229

∩

∩

\u222A

∪

∪

\u222B

∫

∫

\u2234

∴

∴

\u223C

∼

∼

\u2245

≅

≅

\u2248

≈

≈

\u2260

≠

≠

\u2261

≡

≡

\u2264

≤

≤

\u2265

≥

≥

\u2282

⊂

⊂

\u2283

⊃

⊃

\u2284

⊄

⊄

\u2286

⊆

⊆

\u2287

⊇

⊇

\u2295

⊕

⊕

\u2297

⊗

⊗

\u22A5

⊥

⊥

\u22C5

⋅

⋅

\u2308

⌈

⌈

\u2309

⌉

⌉

\u230A

⌊

⌊

\u230B

⌋

⌋

\u2329

〈

⟨

\u232A

〉

⟩

\u25CA

◊

◊

\u2660

♠

♠

\u2663

♣

♣

\u2665

♥

♥

\u2666

♦

♦