在Python中处理乱码文件时,经常会遇到编码错误。 您可能需要添加错误=' ignore '参数来忽略错误。 今天我们将分享如何用Python删除这些乱码以获得漂亮的文件。
先想想吧。 以二进制方式打开文件,避免出现编码问题,然后读取每个字节。 如果该字节不在我们使用编码的范围内,则将其踢开,保存剩下的字节。 我们得到的是漂亮的文件。
例如,这种ascii编码文件包含乱码。
之后如下。
代码写得如下:
importstructdefis_good_byte(b ) : ' '可以自定义什么是好字节。 例如,可以在此定义GBK的字节范围。 ' ' returnb=127defclean_bytes ) bs ) 3360reteturnb )。 bs ) def clean _ file _ TMD XSS (: withopen (' names.txt ),mode='rb ' ) asreader:withopen ) ' cleaned_namopen mode=' WB ' (as writer : forlineinreader : forbyteinclean _ bytes (line ) :writer.write(struct.pack ) ) ) b ' 对于多字节编码,可以自行修改代码逻辑,例如一次读取3个字节
中文和英语混合使用时,例如:
x'abc中国' x.encode(gbk ' ) b'ABC(XD6 ) XD0 ) XB9 ) xfa ) fori inx.encode (: print ) I ) . 990删除的依据,不再是乱码
今天的共享到此为止。 有收获的话请称赞我哦。