java字符集编码的自动识别（字符需要编码机器才能识别）

本文目录一览：

1、JAVA 在抓取网页怎么自动识别它的网页编码
2、java中编码与解码分别指什么？
3、几种判断字符集编码的方法（Java）未完
4、Java: 如何知道一个字符串当前是什么字符集?

JAVA 在抓取网页怎么自动识别它的网页编码

1. 看HttpHeader里面是否有一定的encoding; 或者看HTML页面页面的encoding

meta http-equiv="Content-Language" content="zh-CN" /

meta http-equiv="Content-Type" content="text/html; charset=utf-8" /

2. 如果没抛异常, socket就认为只是一直等待, 不知道是否可以设置超时时间, socket肯定是可以的

java中编码与解码分别指什么？

java中编码：URLEncoder.encode(strUri,"utf-8");

java中解码码：URLDecoder.decode(strUri,"utf-8");

java编码和解码

流读取文件，具有转换编码功能的有：OutputStreamWriter和InputStreamReader，

构造器有如：

InputStreamReader(InputStream in, String charsetName)

创建使用指定字符集的 InputStreamReader。

OutputStreamWriter(OutputStream out, String charsetName)

创建使用指定字符集的 OutputStreamWriter。

处理字符串编码问题：

重新对获取的字符串进行编码：Byte[] bytes = str.getBytes(String encodeCharsetNam);

重新对bytes进行解码，创建新的字符串对象：str = new String(Byte[] bytes,String decodeCharsetName);

一般结合使用：str = new String(str.getBytes(String encodeCharsetName),String decodeCharsetName);

例如：resultName=new String(username.getBytes("ISO-8859-1"),"UTF-8");

还可以加入判断：

if(!Charset.forName("gbk").newEncoder().canEncode(str)){str = new Strin(str.getBytes("ISO-8859-1"),"UTF-8");}else{str = new String(str.getBytes("ISO-8859-1"),"gbk");}

处理请求参数传递编码问题：

java中编码：URLEncoder.encode(strUri,"utf-8");

java中解码码：URLDecoder.decode(strUri,"utf-8");

js中编码：encodeURIComponent(strUri);encodeURI(strUri);escape(str);

js中解码：decodeURIComponent(strUri);decodeURI(strUri);unescape(str);

补充概念：

URI组件：主机、端口、路径、查询参数、片段等。

URI组件分隔符：:/?#[]@,冒号用于分隔协议和主机，/用于分隔主机和路径，?用于分隔路径和查询参数，用于分隔多个查询参数等。

URI中的不安全字符或保留字符： ! * ‘ ( ) ; : @ = + $ , / ? # [ ] 他们具有特殊作用，例如上面的分隔作用。

URI允许出现的字符：只允许包含英文字母（a-zA-Z）、数字（0-9）、-_.~4个特殊字符以及所有保留字符，其他字符均需要经过编码之后才能出现在Url中，比如使用保留字符的原意，而不是特殊作用。

js向java/jsp的编码与解码：

js中编码：encodeURI(encodeURI(strUri));decodeURIComponent(decodeURIComponent(strUri));

java/jsp中解码： java.net.URLDecoder.decode(strUri,"UTF-8");

js中编码两次的问题：如果使用一次编码，在浏览器地址栏里，浏览器认为%是个转义字符，浏览器会把%与%之间的编码值，两位两位取出后进行解码。

然后再传递给处理页面，然后由处理页面进行再次解码，这样前面就缺少了一次编码过程，所以前面需要连续两次编码。

几种判断字符集编码的方法（Java）未完

如果是Java的String对象的话，则一定是Unicode的，这个没有为什么，Java就是这么定的。

我猜你的问题应该是如何判断一段字节流是什么编码类型，对吗？比如一个文件，或是网络上面取下来的一段Byte数组，你需要用一个合适的编码来解析成字符串。

这个让你失望了，没有一个文档化的，确定的方法来判断，只能用测试的方法，这个方法也只是猜测，不能百分百的确定，方法如下：

用常见的编码方式对字节流进行解码，比如Unicode，UTF8， UTF8 without BOM, UTF16, ANSI等等。

对解析的结果进行判断，是不是一个合理的可打印字符，可打印字符最多的解码方式就是最可能的编码了。

如何判断可打印字符？流程如下：把解析好的字符串按照字符进行遍历，把每一个字符转化成Unicode编码，看看这些编码是不是Unicode的支持范围极客。

如果发现有种编码方式都是可打印字符，那么再使用本步骤：对字符串进行分词，分词这个在此不作赘述，你自己再研究一下。分词效果好的就是最可能的编码了。（不过通常到第三步就能搞定了，第四部绝大部分用不着）

Java: 如何知道一个字符串当前是什么字符集?

判断java字符串的字符集有多种方法，我们一一讨论如下：

1、通过把未知编码字符串,用猜想的编码再解码,观察字符串是不是正确还原了。

原理:假如目标编码没有数组中的字符,那么编码会破坏,无法还原。

缺点:假如字符少,而正巧错误的猜想编码中有这种字节,就会出错。

如:new String("tested str".getBytes("enc"),"enc")

2、大多数时候,我们只要判断本地平台编码和utf8,utf8编码相当有规律,所以可以分析是否是utf8,否则使用本地编码。

原理:分析byte[]来判断规律。

缺点:有时,个别本地编码字节在utf8中也会出现,导致出错,需要分析。

如：判断是否utf-8代码：

public static boolean isValidUtf8(byte[] b,int aMaxCount){

int lLen=b.length,lCharCount=0;

for(int i=0;i

byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)

if(lByte=0) continue;//=0 is normal ascii

if(lByte(byte)0xc0 || lByte(byte)0xfd) return false;

int lCount=lByte(byte)0xfc?5:lByte(byte)0xf8?4

:lByte(byte)0xf0?3:lByte(byte)0xe0?2:1;

if(i+lCountlLen) return false;

for(int j=0;j=(byte)0xc0) return false;

}

return true;

}

3.按编码规则,一字字比照。

优点是错物更少,缺点是太费资源。