C#（.net）中按字节数截取字符串最后出现乱码问题的解决

前言

最近需要用到按字节数截取字符串。在网上找了很多方法。

Encoding.Default.GetString采用的Default

Encoding.UTF8.GetBytes采用的是utf-8编码。这样当然是乱码。尤其出现中文时候。

对这类数据处理当然要用统一的编码来处理。下面话不多说了，来一起看看详细的介绍吧

例子：1

				?

									string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));

例子：2

				?

									string strcode="我是小明";

									byte[] buffer=Encoding.UTF8.GetBytes(strcode);

									string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);

实际结果是截取的结尾会出现乱码。原因是最后的字符是多个字节，被不完整的截取了。

改进后的办法如下：

				?

									/// <summary>

									 /// 按字节数截取字符串的方法(比SubString好用)

									 /// </summary>

									 /// <param name="source">要截取的字符串（可空）</param>

									 /// <param name="NumberOfBytes">要截取的字节数</param>

									 /// <param name="encoding">System.Text.Encoding</param>

									 /// <param name="suffix">结果字符串的后缀（超出部分显示为该后缀）</param>

									 /// <returns></returns>

									 public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...")

									 {

									  if(string.IsNullOrWhiteSpace(source) || source.Length == 0)

									  return source;

									  if(encoding.GetBytes(source).Length <= NumberOfBytes)

									  return source;

									  long tempLen = 0;

									  StringBuilder sb = new StringBuilder();

									  foreach(var c in source)

									  {

									  Char[] _charArr = new Char[] { c };

									  byte[] _charBytes = encoding.GetBytes(_charArr);

									  if((tempLen + _charBytes.Length) > NumberOfBytes)

									  {

									   if(!string.IsNullOrWhiteSpace(suffix))

									   sb.Append(suffix);

									   break;

									  }

									  else

									  {

									   tempLen += _charBytes.Length;

									   sb.Append(encoding.GetString(_charBytes));

									  }

									  }

									  return sb.ToString();

									 }

									 /// <summary>

									 /// 按字节数截取字符串的方法(比SubString好用)

									 /// </summary>

									 /// <param name="source">要截取的字符串（可空）</param>

									 /// <param name="NumberOfBytes">要截取的字节数</param>

									 /// <param name="encoding">UTF-8，Unicode，GB2312...</param>

									 /// <param name="suffix">结果字符串的后缀（超出部分显示为该后缀）</param>

									 /// <returns></returns>

									 public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...")

									 {

									  return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix);

									 }

原理很简单，就是截取之前逐个先判断字符是否超出字节长度，如果超出则扔掉整个字符。

在JavaScript里面的Blob对象很容易获取字节长度： var len= new Blob(['字符串']).size;

JS代码是不是比较简洁？

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对服务器之家的支持。

原文链接：https://www.cnblogs.com/xiongzaiqiren/p/9020731.html

秒客网

C#（.net）中按字节数截取字符串最后出现乱码问题的解决

相关文章