浅谈iOS开发中多语言的字符串排序

时间:2022-08-09 22:44:34

一、前言

在iOS开发中,一个经常的场景是利用tableview展示一组数据,以很多首歌曲为例子。为了便于查找,一般会把这些歌曲按照一定的顺序排列,还会加上索引条以便于快速定位。
由于歌曲名可能有数字、中文、英文、韩文、日文等,要处理多语言文字的排序,有两个问题

  1. 对歌曲名进行排序时的规则是什么呢?知道了规则以后,应该调用哪个函数呢?
  2. 如何获取每一首歌名的索引项呢?

二、多语言排序的规则

Objective C 中字符串使用NSString这个类表示,每一个NSString其实就是若干UTF–16 code unit排列起来。而UTF-16其实是Unicode这个组织指定的一种编码方法,那么Unicode有没有指定一个通用的排序方法呢?通过搜索,找到了这篇文档

This report is the specification of the Unicode Collation Algorithm (UCA), which details how to compare two Unicode strings while remaining conformant to the requirements of the Unicode Standard. The UCA also supplies the Default Unicode Collation Element Table (DUCET) as the data specifying the default collation order for all Unicode characters.

也就是说Unicode通过文档指定了Unicode字符—也是iOS处理字符串的方式—排序的规则。
其中提到指定不同的语言或地区 (different languages or locales),最终排列的顺序也会不一样。

三、系统提供的字符串排序函数

Localized string comparisons are based on the Unicode Collation Algorithm, as tailored for different languages by CLDR (Common Locale Data Repository).

根据文档,系统已经帮我们实现了Unicode指定的排序算法,不过需要我们指定一个语言或地区。
系统为NSString提供了两个函数- compare:,以及更加参数化的函数- compare:options:range:locale:
第一个函数会调用第二个函数,传入一些默认参数值。其中locale参数会传入nil
我们以一个例子比较一下这两个函数比较多语言字符串时的区别。

- (void)testExample
{
NSArray *rawArray = @[@"右手",@"边城",@"重庆",@"区别",@"重要",@"行伍",@"区别",@"行走",@"nia",@"niz",@"a",@"z",@"32",@"laLa",@"la La",@"la{La",@"la<La",@"la3La"];
[SortString defaultSort:rawArray];
[SortString localSort:rawArray];
} + (void)defaultSort:(NSArray<NSString*> *)stringsToSort
{ NSArray *sortedArray = [stringsToSort sortedArrayUsingComparator:^NSComparisonResult(NSString * _Nonnull obj1, NSString * _Nonnull obj2) {
return [obj1 compare:obj2 options:NSCaseInsensitiveSearch];
}];
NSLog(@"after %@ , result is %@",NSStringFromSelector(_cmd),sortedArray);
} + (void)localSort:(NSArray<NSString*> *)stringsToSort
{
NSLocale *locale=[[NSLocale alloc] initWithLocaleIdentifier:@"zh_CN"];
NSArray *sortedArray = [stringsToSort sortedArrayUsingComparator:^NSComparisonResult(NSString * _Nonnull obj1, NSString * _Nonnull obj2) {
NSRange string1Range = NSMakeRange(0, [obj1 length]);
return [obj1 compare:obj2 options:0 range:string1Range locale:locale];
}];
NSLog(@"after %@ , result is %@",NSStringFromSelector(_cmd),sortedArray);
}

结果如下

2017-01-23 20:14:22.318 testStringSort[40716:4054566] after defaultSort: , result is (32,a,la La,la3La,la<La,laLa,la{La,nia,niz,z,区别,区别,右手,行伍,行走,边城,重庆,重要,)
2017-01-23 20:14:22.319 testStringSort[40716:4054566] after localSort: , result is (32,边城,重庆,区别,区别,行伍,行走,右手,重要,a,la La,la{La,la<La,la3La,laLa,nia,niz,z,)

有几个不同之处

  1. 数字、英文、中文顺序不同
    默认的是数字、英文、中文。指定地区信息的顺序是数字、中文、英文,这符合我们的一般顺序,和苹果自带的通讯录软件也相同。
    默认是数字、英文、中文的顺序是因为在Unicode的编码中,数字在英文前面,英文又在中文前面。
  2. “边城”、“右手”这两个字符串顺序不同
    默认的排序方法,顺序是“右手”、“边城”。指定地区信息的顺序是“边城”、“右手”,和汉语拼音的顺序一致。
    由于“右”的Unicode编码是U+53F3,“边”的Unicode编码是U+8FB9,比U+53F3大,所以被排到了“右”的后面。实际上,常用的汉字编码都在Unicode的基本多语言平面 (Basic Multilingual Plane) 上,而这些汉字的编码顺序是按照部首排序的,而不是拼音顺序。因此使用默认的排序方法会很混乱。
  3. 汉语多音字处理

    1. 识别成功的例子:“重 (chóng) 庆”、“重 (zhòng)要”
      指定地区信息以后,成功的把“右手”放在了“重庆”、“重要”之间。
    2. 识别失败的例子:“行 (háng) 伍”、“行 (xíng) 走”
      区 (qū) 别、行 (háng) 伍、行 (xíng) 走,显然是不符合汉语拼音顺序的。

    可见对于某些多音字,指定了地区信息以后,系统甚至可以识别成功!对于另一些,系统还做不能识别成功。

  4. 特殊字符的顺序不同
    按照ASCII码,空格、数字、< 、大写字母、{ 依次递增,默认排序方法的结果也印证了这一点。
    指定了地区信息以后,排序结果是空格、{ 、< 、数字、大写字母,有了一定变化。

从上面结果可以看出,排序时不要用默认的比较方法,要用指定了地区的排序方法。

其他函数

系统提供了一个函数- localizedStandardCompare:,根据注释,其排序结果和Finder一样,根据需要,也可选择这个函数。

This method should be used whenever file names or other strings are presented in lists and tables where Finder-like sorting is appropriate. The exact sorting behavior of this method is different under different locales and may be changed in future releases. This method uses the current locale.

三、获取字符串的索引项

系统专门提供了一个类UILocalizedIndexedCollation来帮助我们完成这项工作。

The UILocalizedIndexedCollation class is a convenience for organizing, sorting, and localizing the data for a table view that has a section index.

此外,苹果还提供了一个例子,解释了UILocalizedIndexedCollation的用法。

四、另一个常用却有问题的方法

网上的另一个方法是把BMP中的汉字的拼音首字母全部列出来,以数组方式存储。得到汉字以后,把对应的Unicode值减去第一个汉字的Unicode值,得到一个值,把这个值作为下标,从数组中取得对应的拼音首字母。
这么做有几个缺点

  1. 汉字不仅分布在BMP,也分布在扩展平面,这个方法无法处理扩展平面的汉字。扩展平面的汉字虽然不常用,但总有用到的可能。
  2. 当拼音首字母相同时,无法处理两个字的顺序。
    比如汉字"你"和汉字"您"的拼音首字母都是“n”,这个方法就只能按照Unicode编码顺序排列了,在BMP中,也就是部首序。

五、总结

既然系统提供了方法,我们最好还是按照系统的方法来实现好了。
1. 指定地区,让系统处理多语言字符串的排序工作。
2. 利用UILocalizedIndexedCollation类,获取字符的索引。

六、参考

  1. NSString 与 Unicode
  2. Objective-C 中文 按拼音全排序
  3. UNICODE COLLATION ALGORITHM
  4. Internationalizing Your Code
  5. Language and Locale IDs
  6. UILocalizedIndexedCollation
  7. UITableView Fundamentals for iOS
  8. YUChineseSorting

浅谈iOS开发中多语言的字符串排序的更多相关文章

  1. 浅谈iOS开发中方法延迟执行的几种方式

    Method1. performSelector方法 Method2. NSTimer定时器 Method3. NSThread线程的sleep Method4. GCD 公用延迟执行方法 - (vo ...

  2. 浅谈iOS开发的协议&lpar;protocol&rpar;和代理&lpar;delegate&rpar;

    协议和代理对于一个新手来说确实不讨好理解,也有很多的iOS开发的老手对此是懂非懂的.网上的很多博文只是讲了怎么使用,并没有说的很明白.下面我谈一下我的理解. 1.你要先搞明白,协议和代理为什么会出现, ...

  3. 浅谈Web开发中的定时任务

    曾经做过Windows server下的定时任务的业务,最近又做了一些Linux下使用Crontab做的定时任务的业务,觉得有必要进行一次小结,于是有了如下这篇文章. Windows Server下 ...

  4. 浅谈iOS视频开发

     浅谈iOS视频开发 这段时间对视频开发进行了一些了解,在这里和大家分享一下我自己觉得学习步骤和资料,希望对那些对视频感兴趣的朋友有些帮助. 一.iOS系统自带播放器 要了解iOS视频开发,首先我们从 ...

  5. 浅谈iOS中MVVM的架构设计与团队协作

    说到架构设计和团队协作,这个对App的开发还是比较重要的.即使作为一个专业的搬砖者,前提是你这砖搬完放在哪?不只是Code有框架,其他的东西都是有框架的,比如桥梁等等神马的~在这儿就不往外扯了.一个好 ...

  6. IOS中 浅谈iOS中MVVM的架构设计与团队协作

    今天写这篇文章是想达到抛砖引玉的作用,想与大家交流一下思想,相互学习,博文中有不足之处还望大家批评指正.本篇文章的内容沿袭以往博客的风格,也是以干货为主,偶尔扯扯咸蛋(哈哈~不好好工作又开始发表博客啦 ...

  7. 浅谈iOS中MVVM的架构设计与团队协作【转载】

    今天写这篇文章是想达到抛砖引玉的作用,想与大家交流一下思想,相互学习,博文中有不足之处还望大家批评指正.本篇文章的内容沿袭以往博客的风格,也是以干货为主,偶尔扯扯咸蛋(哈哈~不好好工作又开始发表博客啦 ...

  8. 浅谈iOS中的userAgent

    浅谈iOS中的userAgent   User-Agent(用户代理)字符串是Web浏览器用于声明自身型号版本并随HTTP请求发送给Web服务器的字符串,在Web服务器上可以获取到该字符串. 在公司产 ...

  9. 浅谈 iOS 中的 Activity Indicator

    Activity Indicator 是iOS开发中必不可少的一个视图.本文就简单地总结一下这个Activity Indicator 的使用方法. 默认 Activity Indicator 以下的函 ...

随机推荐

  1. Struts2之类型转换器

    一.类型转换器的应用场景 类型转换是OGNL的一部分,默认的八种基本类型.String.Date会使用类型转换,但是更复杂的类型转换就需要我们自定义了(虽然这个东西一般根本用不到),OGNL可以应用在 ...

  2. SpringMVC关于json、xml自动转换的原理研究

    SpringMVC是目前主流的Web MVC框架之一. 如果有同学对它不熟悉,那么请参考它的入门blog:http://www.cnblogs.com/fangjian0423/p/springMVC ...

  3. CSS&period;06 -- 尚合网页模拟

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  4. 如何在BIOS里设置定时关机?

    如何在BIOS里设置定时关机? 通过CMOS设置实现定时开机的设置过程如下: 首先进入"CMOS SETUP"程序(大多数主板是在计算机启动时按DEL键进入): 然后将光条移到&q ...

  5. Bandit Wargame Level12 Writeup

    Level Goal The password for the next level is stored in the file data.txt, which is a hexdump of a f ...

  6. linux dhcp 设置路由及主机名

    自动获取ipDHCP方式获取ip:dhclient [网络接口]释放通过DHCP获取的ip地址:dhclient -r [网络接口]查看网络接口 ifconfig -a(列出所有接口含禁用的) eth ...

  7. Java根据子节点递归父节点

    先上数据库结构图和树形图: 项目中的一个需求是获取一个商品所属的二级分类名称. 思路分析,首先,我们是可以拿到当前商品所属的子分类的,比如说我买的是一个iPhone SE,对应的分类名称是 iPhon ...

  8. JavaScript日历(es5版本)

    近期在知乎上看到这么一个帖子,题主说自己JavaScript都学完了,结果老师留的作业还是不会写,就是写一个日历的插件,结果楼下一堆大牛出现了,百度的阿里的纷纷站出来发表自己的看法,有人认为简单,有人 ...

  9. Kubernetes图形化归纳总结基础介绍整理

    今天了解了下k8s,看了很多资料,自己归纳总结下,如果需要测试集群的话需要准备三台Linux服务器,一台做Master,其余两台作为Node仆从(MINION)节点, 先说下Node节点,就是宿主机器 ...

  10. 多线程系列四:AQS-AbstractQueuedSynchronizer

    什么是AbstractQueuedSynchronizer?为什么我们要分析它?  AQS:抽象队列同步器,原理是:当多个线程去获取锁的时候,如果获取锁失败了,当前线程就会被打包成一个node节点放入 ...