Java汉字排序(1)排序前要了解的知识（数组和list的排序接口）

mac2022-07-01 40

对于包含汉字的字符串来说，排序的方式主要有两种：一种是拼音，一种是笔画。

本文就讲述如何实现按拼音排序的比较器(Comparator)。

排序概述

　　在Java中，对一个数组或列表(在本文中统称为集合)中的元素排序，是一个很经常的事情。好在Sun公司在Java库中实现了大部分功能。如果集合中的元素实现了Comparable接口，调用以下的静态(static)方法，就可以直接对集合排序。

// 数组排序的接口// 数组中的元素可以是像int这样的原生类型(primitive type), 也可以是像String这样实现了Comparable接口的类型，这里用type表示。

java.util.Arrays.sort(type[] a);

// 列表排序的接口

java.util.Collections.sort(List<T> list);

　　以上的这些排序方式能满足大部分应用。但集合中的元素没有实现Comparable接口，或者集合中的元素要按一种特别的方式排序，这要怎么办？Sun公司早就想到了，并在Java库中提供上面两个方法的重载。

// 数组排序方法// 数组中的元素可以是像int这样的原生类型(primitive type), 也可以是像String这样实现了Comparable接口的类型，这里用type表示。

public static <T> void sort(T[] a, Comparator<? super T> c)

// 列表排序方法

public static <T> void sort(List<T> list, Comparator<? super T> c)

　　只要实现了Comparator接口，就可以按程序员自己的意思去排序了。对于包含汉字的字符串来说，排序的方式主要有两种：一种是拼音，一种是笔画。汉字是通过一定的编码方式存储在计算机上的，主要的编码有：Unicdoe、GB2312和GBK等。

Unicode 编码中的汉字

　　Unicode中编码表分为两块，一个是基本的，一个是辅助的。现在的大多数操作系统还不支持Unicode中辅助区域中的文字，如WinXp。

在Java中的字符就是Unicode码表示的。对于Unicode基本区域中的文字，用两个字节的内存存储，用一个char表示，而辅助区域中的文字用4个字节存储，因此辅助区域中的就要用两个char来表示了(表一种蓝色底就是辅助区域中的文字)。一个文字的unicode编码，在Java中统一用codePoint(代码点)这个概念。

中文和日文、韩文一样是表意文字，在Unicode中，中日韩三国(东亚地区)的文字是统一编码的。CJK代表的就是中日韩。在这里，我把这3中文字，都作为汉字处理了。(日语和韩语可能就是从汉语中衍生的吧！)

汉字在Unicode中的分布大致如下表：

首字编码尾字编码个数基本汉字U4E00U9FBF20928异性字UF900UFAFF512扩展AU3400U4D8F512扩展BU20000U2A6DF42720补充U2F800U2FA1F544其他 ...

表一

在这些编码区间，有些编码是保留的。

GB2312编码

　　GB2312是中华人民共和国最早的计算机汉字编码方式。大概有6000多个汉字，这些汉字是按拼音顺序编码的。这6000多个汉字都是简体中文字。

GBK编码

　　GB2312的扩展，并兼容GB2312。扩展后的汉字大概有2万多个，其中有简体汉字也有繁体汉字。

转载于:https://www.cnblogs.com/sjjg/p/4928762.html

最新回复(0)