压缩与解压缩技术 这里提出一种专门针对ASCII码(英文及英文标点)的压缩技术:对文本文件中的字符,按照出现频度大小,将出现频度最大的字符,用最少的二进制位表达(替换); 比如:假设某文件中,字母e出现了304325次,每一个e都应该是一个ASCII码,即,占用8bit;若能用2个bit的信息替换,则,可以省304325bit * (8-2) = 228243Byte 304325 * 2 / 8 = 76082 76081 / 304325 = 0.25 假设,有如下字符及其出现频度: a 2 b 8 c 1 d 7 e 20 f 3 那么我们就可以形成一棵哈夫曼树,如下图所示: 其形成的原理是:先找出两个出现频度最小的,作为左右孩子,然后将两者频度之和作为根节点;再找出频度第三小的,作为左孩子,与刚才的根节点形成左右孩子,依此类推,形成一棵哈夫曼树。令:向左为0;向右为1,从根出发,到达某一个叶子节点的0、1集合,就是那个叶子节点所表示的字符对应的哈夫曼编码。 e:0 b:10 d:110 f:1110 c:11110 a:11111 而哈夫曼压缩与解压缩要解决的第一个问题就是:统计给定字符串(文件)中出现的字符种类及其频度。
哈夫曼压缩与解压缩 1.针对文件进行压缩和解压缩;即,输入是文件,输出也是文件; 2.针对文件进行操作: 2.1统计该文件中出现的不同字节(应该只能使用:unsigned char 类型!!!)及其频度; 2.2根据上述统计数据,构造哈夫曼树; 2.3根据上述哈夫曼树,构造每一个字节的哈夫曼编码; 2.4将文件中的字节,转换成哈夫曼编码; 3.将由哈夫曼编码形成的最终压缩文件作为输出。 综上,结构体应定义为:
typedef struct TREE{ char ch; int freq; struct TREE *leftChild; struct TREE *rightChild; }TREE;其实大致思路就是这样,其中最关键的就是,先形成一个表,再由表形成树,具体怎么实现,还是直接上代码吧!!! github:https://github.com/xiami-maker/aboutHuffman/tree/master
感悟:对于哈夫曼压缩和解压缩,主要是对于哈夫曼树的应用,还有一些思想:把压缩和解压缩过程做成工具以便代码复用,方便阅读,减少编程量,采用文件的形式来存放更具有实际意义等。需要读者浏览代码的过程中,自行体会。