《算法导论》16.3 赫夫曼编码（含C++代码）

一、问题背景

1、赫夫曼算法是一种可以有效压缩数据的算法。假定我们希望压缩一个10万个字符的数据文件。图16-3给出了文件中所出现的字符和它们的出现频率。也就是说，文件中只出现了6个不同字符，其中字符a出现了45 000次。
在这里插入图片描述
2、我们有很多方法可以表示这个文件的信息。在这里，我们考虑一种二进制字符编码(或简
称编码)的方法，每个字符用一个唯一的二进制串表示，称为码字。如果使用定长编码，需要用3位来表示6个字符: a=000， b=001，…，f=101。这种方法需要300 000个二进制位来编码文件。是否有更好的编码方案呢?
变长编码(variable-lengthcode)可以达到比定长编码好得多的压缩率，其思想是赋予高频字
符短码字，赋予低频字符长码字。图16-3显示了本例的一种变长编码: 1位的串0表示a，4位
的串1100表示f。因此，这种编码表示此文件共需
在这里插入图片描述
很明显就有所优化。
3、前缀码，即没有任何码字是其他码字的前缀，它可以保证最优的数据压缩率。将abc连接起来等同于上面图中变长码连接起来，即0101100。前缀码是没有歧义的，比如001011101解码只是aabe。
4、截取码字很容易，可以通过二叉树，0意味着转向左孩子，1意味着转向右孩子。
在这里插入图片描述
5、文件的最优编码方案总是对应一棵满二叉树，即每个非叶结点都有两个孩子结点。前文给出的定长编码实例不是最优的，因为它的二叉树表示并非满二叉树，如图16-4(a)所示：它包含以10开头的码字，但不包含以11开头的码字。现在我们可以只关注满二叉树了，因此可以说，若C为字母表且所有字符的出现频率均为正数，则最优前缀码对应的树恰有|C|个叶结点，每个叶结点对应字母表中一个字符，且恰有|C|-1 个内部结点。

二、构造赫夫曼编码

在下面给出的伪代码中，我们假定C是一个n个字符的集合，而其中每个字符c∈C都是一个对象，其属性c.freq给出了字符的出现频率。算法自底向上地构造出对应最优编码的二叉树T。它从|C|个叶结点开始，执行|C|-1个“合并”操作创建出最终的二叉树。
算法使用一个以属性freq为关键字最小优先队列Q，以识别两个最低频率的对象将其合并（可以观察图16-4的b图，最末端的叶结点一定是最小的两个频率）。当合并两个对象时，得到的新对象的频率设置为原来两个对象的频率之和。

HUFFMAN(C)
n = |C|
Q = C	//用C中字符初始化最小优先队列
for i = 1 to n-1	//n-1次合并频率最小的两个元素
	allocate a new node z
	z.left = x = EXTRACT-MIN(Q)		//xy作为左右孩子顺序是任意的
	z.right = y = EXTRACT-MIN(Q)
	z.freq = x.freq + y.freq	
	INSERT(Q,z)
return EXTRACT-MIN(Q)
1
2
3
4
5
6
7
8
9
10

在这里插入图片描述

三、验证算法正确性（拓展一下，姑且截图）

在这里插入图片描述

四、C++代码

#include 
using namespace std;
#include 
#include 
//代表赫夫曼树结点的结构体
struct HTNode
{
    int weight;
    int parent;
    int lchild, rchild;
    HTNode(int val = 0) : weight(val)
    {
        parent = 0;
        lchild = -1;
        rchild = -1;
    }
};
struct Elem
{
    char ch;   //存储字符
    int frequence; //出现的频率
};

//计算每个字符出现的频率
vector<Elem> CntFrequenceOfLetter(string str)
{
    vector<Elem> InfoList; //存储字符频率信息
    if (str.size() == 0)
        return InfoList;
    sort(str.begin(), str.end());//排序字符串
    char s = str[0];
    int frequence = 0;
    for (int i = 0; i < str.size(); i++)
    {
        if (str[i] != s)
        {
            //将统计的信息存入结构体
            Elem letter;
            letter.ch = s;
            letter.frequence = frequence;
            InfoList.push_back(letter);     //将元素存入数组中
            //开始统计下一个字符
            s = str[i];
            frequence = 1;
        }
        else
        {
            frequence++;
        }
        //如果为最后一个字符，不管是和前面一个字符相同还是不相同，都进行收尾
        if (i == str.size() - 1)
        {
            //将统计的信息存入结构体
            Elem letter;
            letter.ch = s;
            letter.frequence = frequence;
            InfoList.push_back(letter);
        }
    }
    return InfoList;
}

//从森林中选择权重最小的两棵树
void SelectTree(vector<HTNode>& T, int* s1, int* s2)
{
    int min = INT_MAX;
    //选出第一小的
    for (int i = 0; i < T.size(); i++)
    {
        if (T[i].parent == 0 && T[i].weight <= min)
        {
            min = T[i].weight;
            *s1 = i;
        }
    }
    min = INT_MAX;  //MAX为全局变量
    //选出第二小的
    for (int i = 0; i < T.size(); i++)
    {
        if (T[i].parent == 0 && T[i].weight < min && *s1 != i)
        {
            min = T[i].weight;
            *s2 = i;
        }
    }
}

//构造赫夫曼树
vector<HTNode> CrtHuffmanTree(vector<Elem> InfoList)
{
    vector<HTNode> HTNodeList(InfoList.size());
    if (HTNodeList.size() == 0) {
        return HTNodeList;
    }
    else
    {
        for (int i = 0; i < InfoList.size(); i++)
        {
            HTNodeList[i].weight = InfoList[i].frequence;
        }
        for (int j = InfoList.size(); j < 2 * InfoList.size() - 1; j++)
        {
            int s1 = 0, s2 = 0;
            //找到森林中权重最小的树
            SelectTree(HTNodeList, &s1, &s2);
            //cout << s1 << " " << s2 << endl;
            //合并成新结点
            HTNode NewNode(HTNodeList[s1].weight + HTNodeList[s2].weight);  //权重更新
            NewNode.lchild = s1;    //父子关系创建
            NewNode.rchild = s2;
            HTNodeList[s1].parent = HTNodeList.size();  //通过size确认父结点的下标，如第一次循环（6种元素），那么父结点刚好变成list[6]
            HTNodeList[s2].parent = HTNodeList.size();
            //cout <<"HTNodeList.size:" << HTNodeList.size() << endl;
            HTNodeList.push_back(NewNode);
        }
    }
    return HTNodeList;
}

//生成赫夫曼编码
void CrtHuffmanCode(vector<Elem> list1, vector<HTNode> list2)
{
    vector<int> code;
    for (auto i = 0; i < list1.size(); i++)
    {
        cout << list1[i].ch << ": ";
        auto crr = i;   //crr的作用是记录i，从而在list2先从最底层的结点开始遍历
        while (list2[crr].parent != 0)
        {
            auto parent = list2[crr].parent;    //将parent赋值为该结点的parent
            if (crr == list2[parent].lchild)
                code.push_back(0);
            else if (crr == list2[parent].rchild)
                code.push_back(1);
            crr = list2[crr].parent;    //crr更新成父结点
        }
        //反向遍历容器
        for (auto it = code.rbegin(); it != code.rend(); ++it)
        {
            cout << *it << " ";
        }
        cout << endl;
        code.clear();
    }
}

int main()
{
    string s = "AAABBBBCCCCCCCCCCDDDDDDDDEEEEEEFFFFF";// 3 4 10 8 6 5
    auto list = CntFrequenceOfLetter(s);    //先算出对应元素的频率，返回一个数组
    auto TreeList = CrtHuffmanTree(list);
    CrtHuffmanCode(list, TreeList);
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153

相关阅读:
前端：练习页面，（致美页面练习）
【python中级】linux系统获得计算机网卡流量
 Taro 项目怎么获取元素的高度和视口高度
 JAVA多线程技术-线程的生命周期
 新一轮SocialFi浪潮来袭，Atem Network 再次打响注意力争夺战
 Try microcloud (by quqi99)
【SpringMVC】JSON数据返回及异常处理（相信我看完就懂的差不多了）
HTTP协议
 68 - 令人迷惑的写法
 『微信小程序』从0到1常用组件
原文地址：https://blog.csdn.net/m0_61843614/article/details/126915338