• 【数据结构】堆排序与TopK问题


    👀樊梓慕:个人主页

     🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》

    🌝每一个不曾起舞的日子,都是对生命的辜负


    目录

    前言

     1.堆的概念和结构

    2.堆的实现

    2.1向上调整算法

    2.2向下调整算法

    2.3堆的创建

    2.4建堆时间复杂度

    2.5堆的插入

    2.6堆的删除

    2.7堆的代码实现

    3.堆的应用

    3.1堆排序

    3.2TopK问题


    前言

    本篇文章博主主要围绕堆这一数据结构展开,内容包括两种建堆方式,两种建堆方式的时间复杂度分析,最后引入堆的应用:堆排序和TopK问题,希望大家多多点赞收藏支持🔥


    欢迎大家📂收藏📂以便未来做题时可以快速找到思路,巧妙的方法可以事半功倍。

    =========================================================================

    GITEE相关代码:🌟fanfei_c的仓库🌟

    =========================================================================


     1.堆的概念和结构

    堆的逻辑结构是完全二叉树。

    逻辑结构的视角观察:

    在大根堆中,双亲节点大于孩子节点;

    在小根堆中,双亲节点小于孩子节点。

    堆的存储结构是一维数组。 

    存储结构的视角观察(设数组K):

    在小根堆中:K[i]<=K[2*i+1] && K[i]<=K[2*i+2];

    在大根堆中:K[i]>=K[2*i+1] && K[i]>=K[2*i+2];


    2.堆的实现

    2.1向上调整算法

    向上调整算法的前提是祖先是堆。

    以小堆为例:

    1.给定向上调整的起点(孩子节点下标),根据起点下标计算双亲节点下标。

    孩子节点与双亲结点间的下标关系:

    child=parent*2+1 || child=parent*2+2;

    parent=(child-1)/2;

    2.比较孩子节点与双亲节点数值大小,若孩子节点小于双亲节点,则交换两者,并将孩子节点的下标更新为之前的双亲节点下标,根据最新的孩子节点下标重新计算双亲节点下标,重复这一过程直到孩子节点为根节点。

    代码实现: 

    1. //向上调整
    2. void Adjustup(HPDataType* a,int child)
    3. {
    4. int parent = (child - 1) / 2;
    5. while (child > 0)
    6. {
    7. if (a[child] < a[parent])//建小堆
    8. {
    9. Swap(&a[child], &a[parent]);
    10. child = parent;
    11. parent = (parent - 1) / 2;
    12. }
    13. else
    14. {
    15. break;
    16. }
    17. }
    18. }

    2.2向下调整算法

    向下调整算法的前提是左右子树是堆。

    以小堆为例:

    1.给定向下调整的起点(双亲节点下标)和节点总数,根据起点下标计算孩子节点下标。

    注意:向下调整时,若有两个孩子节点,则需要确保调整的是较小的孩子节点。

    2.比较孩子节点与双亲节点数值大小,若孩子节点小于双亲节点,则交换两者,并将双亲节点的下标更新为之前的孩子节点下标,根据最新的双亲节点下标重新计算孩子节点下标,重复这一过程直到孩子节点超出节点总数。

    代码实现:

    1. //向下调整
    2. void Adjustdown(HPDataType* a, int n,int parent)
    3. {
    4. int child = parent * 2 + 1;
    5. while (child < n)
    6. {
    7. if (child+11] < a[child])//建小堆
    8. {
    9. child = child + 1;
    10. }
    11. if (a[child] < a[parent])//建小堆
    12. {
    13. Swap(&a[child], &a[parent]);
    14. parent = child;
    15. child = parent * 2 + 1;
    16. }
    17. else
    18. {
    19. break;
    20. }
    21. }
    22. }

    2.3堆的创建

    堆的创建既可以使用向上调整算法,也可以使用向下调整算法。

    1.向上调整算法建堆

    由于向上调整算法的前提是祖先是堆,所以我们需要从第二个节点开始向上调整(即根节点的下一个)。

    代码实现:

    1. for(int i = 1; i < n; i++)
    2. {
    3. Adjustup(a,i);
    4. }

    2.向下调整算法建堆

     由于向下调整算法的前提是左右子树是堆,所以我们需要从倒数第一个非叶子节点向下调整。

    已知节点总数为n,那么倒数第一个节点的下标即为n-1,该节点的双亲节点下标即为(n-1-1)/2,该双亲节点就是倒数第一个非叶子节点(因为堆是完全二叉树)

    代码实现:

    1. for (int i = (n - 2) / 2; i >= 0; i--)
    2. {
    3. Adjustdown(a,n,i);
    4. }

    2.4建堆时间复杂度

    假设树的高度为h。

    1.向上调整建堆时间复杂度

     则需要移动节点总的移动步数为:

    即向上调整建堆的时间复杂度为O(N*log₂N)。 


    2.向下调整建堆时间复杂度

    则需要移动节点总的移动步数为:

    即向下调整建堆的时间复杂度为O(N)。 


    2.5堆的插入

    首先尾插到该数组,再向上调整即可。


    2.6堆的删除

    删除堆是删除堆顶的数据,将堆顶的数据根最后一个数据交换,然后删除数组最后一个数据,再进行向下调整算法。


    2.7堆的代码实现

    1. // 堆的构建
    2. void HeapCreate(Heap* hp, HPDataType* a, int n)
    3. {
    4. assert(hp);
    5. assert(a);
    6. hp->a = (HPDataType*)malloc(sizeof(HPDataType)*n);
    7. if (hp->a == NULL)
    8. {
    9. perror("malloc fail");
    10. exit(-1);
    11. }
    12. hp->capacity = hp->size = n;
    13. memcpy(hp->a, a, sizeof(HPDataType) * n);
    14. for (int i = 1; i < n; i++)
    15. {
    16. Adjustup(hp->a, i);
    17. }
    18. }
    19. // 堆的销毁
    20. void HeapDestory(Heap* hp)
    21. {
    22. assert(hp);
    23. free(hp->a);
    24. hp->a = NULL;
    25. hp->capacity = hp->size = 0;
    26. }
    27. // 堆的插入
    28. void HeapPush(Heap* hp, HPDataType x)
    29. {
    30. assert(hp);
    31. assert(hp->a);
    32. //1.检查容量
    33. if (hp->size == hp->capacity)
    34. {
    35. int newCapacity = hp->capacity == 0 ? 4 : hp->capacity * 2;
    36. HPDataType* tmp = (HPDataType*)realloc(hp->a,sizeof(HPDataType) *newCapacity);
    37. if (tmp == NULL)
    38. {
    39. perror("realloc fail");
    40. exit(-1);
    41. }
    42. hp->a = tmp;
    43. hp->capacity = newCapacity;
    44. }
    45. hp->a[hp->size] = x;
    46. hp->size++;
    47. Adjustup(hp->a, hp->size-1);
    48. }
    49. // 堆的删除
    50. void HeapPop(Heap* hp)
    51. {
    52. assert(hp);
    53. assert(hp->size > 0);
    54. Swap(&hp->a[0], &hp->a[hp->size - 1]);
    55. --hp->size;
    56. Adjustdown(hp->a, hp->size, 0);
    57. }
    58. // 取堆顶的数据
    59. HPDataType HeapTop(Heap* hp)
    60. {
    61. assert(hp);
    62. assert(hp->a);
    63. return hp->a[0];
    64. }
    65. // 堆的数据个数
    66. int HeapSize(Heap* hp)
    67. {
    68. assert(hp);
    69. return hp->size;
    70. }
    71. // 堆的判空
    72. bool HeapEmpty(Heap* hp)
    73. {
    74. assert(hp);
    75. return hp->size == 0;
    76. }

    3.堆的应用

    3.1堆排序

    方法1:

    首先,我们当然可以利用已经堆这一数据结构进行输出有序的数据。

    以升序为例:

    首先构建小堆,然后输出堆顶元素,再Pop,再向下调整,循环执行此步骤直到堆空。

    代码实现:

    1. void HeapSort(int* a, int n)
    2. {
    3. HP hp;
    4. HeapInit(&hp);
    5. for (int i = 0; i < n; i++)
    6. {
    7. HeapPush(&hp, a[i]);
    8. }
    9. int i = 0;
    10. while (!HeapEmpty(&hp))
    11. {
    12. //printf("%d ", HeapTop(&hp));
    13. a[i++] = HeapTop(&hp);
    14. HeapPop(&hp);
    15. }
    16. HeapDestroy(&hp);
    17. }

    但这样有很明显的缺点

    1.需要堆这样一个数据结构,构建麻烦;

    2.空间复杂度的消耗。


    方法2: 

    以升序为例:

    首先构建大堆(推荐使用向下调整),此时堆顶元素一定为最大值,然后将堆顶元素与最后一个节点交换,此时最大值就放到了整个数组的最后面,然后除了最后一个值以外,其他的数据再向下调整,调整完成后堆顶元素为次大值,再与数组倒数第二个位置的值交换,这样依此往复就得到了升序数组。

    注意:

    升序建大堆,降序建小堆。

    代码实现:

    1. void HeapSort(int* a, int n)
    2. {
    3. // 向上调整建堆 (大堆)or (小堆)
    4. // O(N*logN)
    5. /*for (int i = 1; i < n; i++)
    6. {
    7. AdjustUp(a, i);
    8. }*/
    9. // 向下调整建堆
    10. // O(N)
    11. for (int i = (n-1-1)/2; i >= 0; i--)
    12. {
    13. AdjustDown(a, n, i);
    14. }
    15. // O(N*logN)
    16. int end = n - 1;
    17. while (end > 0)
    18. {
    19. Swap(&a[0], &a[end]);
    20. AdjustDown(a, end, 0);
    21. --end;
    22. }
    23. }

    3.2TopK问题

    TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大

    比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
    对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

    最佳的方式就是用堆来解决,基本思路如下:

    1.用数据集合中前K个元素来建堆

    • 前k个最大的元素,则建小堆
    • 前k个最小的元素,则建大堆

    2.用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素

     首先可以写一段生成随机数字的程序,并将这些数字写入到文件中。

    1. void CreateNDate()
    2. {
    3. // 造数据
    4. int n = 10000000;
    5. srand(time(0));
    6. const char* file = "data.txt";
    7. FILE* fin = fopen(file, "w");
    8. if (fin == NULL)
    9. {
    10. perror("fopen error");
    11. return;
    12. }
    13. for (int i = 0; i < n; ++i)
    14. {
    15. int x = (rand() + i) % 10000000;
    16. fprintf(fin, "%d\n", x);
    17. }
    18. fclose(fin);
    19. }

    根据上面分析的思路完成代码。

    1. void PrintTopK(const char* filename, int k)
    2. {
    3. // 1. 建堆--用a中前k个元素建堆
    4. FILE* fout = fopen(filename, "r");
    5. if (fout == NULL)
    6. {
    7. perror("fopen fail");
    8. return;
    9. }
    10. int* minheap = (int*)malloc(sizeof(int) * k);
    11. if (minheap == NULL)
    12. {
    13. perror("malloc fail");
    14. return;
    15. }
    16. for (int i = 0; i < k; i++)
    17. {
    18. fscanf(fout, "%d", &minheap[i]);
    19. }
    20. // 前k个数建小堆
    21. for (int i = (k-2)/2; i >=0 ; --i)
    22. {
    23. AdjustDown(minheap, k, i);
    24. }
    25. // 2. 将剩余n-k个元素依次与堆顶元素交换,不满则则替换
    26. int x = 0;
    27. while (fscanf(fout, "%d", &x) != EOF)
    28. {
    29. if (x > minheap[0])
    30. {
    31. // 替换你进堆
    32. minheap[0] = x;
    33. AdjustDown(minheap, k, 0);
    34. }
    35. }
    36. for (int i = 0; i < k; i++)
    37. {
    38. printf("%d ", minheap[i]);
    39. }
    40. printf("\n");
    41. fclose(fout);
    42. }

    堆处理大量数据的速度非常快,我们都知道对数的特性,所以堆处理大量数据的能力非常强。在遇到TopK问题或者大量数据排序时,可以考虑使用堆排序。

    =========================================================================

    如果你对该系列文章有兴趣的话,欢迎持续关注博主动态,博主会持续输出优质内容

    🍎博主很需要大家的支持,你的支持是我创作的不竭动力🍎

    🌟~ 点赞收藏+关注 ~🌟

    =========================================================================

  • 相关阅读:
    【KBQA综述-0】Complex Knowledge Base Question Answering: A Survey
    【SpringBoot笔记28】SpringBoot集成ES数据库之操作doc文档(创建、更新、删除、查询)
    项目总结-新增商品-Pagehelper插件分页查询
    常识——手机改直供电+usb调试
    Linux 笔记 进程监测 进程管理
    一文讲透【静态脱敏实操】
    2020秦皇岛(F,E) 思维训练
    互联网Java工程师面试题·Java 总结篇·第九弹
    相机匹配点的选取(基于竖直直杆)
    【环境配置】使用Docker搭建LAMP环境
  • 原文地址:https://blog.csdn.net/2301_77112634/article/details/132825685