• 中文分词库-jieba


    问题1:(8分)用 jieba 分词,计算字符串 s 中的中文词汇个数,不包括中文标点符号。显示输出分词后的结果,用”/ ”分隔,以及中文词汇个数。示例如下:

    输入:

    工业互联网”实施的方式是通过通信、控制和计算技术的交叉应用,建造一个信息物理系统,促进物理系统和数字系统的融合。

    输出:

    工业/ 互联网/实施/ 的/ 方式/是/ 通过/ 通信/控制/ 和/ 计算技术/的/ 交叉/ 应用/建造/ 一个/ 信息/物理/ 系统/ 促进/物理/ 系统/ 和/数字/ 系统/ 的/融合/

    中文词语数是:27

    问题2:(7分)在问题1的基础上,统计分词后的词汇出现的次数,用字典结构保存。显示输出每个词汇出现的次数,以及出现次数最多的词汇。如果有多个词汇出现次数一样多,都要显示出来。示例如下:

    继续输出:

    控制: 1

    物理: 2

    通信: 1

    交叉: 1

    互联网: 1

    和: 2

    是: 1

    计算技术: 1

    一个: 1

    的: 3

    数字: 1

    促进: 1

    信息: 1

    方式: 1

    建造: 1

    应用: 1

    系统: 3

    通过: 1

    实施: 1

    融合: 1

    工业: 1

    出现最多的词是(的 系统):3 次

    解答:

    问题1:

    1. import jieba
    2. """
    3. 工业互联网”实施的方式是通过通信、控制和计算技术的交叉应用,
    4. 建造一个信息物理系统,促进物理系统和数字系统的融合。
    5. """
    6. s = input("请输入一个中文字符串,包含逗号和句号:")
    7. # 标点符号集合
    8. symbol = [",", "。", "、", "”", "“", ";", ":", "?", "!"]
    9. newStr = s.replace(' ', '')
    10. for i in symbol:
    11. newStr = newStr.replace(i, '')
    12. list = jieba.lcut(newStr)
    13. print("/".join(list))
    14. print("中文词语数是:{}".format(len(list)))
    15. dic = {}
    16. for j in list:
    17. # 判断j是否在字典dic中
    18. if j in dic.keys():
    19. dic[j] += 1
    20. else:
    21. dic[j] = 1
    22. for key in dic.keys():
    23. print("{}:{}".format(key, dic[key]))
    24. valList = sorted(dic.values(), reverse=True)
    25. highWordList = []
    26. for k in dic.keys():
    27. if dic[k] == valList[0]:
    28. highWordList.append(k)
    29. print("出现最多的词是({}):{} 次".
    30. format(" ".join(highWordList), valList[0]))

    输出结果:

    1. 请输入一段话:工业互联网”实施的方式是通过通信、控制和计算技术的交叉应用, 建造一个信息物理系统,促进物理系统和数字系统的融合。
    2. 工业/互联网/实施//方式//通过/通信/控制//计算技术//交叉/应用/建造/一个/信息/物理/系统/促进/物理/系统//数字/系统//融合
    3. 中文词语数是:27
    4. 工业:1
    5. 互联网:1
    6. 实施:1
    7. 的:3
    8. 方式:1
    9. 是:1
    10. 通过:1
    11. 通信:1
    12. 控制:1
    13. 和:2
    14. 计算技术:1
    15. 交叉:1
    16. 应用:1
    17. 建造:1
    18. 一个:1
    19. 信息:1
    20. 物理:2
    21. 系统:3
    22. 促进:1
    23. 数字:1
    24. 融合:1
    25. 出现最多的词是(的 系统):3

    国内镜像资源网站
    清华大学镜像:https://pypi.tuna.tsinghua.edu.cn/simple
    中国科学技术大学:https://pypi.mirrors.ustc.edu.cn/simple

    使用方法
    使用pip指令 ,加上-i,后面跟镜像库网址

    pip install -i  https://pypi.tuna.tsinghua.edu.cn/simple jieba

  • 相关阅读:
    艾美捷ProSci丨ProSci 40S核糖体蛋白S19重组蛋白介绍
    golang和mysql中的数据类型的对应
    基于谐波参数空间的卷积神经网络自动三维牙齿分割
    深度学习之情感分析
    大语言模型系列-微调技术
    Unity --- 音频组件与脚本控制方法
    SSM+老年人活动信息管理系统 毕业设计-附源码121730
    凉鞋的 Godot 笔记 108. 第二个通识:增删改查
    经典面试题 之 MQ
    SQLite数据库的增删改查基本操作
  • 原文地址:https://blog.csdn.net/greatau/article/details/134087519