• 基于大模型做txt文档拆分的方法


    代码地址

    链接:https://pan.baidu.com/s/1bM1UXKIJyRi9g8_w0r03Ow
    提取码:1234

    问答类txt拆分方法

    1、通过代码step1得到疑似包含问答对的文本;
    2、人工挑选出包含问答对的文本;
    3、基于如下提示词模板,将包含多个问答对的文本内容输入大模型,输出得到包含所有问题的json数据,得到问题后可以根据问题所在行切割问答对。

    """请将已知信息中的所有问题挑选出来,以JSON格式输出,输出示例为:{"问题":["问题1","问题2","问题3"]}
    要求:
    1、千万不要总结或概括问题!请直接复制已知信息的字符作为答案,绝对不要增加或删除任何字符,绝对不要添加标点符号或语气词!
    2、必须找出已知信息中所有提出的问题,不要遗漏;
    3、如果已知信息中没有出现提问,不要强行作答,必须输出空Json:{"问题":[]};
    4、超过50字的必须舍弃,不能作为候选问题!
    
    ##########################
    已知信息:
    台湾茶主要病虫害问答
    问:乌龙茶枝条外表被黑色绒毛状物包裹,严重者造成枝条干枯,叶片萎凋。
    答:经鉴定是为粘菌,一般均是通风不良及有机质充分时产生。
    防治方法:罹病枝条剪除并保持通风良好,药剂可试用含铜杀菌剂防治。
    问:茶(乌龙品种)叶片上表皮有凸起之淡黄化斑点,下表皮凹陷深褐色上布满白色网状物。
    答:经显微镜检是为茶饼病。
    茶饼病
    防治方法:可用50%赐加落可湿性粉剂2000倍或84.2%三得芬乳剂2000倍或30%赛
    
    输出:
    {"问题":["问:乌龙茶枝条外表被黑色绒毛状物包裹,严重者造成枝条干枯,叶片萎凋。", "问:茶(乌龙品种)叶片上表皮有凸起之淡黄化斑点,下表皮凹陷深褐色上布满白色网状物。"]}
    
    ##########################
    已知信息:
    infomation
    
    输出:
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27

    非问答类文档txt拆分方法

    –>文档内文本token数小于2200的文档不拆分,大于2200的长文档就拆分;
    –>拆分长文档的思路是:找出文档中的一级标题,每个一级标题对应的内容拆分为一个txt文档;具体步骤如下:
    1、按行读取长文档txt, 由于目标只是提取标题,标题行一般不会超过100字符,标题下面的文本内容可以不完整,于是将超过100字符长度的行通通缩减为100字符以内的句子,具体操作方法请看代码step2_normal_txt_process.py/simplify_line()函数;
    2、文本按行缩减后,结合提示词一起输入大模型,大模型可以找出其中的标题。经测试,长文档按行大幅缩减字符后,大模型找出其中标题的准确度有所提升。
    3、在大模型输出的标题列表中找出一级标题,具体请看get_target_title_from_title_list.py/get_first_level_title();
    4、根据一级标题切割文档,第一个文档组成内容:引言+第1-N个标题,第2-N个文档组成内容:文档名+对应标题+标题下文本;

    测试过3种提取标题的提示词,具体请看代码地址中的/prompt/title_prompt.py,/prompt/title_prompt2.py, /prompt/title_prompt3.py, 经过测试第3种提示词最通用最简单,如下:

    """请将```分隔号内文本的所有标题复制出来,以JSON格式输出,输出示例为:{"标题":["第1个标题","第2个标题","第3个标题"]}
    要求:
    1、完整复制标题行的所有字符;
    2、必须忽略超过30个字的标题;
    3、如果文本中没有出现标题,则输出空JSON:{"标题":[]};
    
    文本:```infomation```
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    以上提示词几乎可以让大模型找出txt文本中的所有标题,包括小级别标题,通过一定的规则可以找出标题中的一级标题。

    长文档切割示例

    原文档
    茶树根部的主要病害及其防治
    以下介绍几种茶树根部的主要病害及其防治方法--
    1、 茶苗白绢病
    1.1 分布及症状: 茶苗白绢病是一种常见的苗圃根部病害。
    1.2 病原:是一种担子菌亚门薄膜革菌属的真菌。
    2、茶根癌病(与茶苗立枯病比较)
    2.1 分布及症状: 主要为害茶苗,在部分茶区发生严重,造成茶苗枯死。
    2.2 病原:茶根癌病菌为野杆菌属[Agrobacterium tumefaciens(S.et T.) Conn.]细菌。
    3、茶苗根结线虫病
    3.1 分布及症状: 主要分布于温暖的产茶区。
    3.2 防治方法:
    ①选择生荒地作苗圃,若是种过花生、瓜类、豆类、红薯等作物的地则不宜作苗圃,盛夏应将土壤深翻,在阳光下暴晒10天后再翻1次,可杀灭土壤中的线虫。
    ②对已发病的苗木应增施磷肥和钾肥;提高其抗病能力,同时用石灰消毒或用1:20的茶枯水施入土壤中也有较好的防治效果。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    切分后的文档1
    茶树根部的主要病害及其防治
    以下介绍几种茶树根部的主要病害及其防治方法--
    1、 茶苗白绢病
    1.1 分布及症状: 茶苗白绢病是一种常见的苗圃根部病害。
    1.2 病原:是一种担子菌亚门薄膜革菌属的真菌。
    2、茶根癌病(与茶苗立枯病比较), 3、茶苗根结线虫病
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    切分后的文档2
    茶树根部的主要病害及其防治
    2、茶根癌病(与茶苗立枯病比较)
    2.1 分布及症状: 主要为害茶苗,在部分茶区发生严重,造成茶苗枯死。
    2.2 病原:茶根癌病菌为野杆菌属[Agrobacterium tumefaciens(S.et T.) Conn.]细菌。
    
    • 1
    • 2
    • 3
    • 4
    切分后的文档3
    茶树根部的主要病害及其防治
    3、茶苗根结线虫病
    3.1 分布及症状: 主要分布于温暖的产茶区。
    3.2 防治方法:
    ①选择生荒地作苗圃,若是种过花生、瓜类、豆类、红薯等作物的地则不宜作苗圃,盛夏应将土壤深翻,在阳光下暴晒10天后再翻1次,可杀灭土壤中的线虫。
    ②对已发病的苗木应增施磷肥和钾肥;提高其抗病能力,同时用石灰消毒或用1:20的茶枯水施入土壤中也有较好的防治效果。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
  • 相关阅读:
    最新完成的一个全栈微信小程序商城,包含后台和小程序端,服务器端
    竣达技术 | 8路IO模块模拟量采集 通讯信号检测 继电器输出控制 可接入漏水和声光
    11_html
    MFC-网络编程TCP服务端(NBlockSocket)
    vue项目中使用svg
    【雷达通信】雷达探测项目仿真(Matlab代码实现)
    二叉树基础
    返回多维数组转换为一维后的数组
    数据库操作
    检测Windows环境中的内部威胁
  • 原文地址:https://blog.csdn.net/Acecai01/article/details/133301215