码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python按类别和比例从Labelme数据集中划分出训练数据集和测试数据集


    Python按类别和比例从Labelme数据集中划分出训练数据集和测试数据集

    • 前言
    • 前提条件
    • 相关介绍
    • 实验环境
    • 按类别和比例从Labelme数据集中划分出训练数据集和测试数据集
      • 代码实现
      • 输出结果

    在这里插入图片描述

    前言

    • 由于本人水平有限,难免出现错漏,敬请批评改正。
    • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
    • 基于DETR的人脸伪装检测
    • YOLOv7训练自己的数据集(口罩检测)
    • YOLOv8训练自己的数据集(足球检测)
    • YOLOv5:TensorRT加速YOLOv5模型推理
    • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
    • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
    • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
    • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
    • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
    • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
    • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

    前提条件

    • 熟悉Python

    相关介绍

    • Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
    • PyTorch 是一个深度学习框架,封装好了很多网络和深度学习相关的工具方便我们调用,而不用我们一个个去单独写了。它分为 CPU 和 GPU 版本,其他框架还有 TensorFlow、Caffe 等。PyTorch 是由 Facebook 人工智能研究院(FAIR)基于 Torch 推出的,它是一个基于 Python 的可续计算包,提供两个高级功能:1、具有强大的 GPU 加速的张量计算(如 NumPy);2、构建深度神经网络时的自动微分机制。
    • YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升。它是一个在COCO数据集上预训练的物体检测架构和模型系列,代表了Ultralytics对未来视觉AI方法的开源研究,其中包含了经过数千小时的研究和开发而形成的经验教训和最佳实践。
    • Labelme是一款图像标注工具,由麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发。它是用Python和PyQT编写的,开源且免费。Labelme支持Windows、Linux和Mac等操作系统。
    • 这款工具提供了直观的图形界面,允许用户在图像上标注多种类型的目标,例如矩形框、多边形、线条等,甚至包括更复杂的形状。标注结果以JSON格式保存,便于后续处理和分析。这些标注信息可以用于目标检测、图像分割、图像分类等任务。
    • 总的来说,Labelme是一款强大且易用的图像标注工具,可以满足不同的图像处理需求。
    • Labelme标注json文件是一种用于存储标注信息的文件格式,它包含了以下几个主要的字段:
      • version: Labelme的版本号,例如"4.5.6"。
      • flags: 一些全局的标志,例如是否是分割任务,是否有多边形,等等。
      • shapes: 一个列表,每个元素是一个字典,表示一个标注对象。每个字典包含了以下几个字段:
        • label: 标注对象的类别名称,例如"dog"。
        • points: 一个列表,每个元素是一个坐标对,表示标注对象的边界点,例如[[10, 20], [30, 40]]。
        • group_id: 标注对象的分组编号,用于表示属于同一组的对象,例如1。
        • shape_type: 标注对象的形状类型,例如"polygon",“rectangle”,“circle”,等等。
        • flags: 一些针对该标注对象的标志,例如是否是难例,是否被遮挡,等等。
      • lineColor: 标注对象的边界线颜色,例如[0, 255, 0, 128]。
      • fillColor: 标注对象的填充颜色,例如[255, 0, 0, 128]。
      • imagePath: 图像文件的相对路径,例如"img_001.jpg"。
      • imageData: 图像文件的二进制数据,经过base64编码后的字符串,例如"iVBORw0KGgoAAAANSUhEUgAA…"。
      • imageHeight: 图像的高度,例如600。
      • imageWidth: 图像的宽度,例如800。

    以下是一个Labelme标注json文件的示例:

    {
      "version": "4.5.6",
      "flags": {},
      "shapes": [
        {
          "label": "dog",
          "points": [
            [
              121.0,
              233.0
            ],
            [
              223.0,
              232.0
            ],
            [
              246.0,
              334.0
            ],
            [
              121.0,
              337.0
            ]
          ],
          "group_id": null,
          "shape_type": "polygon",
          "flags": {}
        }
      ],
      "lineColor": [
        0,
        255,
        0,
        128
      ],
      "fillColor": [
        255,
        0,
        0,
        128
      ],
      "imagePath": "img_001.jpg",
      "imageData": "iVBORw0KGgoAAAANSUhEUgAA...",
      "imageHeight": 600,
      "imageWidth": 800
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46

    实验环境

    • Python 3.x (面向对象的高级语言)

    按类别和比例从Labelme数据集中划分出训练数据集和测试数据集

    • 背景:通常我们会将标注好的数据集,按8:2的比列划分为训练数据集和测试数据集。
    • 目录结构示例
      在这里插入图片描述

    代码实现

    在这里插入图片描述

    • images:未划分的图片数据集所在的文件夹。
    • jsons:未划分的Labelme标注文件所在的文件夹。
    import os
    import cv2
    import json
    import time
    import math
    import shutil
    import random
    
    
    def count_json_label(in_json_path,all_label_num_dict):
        with open(in_json_path, "r", encoding='utf-8') as f:
            # json.load数据到变量json_data
            json_data = json.load(f)
        for i in json_data['shapes']:
            if i['label'] in all_label_num_dict.keys():
                all_label_num_dict[i['label']] = all_label_num_dict[i['label']] + 1
            else:
                all_label_num_dict[i['label']] = 1
        all_label_num_dict = dict(sorted(all_label_num_dict.items(), key=lambda x: x[1]))
        return all_label_num_dict
    
    
    def cal_test_count_json_label(all_label_num_dict,split_rate=0.2):
        test_label_num_dict = {key: math.floor(value * split_rate) for key, value in all_label_num_dict.items()} 
        return test_label_num_dict
    
    
    def select_test_img_json(in_img_dir,in_json_dir,json_name_list,key,value):
        n = 0
        for json_name in json_name_list: # 遍历json文件
            in_img_path = os.path.join(in_img_dir,json_name[:-5]+img_type)
            in_json_path = os.path.join(in_json_dir,json_name)
            try:
                with open(in_json_path, "r", encoding='utf-8') as f:
                    # json.load数据到变量json_data
                    json_data = json.load(f)
                if n == value:
                    break
                for i in json_data['shapes']:
                    if i['label']==key:
                        # print(in_json_path)
                        shutil.move(in_img_path,out_img_dir)
                        shutil.move(in_json_path,out_json_dir)
                        n +=1
                        break
            except Exception as e:
                continue
    
    if __name__=="__main__":
        img_type = '.jpg'
        in_img_dir = 'images' # 图片所在文件夹
        in_json_dir = 'jsons' # json所在文件夹
    
        out_img_dir = 'out_images'
        if not os.path.exists(out_img_dir):
            os.mkdir(out_img_dir)
        
        out_json_dir = 'out_jsons'
        if not os.path.exists(out_json_dir):
            os.mkdir(out_json_dir)
    
        # 获取所有json文件
        json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')] # json文件列表
        random.shuffle(json_name_list) # 乱序  
    
        all_label_num_dict = {}
        for json_name in json_name_list: # 遍历json文件
            in_json_path = os.path.join(in_json_dir,json_name)
            count_json_label(in_json_path,all_label_num_dict)
    
        test_label_num_dict = cal_test_count_json_label(all_label_num_dict,split_rate=0.2)
    
        for key,value in test_label_num_dict.items():
            select_test_img_json(in_img_dir,in_json_dir,json_name_list,key,value)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74

    输出结果

    在这里插入图片描述

    • images:划分出的训练图片所在的文件夹。
    • jsons:划分出的训练Labelme标注文件所在的文件夹。

    在这里插入图片描述

    • out_images:划分出的测试图片所在的文件夹。
    • out_jsons:划分出的测试Labelme标注文件所在的文件夹。
    • 由于本人水平有限,难免出现错漏,敬请批评改正。
    • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
    • 基于DETR的人脸伪装检测
    • YOLOv7训练自己的数据集(口罩检测)
    • YOLOv8训练自己的数据集(足球检测)
    • YOLOv5:TensorRT加速YOLOv5模型推理
    • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
    • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
    • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
    • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
    • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
    • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
    • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
  • 相关阅读:
    吃透分享的这份 Java 面试神技,3 个月斩获 8 家 offer
    注册中心服务eureka 切换到 nocas遇到的问题
    通识篇:原型设计的认知,设计及最佳实践
    你是如何保证服务高可用性?
    python、pandas、matplotlib绘制柱形图,获取pandas列数据
    罗克韦尔AB PLC RSLogix5000中计数器指令使用方法介绍
    stm32f334timer15-17
    【视频】马尔可夫链原理可视化解释与R语言区制转换MRS实例|数据分享
    Docker基本管理
    《深度学习在医学图像分析中的应用(第二版)》
  • 原文地址:https://blog.csdn.net/FriendshipTang/article/details/134320668
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号