Python移动未标注的图片数据集

news/2024/6/17 16:32:55 标签: python, 开发语言, Labelme, 目标检测, json

Python移动未标注的图片数据集

  • 前言
  • 前提条件
  • 相关介绍
  • 实验环境
  • Python移动未标注的图片数据集
    • 情况一:有图,无标注文件
      • 代码实现
      • 输出结果
    • 情况二:有图,有标注文件,但标注信息为空
      • 代码实现
      • 输出结果
    • 情况一与情况二同时都考虑
      • 代码实现
      • 输出结果
    • 拓展:移动有标注文件却无对应图片的标注文件
      • 代码实现
      • 输出结果

在这里插入图片描述

前言

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

前提条件

  • 熟悉Python

相关介绍

  • Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
  • PyTorch 是一个深度学习框架,封装好了很多网络和深度学习相关的工具方便我们调用,而不用我们一个个去单独写了。它分为 CPU 和 GPU 版本,其他框架还有 TensorFlow、Caffe 等。PyTorch 是由 Facebook 人工智能研究院(FAIR)基于 Torch 推出的,它是一个基于 Python 的可续计算包,提供两个高级功能:1、具有强大的 GPU 加速的张量计算(如 NumPy);2、构建深度神经网络时的自动微分机制。
  • YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升。它是一个在COCO数据集上预训练的物体检测架构和模型系列,代表了Ultralytics对未来视觉AI方法的开源研究,其中包含了经过数千小时的研究和开发而形成的经验教训和最佳实践。
  • Labelme是一款图像标注工具,由麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发。它是用Python和PyQT编写的,开源且免费。Labelme支持Windows、Linux和Mac等操作系统。
  • 这款工具提供了直观的图形界面,允许用户在图像上标注多种类型的目标,例如矩形框、多边形、线条等,甚至包括更复杂的形状。标注结果以JSON格式保存,便于后续处理和分析。这些标注信息可以用于目标检测、图像分割、图像分类等任务。
  • 总的来说,Labelme是一款强大且易用的图像标注工具,可以满足不同的图像处理需求。
  • Labelme标注json文件是一种用于存储标注信息的文件格式,它包含了以下几个主要的字段:
    • version: Labelme的版本号,例如"4.5.6"。
    • flags: 一些全局的标志,例如是否是分割任务,是否有多边形,等等。
    • shapes: 一个列表,每个元素是一个字典,表示一个标注对象。每个字典包含了以下几个字段:
      • label: 标注对象的类别名称,例如"dog"。
      • points: 一个列表,每个元素是一个坐标对,表示标注对象的边界点,例如[[10, 20], [30, 40]]。
      • group_id: 标注对象的分组编号,用于表示属于同一组的对象,例如1。
      • shape_type: 标注对象的形状类型,例如"polygon",“rectangle”,“circle”,等等。
      • flags: 一些针对该标注对象的标志,例如是否是难例,是否被遮挡,等等。
    • lineColor: 标注对象的边界线颜色,例如[0, 255, 0, 128]。
    • fillColor: 标注对象的填充颜色,例如[255, 0, 0, 128]。
    • imagePath: 图像文件的相对路径,例如"img_001.jpg"。
    • imageData: 图像文件的二进制数据,经过base64编码后的字符串,例如"iVBORw0KGgoAAAANSUhEUgAA…"。
    • imageHeight: 图像的高度,例如600。
    • imageWidth: 图像的宽度,例如800。

以下是一个Labelme标注json文件的示例:

json">{
  "version": "4.5.6",
  "flags": {},
  "shapes": [
    {
      "label": "dog",
      "points": [
        [
          121.0,
          233.0
        ],
        [
          223.0,
          232.0
        ],
        [
          246.0,
          334.0
        ],
        [
          121.0,
          337.0
        ]
      ],
      "group_id": null,
      "shape_type": "polygon",
      "flags": {}
    }
  ],
  "lineColor": [
    0,
    255,
    0,
    128
  ],
  "fillColor": [
    255,
    0,
    0,
    128
  ],
  "imagePath": "img_001.jpg",
  "imageData": "iVBORw0KGgoAAAANSUhEUgAA...",
  "imageHeight": 600,
  "imageWidth": 800
}

实验环境

  • Python 3.x (面向对象的高级语言)

Python移动未标注的图片数据集

情况一:有图,无标注文件

在这里插入图片描述

代码实现

python">import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for img_name in img_name_list:
        in_img_path = in_img_dir + img_name
        in_json_path = in_json_dir + img_name[:-4]+'.json'


        # 情况一:有图,无标注文件
        if not os.path.exists(in_json_path):
            move_img_no_json(in_img_path,output_dir)

输出结果

在这里插入图片描述

情况二:有图,有标注文件,但标注信息为空

在这里插入图片描述

json">{
  "version": "5.2.0.post4",
  "flags": {},
  "shapes": [],
  "imagePath": "flower.png",
  "imageData": null,
  "imageHeight": 394,
  "imageWidth": 850
}

代码实现

python">import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for img_name in img_name_list:
        in_img_path = in_img_dir + img_name
        in_json_path = in_json_dir + img_name[:-4]+'.json'

        if not os.path.exists(in_json_path):
            pass
        else:
            # 情况二:有图,有标注文件,但标注信息为空
            if is_null_info_in_json(in_json_path):
                move_img_and_json(in_img_path,in_json_path,output_dir)

输出结果

在这里插入图片描述

情况一与情况二同时都考虑

在这里插入图片描述

代码实现

python">import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for img_name in img_name_list:
        in_img_path = in_img_dir + img_name
        in_json_path = in_json_dir + img_name[:-4]+'.json'


        # 情况一:有图,无标注文件
        if not os.path.exists(in_json_path):
            move_img_no_json(in_img_path,output_dir)
        else:
            # 情况二:有图,有标注文件,但标注信息为空
            if is_null_info_in_json(in_json_path):
                move_img_and_json(in_img_path,in_json_path,output_dir)

输出结果

在这里插入图片描述

拓展:移动有标注文件却无对应图片的标注文件

在这里插入图片描述

代码实现

python">import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

def move_json_no_img(in_json_path,output_dir):
    '''
    移动有标注文件却无对应图片的标注文件
    '''
    shutil.move(in_json_path,output_dir)


if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for json_name in json_name_list:
        in_img_path = in_img_dir + json_name[:-5] + '.png'
        in_json_path = in_json_dir + json_name


        # 移动有标注文件却无对应图片的标注文件
        if not os.path.exists(in_img_path):
            move_json_no_img(in_json_path,output_dir)

输出结果

在这里插入图片描述

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

http://www.niftyadmin.cn/n/5265387.html

相关文章

【基础篇】1.1 认识STM32(二)

3.3 VREF/VREF-引脚 VREF和VREF-是STM32中用于提供参考电压的引脚。如下图: VREF引脚可以连接一个单独的外部参考电压,范围在2.0V~VDDA,但不能超过VDDA,否则就超过了模拟器件的最大供电电压。在100引脚的封装中&#…

孩子都能学会的FPGA:第三十二课——用FPGA实现一个通用的SPI主机发送模块

(原创声明:该文是作者的原创,面向对象是FPGA入门者,后续会有进阶的高级教程。宗旨是让每个想做FPGA的人轻松入门,作者不光让大家知其然,还要让大家知其所以然!每个工程作者都搭建了全自动化的仿…

面试复习(一)C++语言特性和常见数据结构与算法

一.继承 子类对父类的访问 public:保持原有权限private:全部变为私有权限protected:public 和 procted 变为 procted 权限,private不变 多继承导致的 命名冲突(加作用域符号)菱形继承问题(虚…

ChatGPT 也宕机了?如何预防 DDOS 攻击的发生

最近,开发人工智能聊天机器人的公司 OpenAI 遭受了一次规模较大的分布式拒绝服务(DDoS)攻击,导致其旗下的 ChatGPT 服务在短短 12 小时内遭遇了 4 次断网,众多用户遭受了连接失败的问题。 这次攻击事件引起了广泛的关…

图像与视频压缩算法

图像压缩是通过减少图像数据量来降低图像文件的大小,从而减少存储空间和传输带宽。有多种图像压缩算法,它们可以分为两大类:有损压缩和无损压缩。 无损压缩算法: Run-Length Encoding (RLE): 这是一种简单的无损压缩方法&#x…

JVM虚拟机系统性学习-JVM调优实战之内存溢出、高并发场景调优

调优实战-内存溢出的定位与分析 首先&#xff0c;对于以下代码如果造成内存溢出该如何进行定位呢&#xff1f;通过 jmap 与 MAT 工具进行定位分析 代码如下&#xff1a; public class TestJvmOutOfMemory {public static void main(String[] args) {List<Object> list…

powershell执行策略不受限制

powershell执行策略不受限制 powershell nodemon 1.以管理员身份运行powershell。 2.运行以下命令 Set-ExecutionPolicy Unrestricted AllSigned 脚本可以运行。 要求所有脚本和配置文件都由受信任的发布者签名&#xff0c;包括在本地计算机上编写的脚本。 在从尚未分类为受信…

四六级高频词组12

目录 词组 其他链接 词组 501. &#xff08;a&#xff09; passion for 对…的热爱&#xff0c;热情 502. be patient with 对…耐心 503. pay for 赔偿&#xff0c; 付款&#xff0c; 报偿&#xff0c; 处罚 504. pay…for 付…的钱 505. &#xff08;be&#xff09; …