前言
在目标检测数据集的制作上,我们保存的标签格式基本是xml格式的,但是在yolov5等网络模型中,我们使用的是txt的标签格式,需要进行相互转换。
还有一些其他的用处,需要修改相关的xml的标签数据,这里写了一个脚本,用来修改我们的标签数据。
初始的xml文件示例:
1. xml to txt
直接修改输入和输出的路径,以及修改一下自己的保存格式即可,还设置了一个归一化的可选的操作,直接看代码即可。
写的粗糙了点,需要改的你们自己改就行。
import os
from lxml import etree
#设置输入的xml文件夹,输出的txt的文件夹的位置
path = r"D:\labels_ori_xml"
write_path = r"D:\labels_ori_txt"
#切换工作目录
os.chdir(path)
#获取xml文件夹下的所有文件名
filenames = os.listdir(path)
for filename in filenames:
#打开写入文件
new_name = filename.split('.')[0] + '.txt'
if not os.path.exists(write_path):
os.mkdir(write_path)
f = open(write_path + '\\' + new_name, 'w')
with open(filename,'rb') as fp:
#开始解析xml文件
xml = etree.HTML(fp.read())
width = int(xml.xpath('//size/width/text()')[0])
height = int(xml.xpath('//size/height/text()')[0])
# 获取对象标签
obj = xml.xpath('//object')
print(len(obj))
for each in obj:
name = each.xpath("./name/text()")[0]
if name == 'car':
classes = 0
xmin = int(each.xpath('./bndbox/xmin/text()')[0])
xmax = int(each.xpath('./bndbox/xmax/text()')[0])
ymin = int(each.xpath('./bndbox/ymin/text()')[0])
ymax = int(each.xpath('./bndbox/ymax/text()')[0])
# 归一化(可选)
dw = 1 / width
dh = 1 / height
x_center = (xmin + xmax) / 2
y_center = (ymax + ymin) / 2
w = (xmax - xmin)
h = (ymax - ymin)
x, y, w, h = x_center * dw, y_center * dh, w * dw, h * dh
# 写入
f.write(str(classes) + ' ' + str(x) + ' ' + str(y) + ' ' + str(w) + ' ' + str(h) + ' ' + '\n')
输出的txt结果示例(进行了归一化之后的结果:(classes, xc, yc, w, h)):
2. txt - xml
使用lxml.etree中的Element, SubElement, tostring,创建一个xml文件,并创建节点,写入数据,最后保存即可。
需要注意xml写入的节点位置,比较简单,可以自己修改。
这里是参考的告白少年的博文改写的:目标检测:把标注文件txt格式转换为xml格式
将上面输出的txt文件作为输入数据,转换成xml。
改写代码如下:
import os
from lxml.etree import Element, SubElement, tostring
def txt_xml(img_name, txt_path, img_xml, xml_path):
#读取txt的信息
clas=[]
imh, imw = 800, 800
txt_img=os.path.join(txt_path,img_name)
with open(txt_img,"r") as f:
for line in f.readlines():
line = line.strip('\n')
list = line.split(" ")
clas.append(list) # [0, x1, y1, x2, y2]
node_root = Element('annotation')
node_folder = SubElement(node_root, 'folder')
node_folder.text = '1'
# filename
node_filename = SubElement(node_root, 'filename')
node_filename.text = img_name.split(".")[0]+".jpg"
# path
node_path = SubElement(node_root, 'path')
node_path.text = str(txt_img).split('.')[0] + '.jpg'
# source
node_source = SubElement(node_root, 'source')
node_database = SubElement(node_source, 'database')
node_database.text = 'Unknown'
# size
node_size = SubElement(node_root, 'size')
node_width = SubElement(node_size, 'width')
node_width.text = str(imw)
node_height = SubElement(node_size, 'height')
node_height.text = str(imh)
node_depth = SubElement(node_size, 'depth')
node_depth.text = '3'
# segmented
node_segmented = SubElement(node_root, 'segmented')
node_segmented.text = '0'
# object
for i in range(len(clas)):
node_object = SubElement(node_root, 'object')
node_name = SubElement(node_object, 'name')
node_name.text = 'car'
node_pose=SubElement(node_object, 'pose')
node_pose.text="Unspecified"
node_truncated=SubElement(node_object, 'truncated')
node_truncated.text="0"
node_difficult = SubElement(node_object, 'difficult')
node_difficult.text = '0'
# bndbox
node_bndbox = SubElement(node_object, 'bndbox')
node_xmin = SubElement(node_bndbox, 'xmin')
node_xmin.text = str(int((float(clas[i][1])-0.5*float(clas[i][3]))*800))
node_ymin = SubElement(node_bndbox, 'ymin')
node_ymin.text = str(int((float(clas[i][2])-0.5*float(clas[i][4]))*800))
node_xmax = SubElement(node_bndbox, 'xmax')
node_xmax.text = str(int((float(clas[i][1])+0.5*float(clas[i][3]))*800))
node_ymax = SubElement(node_bndbox, 'ymax')
node_ymax.text = str(int((float(clas[i][2])+0.5*float(clas[i][4]))*800))
xml = tostring(node_root, pretty_print=True) # 格式化显示,该换行的换行
img_newxml = os.path.join(xml_path, img_xml)
file_object = open(img_newxml, 'wb')
file_object.write(xml)
file_object.close()
if __name__ == "__main__":
#标注文件夹所在位置
txt_path=r"D:\DATA\DL_Torch\DATAS\labels"
#txt转化成xml格式后存放的文件夹
xml_path=r"D:\DATA\DL_Torch\DATAS\labels_xml"
if not os.path.exists(xml_path):
os.mkdir(xml_path)
for img_name in os.listdir(txt_path):
print(img_name)
img_xml=img_name.split(".")[0]+".xml"
txt_xml(img_name, txt_path, img_xml, xml_path)
最终转换后的xml和原始的xml文件对比结果示例:
成功!!!
但是这里说一下,我这里采用了归一化,在还原的过程中,可能会出现计算为小数的情况,而我们的标签位置一般为整数,所以可能会存在一点偏差,你们可以根据自己需求改写。
3. 修改图像和对应的xml数据
我们在制作完成数据集之后,可能只需要裁剪出一部分的图像和标签数据作为训练数据,这里,写了一个图像和标签数据裁剪的代码,输出想要的对应的区域。
比如说我只想裁剪出所有数据集中的这个位置的图像,并修改对应的标签文件。
直接看代码了。
3.1 标签的裁剪
遍历整个object,将不在指定范围内的对象给移除。注意图像的坐标的表示方法。
import os
import xml.etree.ElementTree as ET
import glob
#设置输入的xml文件夹,输出的txt的文件夹的位置
in_path = r"D:\DATA\DL_Torch\DATAS\skysat\labels_ori"
write_path = r"D:\DATA\DL_Torch\DATAS\skysat\labels_ori_512"
if not os.path.exists(write_path):
os.mkdir(write_path)
# 切换工作空间并获取文件
os.chdir(in_path)
annotations = os.listdir('.')
annotations = glob.glob(str(annotations)+'*.xml')
# 迭代每个xml文件
for i, file in enumerate(annotations):
# 设置保存文件
save_name = file.split('.')[0] + '.xml'
save_file = os.path.join(write_path, save_name)
#开始解析xml文件
with open(file,'rb') as fp:
xml = ET.parse(fp)
root = xml.getroot()
#更改宽、高(这里手动设置为自己需要裁剪的尺寸)
size = root.find('size')
size.find('width').text = str(512)
size.find('height').text = str(512)
# print(size.find('width').text,size.find('height').text)
# 获取对象标签
for obj in root.findall('object'):
xmlbox = obj.find('bndbox')
xmin = int(xmlbox.find('xmin').text)
xmax = int(xmlbox.find('xmax').text)
ymin = int(xmlbox.find('ymin').text)
ymax = int(xmlbox.find('ymax').text)
#过滤筛选不在范围内的标签,根据自己的需要修改范围
if (xmax > 512 or ymax > 512):
root.remove(obj)
xml.write(save_file, xml_declaration=True)
print('{} is finished!!!'.format(save_file))
3.2 图像的裁剪
很常规的图片裁剪,主要要注意一下裁剪的位置和标签的裁剪位置对应起来,不然可能会出现标签没有对齐的情况。
import os
import glob
in_path = 'D:\images_ori'
out_path = r'D:\images_ori_512'
# 切换工作空间并获取文件
os.chdir(in_path)
annotations = os.listdir('.')
annotations = glob.glob(str(annotations)+'*.jpg')
#创建输出文件夹
if not os.path.exists(out_path):
os.mkdir(out_path)
# 迭代每张图片
for i, file in enumerate(annotations):
# 设置保存文件并打开
save_name = file.split('.')[0] + '.jpg'
save_file = os.path.join(out_path, save_name)
img = Image.open(file)
cropped = img.crop((0, 0, 512, 512)) #设置裁剪范围(x_min, y_min, x_max, y_max)
cropped.save(save_file)
print('{} save successed!!!'.format(save_file))
还行,凑合着用。需要改的自己改一点。
版权声明:本文为CSDN博主「XC___XC」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/XC___XC/article/details/120847869
暂无评论