yolov8训练自己的数据集遇到的问题_yolov8训练时无法识别xml-程序员宅基地

训练分类模型

1.如何更改模型的类别数nc

**方法一：**根据本地模型配置文件.yaml可以设置nc
在这里插入图片描述
但是，这里无法用到预训练模型.pt模型文件，预训练模型的权重参数是在大数据集上训练得到的，泛化性能可能比较好，所以，下载了官方的分类模型yolov8n-cls.pt（这里实际上经过验证可以通过其它方法利用yaml方法加载预训练模型的，见方法二）

由于需要魔改yolov8，所以下载了官方源码，在default.yaml配置文件中是各种超参数，包括data与model路径的设置

将data路径设置为本地路径，或者调用数据配置文件coco128.yaml文件进行更改也可，这里有个问题，由于我也利用pip安装了yolov8的源码库，导致在利用coco128.yaml文件时，代码会在官方下载数据，导致报错，可能与这部分代码有关，目前暂未解释，直接定位本地文件夹更方便。

model路径设置为下载的yolov8n-cls.pt本地路径，或者模型配置文件yolov8n.yaml路径，这里选择前者。
问题来了，官方配置文件的nc是1000，由上图模型配置文件也可看出，先说方法，在task.py文件中找到attempt_load_one_weight这个函数，这个函数是用来下载.pt模型文件的，在train.py文件中的下面函数也可以看到

def setup_model(self):
        """
        load/create/download model for any task
        """
        # classification models require special handling

        if isinstance(self.model, torch.nn.Module):  # if model is loaded beforehand. No setup needed
            return

        model = str(self.model)
        # Load a YOLO model locally, from torchvision, or from Ultralytics assets
        if model.endswith(".pt"):
            self.model, _ = attempt_load_one_weight(model, device='cpu')
            for p in self.model.parameters():
                p.requires_grad = True  # for training
        elif model.endswith(".yaml"):
            self.model = self.get_model(cfg=model)

解决办法：
在attempt_load_one_weight这个函数中添加代码如下，

def attempt_load_one_weight(weight, device=None, inplace=True, fuse=False):
    # Loads a single model weights
    ckpt = torch_safe_load(weight)  # load ckpt
    args = {
    **DEFAULT_CFG_DICT, **ckpt['train_args']}  # combine model and default args, preferring model args
    model = (ckpt.get('ema') or ckpt['model']).to(device).float()  # FP32 model

    ##########################change_nc###################################
    #方法一：
    nc = 5
    ch = 256
    m = model.model[-1]  # last layer
    #ch = m.conv.in_channels if hasattr(m, 'conv') else m.cv1.conv.in_channels  # ch into module
    c = Classify(ch, nc)  # Classify()
    c.i, c.f, c.type = m.i, m.f, 'models.common.Classify'  # index, from, type
    model.model[-1] = c  # replace
    print("############################################################")
    print(model)
    # print("model.layers:",len(model.layers))
    # for layer in model.layers[:-10]:
    #     layer.trainable = False
    #######################################################################

nc为自己数据的类别数，ch为模型最后一层的输入通道层数，这里由于模型没有layers参数，模型中卷积层没有in_channel参数，所以无法直接调用，所以咱不能进行冻结层训练，考虑到模型层数也不多，先暂且这样吧，ch可以将原.pt模型先转为onnx通过netron进行查看

这里要借鉴了ClassificationModel类下的_from_detection_model函数，根据onnx对比moudles.py文件中的Classify函数找到ch=256,因为这里的.pt模型文件中的最后一层为

![# YOLOv8.0n head
head:
  - [-1, 1, Classify, [nc]]  # Classify](https://img-blog.csdnimg.cn/9b83d6b87de54c26b044ed4eaac5b1aa.png)

class Classify(nn.Module):
    # YOLOv8 classification head, i.e. x(b,c1,20,20) to x(b,c2)
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1):  # ch_in, ch_out, kernel, stride, padding, groups
        super().__init__()
        c_ = 1280  # efficientnet_b0 size
        self.conv = Conv(c1, c_, k, s, autopad(k, p), g)
        self.pool = nn.AdaptiveAvgPool2d(1)  # to x(b,c_,1,1)
        self.drop = nn.Dropout(p=0.0, inplace=True)
        self.linear = nn.Linear(c_, c2)  # to x(b,c2)

    def forward(self, x):
        if isinstance(x, list):
            x = torch.cat(x, 1)
        x = self.linear(self.drop(self.pool(self.conv(x)).flatten(1)))
        return x if self.training else x.softmax(1)

注意：在训练完之后需要注释掉添加的代码，否则在export,val,predict模型的时候，比如onnx会调用模型下载函数，导致模型破坏。

在进行测试的时候，竟然发现原来没有改动类别数训练之后的模型发现虽然类别数是1000.但是在进行测试的时候，以及转换为onnx之后进行测试发现结果没有变化，甚至高一个点，什么鬼，据我猜测，数据没有发生变化，我直接设置的是本地路径，所以以经是设置为5类了，现在就剩模型最后一层的类别数不一样，也就是说在训练的时候，无论你模型设置多少类，只要数据集类数确定了，那么最后训练的结果是一样的，就好像多余的类别数默认输出为0，但是前面的类别数输出结果不变。

方法二：
如果不想上面那么麻烦的话，后面测试直接在yaml文件中配置也可以，只需要在train.py文件中加载.yaml模型时添加预训练weights参数

elif model.endswith(".yaml"):
     #self.model = self.get_model(cfg=model)#修改前
     self.model = self.get_model(weights="/home/disk/xxx/projects/ultralytics/ultralytics/yolov8n-cls.pt",cfg=model)

只改这部分会报错显示model无法float，因为默认会调用task.py文件中的class ClassificationModel(BaseModel):中的def load(self, weights)来加载权重，只需要修改如下即可

def load(self, weights):
    #model = weights["model"] if isinstance(weights, dict) else weights  # torchvision models are not dicts
    #------------------------------------add_pre_model---------------------
    ckpt = torch_safe_load(weights)  # load ckpt
    args = {
    **DEFAULT_CFG_DICT, **ckpt['train_args']}  # combine model and default args, preferring model args
    model = (ckpt.get('ema') or ckpt['model'])  # FP32 model
    #----------------------------------------------------------------------
    csd = model.float().state_dict()
    csd = intersect_dicts(csd, self.state_dict())  # intersect
    self.load_state_dict(csd, strict=False)  # load

2.如何将pt模型的三通道改为单通道

如果使用上面第二个方法的话，步骤一可以不用管，直接从第二步开始

1.输入层的修改，将模型第一个卷积层的输入通道数从3改为1，权重改为单通道，具体代码如下：
原模型第一层的conv的输入通道数为3，权重通道为[:, :3, :, :]
在attempt_load_one_weight这个函数中添加代码如下，

	#修改输入通道数，权重通道数
    model.model[0].conv.in_channels = 1
    model.model[0].conv.weight = torch.nn.Parameter(model.model[0].conv.weight[:, :1, :, :])
    #model.model[0].conv.weight.data = model.model[0].conv.weight.data[:, :1, :, :]

2.修改数据集图片的维度，将其由三通道rgb转为单通道灰度图
在dataset.py文件中修改def getitem(self, i)函数

def __getitem__(self, i):
        f, j, fn, im = self.samples[i]  # filename, index, filename.with_suffix('.npy'), image
        if self.cache_ram and im is None:
            im = self.samples[i][3] = cv2.imread(f)
        elif self.cache_disk:
            if not fn.exists():  # load npy
                np.save(fn.as_posix(), cv2.imread(f))
            im = np.load(fn)
        else:  # read image
            im = cv2.imread(f)  # BGR
        if self.album_transforms:
            sample = self.album_transforms(image=cv2.cvtColor(im, cv2.COLOR_BGR2RGB))["image"]#源代码
        else:
            #修改为单通道
            import numpy as np
            image=cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
            sample = self.torch_transforms(image)
            
            
            #sample = self.torch_transforms(im)#原代码

然后，torch_transforms函数索引到augment.py函数中的classify_transforms函数，在这个函数中分别修改CenterCrop(size), ToTensor(), T.Normalize(IMAGENET_MEAN, IMAGENET_STD)函数

def classify_transforms(size=224):
    # Transforms to apply if albumentations not installed
    if not isinstance(size, int):
        raise TypeError(f"classify_transforms() size {
      size} must be integer, not (list, tuple)")
    # T.Compose([T.ToTensor(), T.Resize(size), T.CenterCrop(size), T.Normalize(IMAGENET_MEAN, IMAGENET_STD)])
    return T.Compose([CenterCrop(size), ToTensor(), T.Normalize(IMAGENET_MEAN, IMAGENET_STD)])

CenterCrop(size), ToTensor()两个函数中分别添加im = np.array(im)[ :, :, np.newaxis]代码添加维度，否则会报错
T.Normalize(IMAGENET_MEAN, IMAGENET_STD)修改IMAGENET_MEAN, IMAGENET_STD参数的数值由三个通道改为单个通道数值

如果要进行验证集测试的话会遇到报错RuntimeError: Given groups=1, weight of size [16, 1, 3, 3], expected input[1, 3, 64, 64] to have 1 channels, but got 3 channels instead
将validator.py文件中__call__函数中

model.warmup(imgsz=(1 if pt else self.args.batch, 3, imgsz, imgsz))
修改为
model.warmup(imgsz=(1 if pt else self.args.batch, 1, imgsz, imgsz))

3.更改模型激活函数

在模型进行量化的时候发现运用原模型激活函数silu导致前后差异大，因此使用relu函数进行训练
主要将modules.py函数中的**class Conv(nn.Module)*类中的默认default_act = nn.SiLU()改为default_act = nn.ReLU()即可

本文链接：https://blog.csdn.net/m0_47709941/article/details/129839592

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios