代码主体部分请自行下载paddleocr-2.9版本:https://openi.pcl.ac.cn/PaddlePaddle/PaddleOCR/src/tag/v2.9.0/ppocr 如果需要训练模型,请将项目中的config对应名称的yml文件替换为本项目中的yml文件 数据集链接: https://pan.baidu.com/s/1PyV01DF2gp66s1TXDAI5MQ?pwd=g7wr 提取码: g7wr 得到数据集后放进项目中,需要启动ppocrlabel,在其中打开数据集然后点击左上角“导出识别结果”得到crop_img图片文件夹,随后调用gen_ocr_train_val_test.py分割数据集 注意高版本的paddleocr中没有PPOCRLabel这个文件夹,需要自己手动去低版本中下载一个