如何生成大批量的可以训练的数据

mac2024-04-21  9

深度学习中,让一个模型能够有更好的泛化能力,最重要的根本就是数据的多样性。但是现实中场景数据复杂多样。以OCR文档识别为例,一方面收集会耗费大量精力(文档图像拍照等等),另一方面,标注过程费时费力,不仅需要标注文本位置,还需要标注其对应的label信息。

 

以下仅为思路参考:

1、有可以大量使用的电子版数据(数据库、文本文档等)

2、利用word模板生成对应的word文档

3、docx格式文档转为pdf文件

4、pdf文件转为图片

5、找出图片中的文本的最小外接矩形

6、外接矩形的整行拼接

7、输出坐标信息到txt文档,完成数据标注与生成

 

给出两个参考的github生成数据:

https://github.com/Sierkinhane/crnn_chinese_characters_rec

https://github.com/Sanster/text_renderer

 

最新回复(0)