• OCR测试—文字密度和中英文


    一、测试目标

    测试图片中文字密度和中英文混合对文字识别的影响.

    二、测试效果

    2.1 文字密度

    文字密度占比分别为 10%, 30%, 50%, 70%, 90%

    2.1.1 文字密度占10%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 0.9524 / 1 / 1

    准确率: 0.9962806522846221 / 0.9552404511542547 / 1

    耗时: 2.791s / 1.652s / 7.231s

    2.1.2 文字密度占30%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 1 / 1 / 1

    准确率: 0.9914099194786765 / 0.8890374269750383 / 1

    耗时: 2.874s / 2.403s / 7.683s

    2.1.3 文字密度占50%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 1 / 1 / 1

    准确率: 0.947605924172835 / 0.9050272788320269 / 1

    耗时: 1.887s / 4.154s / 7.091s

    2.1.4 文字密度占70%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 1 / 1 / 1

    准确率: 0.993117007944319 / 0.9413371117491471 / 1

    耗时: 2.320s / 1.282s / 7.683s

    2.1.5 文字密度占90%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 0.8929 / 0.9286 / 1

    准确率: 0.9453809309005737 / 0.9491195160409679 / 1

    耗时: 3.575s / 3.706s / 7.945s

    2.2 中英文混合

    英文在图片中占比分别为 0%, 30%, 50%, 70%, 90%, 100%

    2.2.1 英文占比0%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 1 / 1 / 1

    准确率: 0.9818116164207459 / 0.9547537684440612 / 1

    耗时: 4.688s / 3.742s / 5.687s

    2.2.2 英文占比30%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 0.9189 / 0.8529 / 1

    准确率: 0.9627916146727169 / 0.9405301994290846 / 1

    耗时: 5.142s / 2.344s / 6.216s

    2.2.3 英文占比50%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 0.9574 / 0.9302 / 1

    准确率: 0.94462571144104 / 0.9210820630192756 / 1

    耗时: 5.573s / 3.177s / 6.346s

    2.2.4 英文占比70%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 0.86 / 0.7826 / 1

    准确率: 0.940701121507689 / 0.9091679023371803 / 1

    耗时: 3.995s / 2.132s / 5.312s

    2.2.5 英文占比约100%

    (1) 对比图

    V2 模型

    V3 模型

    竞品

    (2) V2 / V3 / 竞品 对比

    召回率: 0.9074 / 0.8824 / 1

    准确率: 0.9420735179161539 / 0.8946475161446465 / 1

    耗时: 4.217s / 2.261s / 5.743s

    三、总结

    3.1 文字密度占比总结

    (1) 总体来说, 文字密度在 v2 和 v3 两个模型上对检测有一定影响, 当文字稀疏且文字并非以单个字符出现时容易被检测到, 以单个字符出现时则不容易被检测到. 当图片中存在一定文字时, v3 的检测强于 v2.

    文字密度对 v2 和 v3 两个模型识别准确度没有明显影响, 但 v3 准确度明显低于 v2, 但是 v3 的速度明显快于 v2.

    以上识别和检测, 竞品皆优与 v2 和 v3 模型, 但速度上慢于 v2 和 v3 模型.

    (2) 对比表

    测试项目 (v2 / v3 / 竞品)召回率准确率耗时
    文字密度占10%0.9524 / 1 / 10.996 / 0.955 / 12.791s / 1.652s / 7.231s
    文字密度占30%1 / 1 / 10.991 / 0.889 / 12.874s / 2.403s / 7.683s
    文字密度占50%1 / 1 / 10.948 / 0.905 / 11.887s / 4.154s / 7.091s
    文字密度占70%1 / 1 / 10.993 / 0.941 / 12.320s / 1.282s / 7.683s
    文字密度占90%0.8929 / 0.9286 / 10.945 / 0.949 / 13.575s / 3.706s / 7.945s

    3.2 英文占比总结

    (1) 在测试图片中出现了多个单字符的情况, v2 和 v3 模型都不能正确检测.

    总体来说, 中英文混合占比不同基本不会影响文本的检测和识别.

    v2 模型的检测在这方面优于 v3 模型, 但依旧存在 v2 模型的识别速度慢于 v3.

    以上情况, 竞品都能很好的检测和识别, 且速度与 v2 和 v3 模型持平.

    (2) 对比表

    测试项目 (v2 / v3 / 竞品)召回率准确率耗时
    英文占比0%1 / 1 / 10.982 / 0.955 / 14.688s / 3.742s / 5.687s
    英文占比30%0.9189 / 0.8529 / 10.963 / 0.941 / 15.142s / 2.344s / 6.216s
    英文占比50%0.9574 / 0.9302 / 10.945 / 0.921 / 15.573s / 3.177s / 6.346s
    英文占比70%0.86 / 0.7826 / 10.941 / 0.909 / 13.995s / 2.132s / 5.312s
    英文占比100%0.9074 / 0.8824 / 10.942 / 0.895 / 14.217s / 2.261s / 5.743s

    3.3 其他

    v2 模型部署到服务器上, 运行时占用显存为 1700MB

    v3 模型部署到服务器上, 运行时占用显存为 870MB

  • 相关阅读:
    Olaparib 有望治疗 UBQLN4 过表达型肿瘤
    sql第二次上机作业
    Tpflow V6.0.8 正式版发布
    【PyTorch深度强化学习】TD3算法(双延迟-确定策略梯度算法)的讲解及实战(超详细 附源码)
    YoloV9改进策略:注意力改进、Neck层改进_自研全新的Mamba注意力_即插即用,简单易懂_附结构图_检测、分割、关键点均适用(独家原创,全世界首发)
    数学建模理论与实践国防科大版
    毅速丨3D打印透气钢正在被各行业广泛应用
    SpringBoot统一返回处理出现cannot be cast to java.lang.String异常
    this is incompatible with sql_mode=only_full_group_by解决方案
    计算机视觉40例之案例14指纹识别
  • 原文地址:https://blog.csdn.net/qq_44309220/article/details/127579544