发布日期:2025-12-22 17:51 点击次数:189

「OCRFlux」是什么?
它是一款轻量级多模态大谈话模子的器具包,主邀功能是把PDF赈济为Markdown文献,它的上风是不错处置复杂的排版剖析、复杂的表格剖析和跨页执行吞并这些难点问题,同期它的识别准确率也尤为隆起。受到强劲用户的意思。
图片
二、为什么咱们要用OCRFlux? 肯定在宇宙在平素使命中详情会用到将PDF赈济为Markdown的场景,也许在看到今天这个器具之前,宇宙一定也会使用过其他的OCR识别器具。其实我也用过,比如olmOCR、Nanonets-OCR,MonkeyOCR等等。 然而今天为什么推选这个OCRFlux器具呢?因为它如实不错大意更复杂的PDF贵府文献,何况准确率也更高。口说无凭,先看官方测评数据。 单页面执行的测试(OCRFlux-bench-single)用器具生成的Markdown与委果的Markdown之间的相似度(EDS)为方向。不错看出OCRFlux器具比其他的常用OCR识别器具更准确,达到了96.7%的分数。LanguageModelAvg EDS ↑EnglisholmOCR-7B-0225-preview0.885Nanonets-OCR-s0.870MonkeyOCR0.828OCRFlux-3B0.971ChineseolmOCR-7B-0225-preview0.859Nanonets-OCR-s0.846MonkeyOCR0.731OCRFlux-3B0.962TotalolmOCR-7B-0225-preview0.872Nanonets-OCR-s0.858MonkeyOCR0.780OCRFlux-3B0.967 单页面复杂表格的测试(OCRFlux-pubtabnet-single)一样使用器具生成HTML的表格与委果的HTML表格之间的相似度(TEDS)为方向。不错看出OCRFlux的搁置总体分数亦然最高的,达到86.1%的分数。TypeModelAvg TEDS ↑SimpleolmOCR-7B-0225-preview0.810Nanonets-OCR-s0.882MonkeyOCR0.880OCRFlux-3B0.912ComplexolmOCR-7B-0225-preview0.676Nanonets-OCR-s0.772MonkeyOCR0.826OCRFlux-3B0.807TotalolmOCR-7B-0225-preview0.744Nanonets-OCR-s0.828MonkeyOCR0.853OCRFlux-3B0.861底下再来望望,跨页面的测试数据搁置。 跨页面执行的测试(OCRFlux-bench-cross)使用的方向包括,精确率(Precision)、调回率(Recall)、准确率(Accuracy)和F1分数。它的总体准确率达到99.6%LanguagePrecision ↑Recall ↑F1 ↑Accuracy ↑English0.9920.9640.9780.978Chinese1.0000.9880.9940.994Total0.9960.9760.9860.986 跨页面复杂表格的测试(OCRFlux-pubtabnet-cross)方向包括表格复杂度,和平均TEDS,一样不错看出它准确率皆在90%以上。Table typeAvg TEDS ↑Simple0.965Complex0.935Total0.950 也许关于这些方向莫得直不雅感受,仅仅一些数字,那么底下咱们望望它委果识别成果。三、中枢功能包括哪些?
1、单页面识别场景:
1.1 跨列表格,当PDF中存在跨多列时,就难以准确判定单位格界限,容易导致识别不准确。不错直不雅地看出,OCRFlux识别的成果是相比准确的。
图片
1.2吞并单位格
当PDF中存在吞并单位格的时间,寥落容易识别出歧义,OCRFlux复旧复杂表格结构的复原,因此不错准确识别其中的执行。
图片
1.3多列
当PDF中存在多列的时间,频繁会打乱老例的从左至右的阅读法例,因此容易识别有毛病,不错看下OCRFlux不错识别的搁置,给出了正确的阅读法例。
图片
1.4多表格
单页pdf中的多表格,也会增多识别剖析的复杂度,必须作念出正确的切割,才智保证展示的正确,OCRFlux的识别亦然莫得问题的。
图片
1.5多谈话
一个PDF中羼杂多种谈话,一样会增多识别难度,OCRFlux具备强劲的谈话识别和处贤慧商,不错精确识别这种羼杂谈话的文档。
图片
2、跨页段落/表格吞并场景:
2.1跨页表格
PDF中频繁遭受表格跨页分袂,增多了OCR的识别难度,OCRFlux不错自动检测吞并表格元素,无缝对接高下页的执行,输出正确的搁置。
图片
2.2表格垂直拆分
多列表格的PDF中,频繁出现纵向分袂,导致证据数据和重组数据存在辛勤,OCRFlux不错精确的识别出这种场景,不错看下成果。
图片
2.3表头重叠
在跨页表格的PDF中,表格的页眉重叠也会导致OCR识别邪恶,OCRFlux不错智能吞并跨页执行,自动删除过剩的页眉。
图片
2.4单位格多行拆分
执行跨页超长单位格寥落容易导致识别邪恶,OCRFlux也不错智能吞并保留齐全的数据执行。
图片
四、主要欺诈场景?学术谈判:关于学术文档、复杂的文献皆不错使用OCRFlux赈济为Markdown进行修改。
工夫文档:关于PDF武艺工夫文档,寥落是英文的文档,不错不错使用OCRFlux赈济为Markdown文献。
单子的识别:比如财务单子、票据等PDF武艺,皆不错赈济为Markdown武艺进行修改存储。
五、何如部署?部署款式:1、源码部署通过Conda创建一个Python环境来装置。conda create -n ocrflux python=3.11conda activate ocrfluxgit clone https://github.com/chatdoc-com/OCRFlux.gitcd ocrfluxpip install -e . --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer/2、土产货使用款式PDF转Markdown:python -m ocrflux.pipeline ./localworkspace --data test.pdf --model /model_dir/OCRFlux-3B图片转Markdown:python -m ocrflux.pipeline ./localworkspace --data test_page.png --model /model_dir/OCRFlux-3B批量PDF转Markdown:
python -m ocrflux.pipeline ./localworkspace --data test_pdf_dir/* --model /model_dir/OCRFlux-3B搁置皆会保存在./localworkspace/results目次中。也不错建造--skip_cross_page_merge 跳过剖析流程的跨页面吞并,把各个页面的剖析搁置快速拼接起来,生成一个Markdown文献。3、Docker部署docker run -it --gpus all \ -v /path/to/localworkspace:/localworkspace \ -v /path/to/test_pdf_dir:/test_pdf_dir/ \ -v /path/to/OCRFlux-3B:/OCRFlux-3B \ chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/使用底下敕令生成Markdown文献,生成的文献默许保存在./localworkspace/markdowns/DOCUMENT_NAME目次里。
python -m ocrflux.jsonl_to_markdown ./localworkspace五、名目地址
https://github.com/chatdoc-com/OCRFlux
https://ocrflux.pdfparser.io/
今天的共享就到这里美女视频黄色免费网站,感谢宇宙的阅读。要是你最近也要使用PDF赈济为Markdown武艺,不错试试这个器具。
本站仅提供存储做事,通盘执行均由用户发布,如发现存害或侵权执行,请点击举报。上一篇:籃網作念客擒「熊」無難度
下一篇:没有了
Powered by 欧美大片齐全的app @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2025