OCRのノイズがRAGに与える影響とは？

12月 05 2024

解説

AMI HAPPY

ねえ、トモヤくん！この論文のタイトル、面白そうだね！『OCRがRAGを妨げる』ってどういうこと？

TOMOYA NEUTRAL

ああ、それは面白いテーマだよ。RAGっていうのは、外部の知識を使ってLLMの性能を向上させる手法なんだ。だけど、OCRを使ってPDFからデータを抽出する際に、ノイズが入ることが問題なんだ。

AMI SURPRISED

ノイズって何？それがどうRAGに影響するの？

TOMOYA NEUTRAL

ノイズには、意味的ノイズとフォーマットノイズの2種類があるんだ。意味的ノイズは、OCRが間違った文字を認識したり、意味が変わってしまうこと。フォーマットノイズは、データの形式がバラバラになることだよ。これらがRAGの精度を下げるんだ。

AMI CURIOUS

なるほど！じゃあ、この論文ではどんな方法を提案しているの？

TOMOYA NEUTRAL

この論文では、OHRBenchというベンチマークを提案しているんだ。これは350のPDF文書を使って、OCRの影響を評価するためのものだよ。実際にOCRを使ってみて、どれだけノイズが入るかを調べているんだ。

AMI HAPPY

評価実験の結果はどうだったの？

TOMOYA NEUTRAL

結果として、現在のOCRソリューションはRAGシステムの高品質な知識ベースを構築するには不十分だとわかったんだ。つまり、OCRの精度が低いと、RAGの性能も落ちるってことだね。

AMI HAPPY

それってすごく重要な発見だね！将来的にはどうなるの？

TOMOYA NEUTRAL

将来的には、OCRを使わずにVision-Language ModelsをRAGシステムに組み込む可能性があるんだ。これが実現すれば、もっと高品質な知識ベースが作れるかもしれないね。

AMI HAPPY

でも、OCRがいらなくなるって、ちょっと寂しいね。OCRも頑張ってるのに！

TOMOYA NEUTRAL

確かに、OCRも頑張ってるけど、完璧にはなれないからね。頑張りすぎないでほしいな。

Retrieval-augmented Generation (RAG)は、外部知識を統合してLLMの性能を向上させる手法。

OCR（光学文字認識）は、非構造化PDFから構造化データを抽出するために使用されるが、精度が完璧ではないため、ノイズが発生する。

この論文では、OCRの影響を評価するためのOHRBenchというベンチマークを提案している。

OHRBenchは、350のPDF文書を使用して、OCRのノイズがRAGシステムに与える影響を評価する。

OCRノイズには、意味的ノイズとフォーマットノイズの2種類がある。

現在のOCRソリューションは、RAGシステムの高品質な知識ベースを構築するには不十分であることが示された。

将来的には、OCRを使用せずにVision-Language Models（VLMs）をRAGシステムに組み込む可能性がある。

投稿日:AI