>_Reeboot
IA

Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qianfan-OCR de Baidu est un modèle de compréhension de documents de 4B paramètres classé n°1 sur OmniDocBench v1.5 — devant Gemini 3 Pro et DeepSeek-OCR-v2 sur les tableaux, formules, mise en page et

Qu'est-ce que Qianfan-OCR ?

Qianfan-OCR est un modèle de compréhension de documents publié par Baidu. Il convertit des images de documents — PDFs, scans, photos, captures d'écran — directement en Markdown structuré, JSON ou HTML, en traitant tout : du texte simple aux tableaux complexes, formules mathématiques et graphiques.

Il se classe n°1 sur OmniDocBench v1.5, le benchmark principal pour l'analyse de documents bout-en-bout, avec un score global de 93,12 — devant DeepSeek-OCR-v2 (91,09) et Gemini 3 Pro (90,33).

La décision architecturale clé est de tout faire dans un seul modèle plutôt que d'enchaîner des modules OCR, mise en page et compréhension séparés. Cela évite la perte d'information entre les étapes du pipeline — ce qui compte surtout pour les documents complexes comme les graphiques, les sujets d'examen ou les mises en page multi-colonnes.


Architecture

Le modèle comprend trois composants :

  • Qianfan-ViT — un encodeur visuel avec une conception AnyResolution. Il découpe l'image en tuiles de 448×448 et traite jusqu'à 4 096 tokens visuels, supportant les images jusqu'à 4K sans perdre de détails sur les documents denses.
  • Qwen3-4B — le backbone linguistique de la série Qwen3 d'Alibaba, avec Grouped Query Attention (32 têtes query / 8 têtes KV) et une fenêtre de contexte de 32K extensible à 131K.
  • Adaptateur cross-modal — un MLP 2 couches qui relie la sortie 1024-dim de l'encodeur visuel à l'entrée 2560-dim du modèle de langage.

Total : ~4B paramètres (5B avec les embeddings).


Layout-as-Thought

La fonctionnalité la plus originale de Qianfan-OCR est le Layout-as-Thought — un mode de réflexion qui récupère l'analyse structurelle au sein d'un modèle bout-en-bout.

Lorsqu'il est activé (en ajoutant <think> au prompt), le modèle génère d'abord une représentation structurée de la page — boîtes englobantes, types d'éléments sur 25 catégories, et ordre de lecture — avant de produire la sortie finale. C'est le type d'information que les pipelines multi-étapes classiques calculent séparément à chaque étape, mais ici cela se passe dans un seul passage.

Quand utiliser le mode thinking :

Type de document Recommandation
Sujets d'examen, rapports techniques, journaux Activer (<think>)
Articles scientifiques avec équations et tableaux Activer (<think>)
Texte mono-colonne, formulaires simples Désactiver — meilleurs résultats sans
Reçus et factures Désactiver

Tâches prises en charge

25 types d'éléments sur 9 catégories de tâches :

Catégorie Détails
Analyse de documents Image → Markdown, multi-pages, sortie JSON/HTML
Analyse de mise en page Boîtes englobantes, 25 types d'éléments, ordre de lecture
Reconnaissance de tableaux Cellules fusionnées, tableaux pivotés, sortie HTML
Reconnaissance de formules Maths en ligne et en bloc, sortie LaTeX
Compréhension de graphiques QA, analyse de tendances, extraction de données
Extraction d'informations clés Factures, reçus, cartes d'identité, dossiers médicaux
Écriture manuscrite Chinois et anglais
Texte en scène naturelle Panneaux, étiquettes, images naturelles
OCR multilingue 192 langues (latin, cyrillique, arabe, CJK, etc.)

Résultats des benchmarks

OmniDocBench v1.5 — n°1 global

Modèle Global Dist. édition texte Formule Table TEDs Table TEDss Ordre lecture
Qianfan-OCR 93,12 0,041 92,43 91,02 93,85 0,049
DeepSeek-OCR-v2 91,09 0,048 90,31 87,75 92,06 0,057
Gemini 3 Pro 90,33 0,065 89,18 88,28 90,29 0,071

Extraction d'informations clés — n°1 (moyenne sur 5 benchmarks)

Modèle Score moyen KIE
Qianfan-OCR 87,9
Gemini 3.1 Pro inférieur
Qwen3-VL-235B-A22B inférieur

Compréhension de documents et graphiques

Benchmark Score
DocVQA 92,8
CharXiv DQ 94,0
CharXiv RQ 85,2
ChartQA 88,1
ChartQAPro 42,9
ChartBench 85,9

OCR général

Benchmark Score
OCRBench 880
OCRBench v2 (EN) 56,0
OCRBench v2 (ZH) 60,77
CCOCR multilingue 76,7

Performances à l'inférence

Mesurées sur un seul NVIDIA A100 :

Précision Débit
W16A16 (BF16 complet) 0,503 pages/seconde
W8A8 (quantifié) 1,024 pages/seconde

La quantification W8A8 double environ le débit — utile pour les pipelines de production traitant de gros volumes de documents.

Déploiement avec vLLM pour un service haute performance :

vllm serve baidu/Qianfan-OCR --trust-remote-code

Ou via l'API Transformers en local :

import torch
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    "baidu/Qianfan-OCR",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
).eval()
tokenizer = AutoTokenizer.from_pretrained("baidu/Qianfan-OCR", trust_remote_code=True)

# Analyser un document en Markdown
response = model.chat(tokenizer, pixel_values=pixel_values,
                      question="Parse this document to Markdown.",
                      generation_config={"max_new_tokens": 16384})

# Avec Layout-as-Thought pour les mises en page complexes
response = model.chat(tokenizer, pixel_values=pixel_values,
                      question="Parse this document to Markdown.<think>",
                      generation_config={"max_new_tokens": 16384})

# Extraction d'informations clés en JSON
response = model.chat(tokenizer, pixel_values=pixel_values,
                      question="Extraire nom, date et montant total en JSON.",
                      generation_config={"max_new_tokens": 16384})

Écosystème du modèle


Limites

  • trust_remote_code requistrust_remote_code=True nécessaire pour le modèle et le tokenizer ; auditer le code avant de déployer dans des environnements sensibles
  • Compréhension de graphiques complexes — le score ChartQAPro (42,9) indique que l'analyse de graphiques complexes a encore des marges de progression
  • Pas de support PDF natif — il faut convertir les pages PDF en images au préalable
  • Fenêtre de contexte — 32K par défaut, extensible à 131K ; les très longs documents nécessitent un découpage
  • Licence — non précisée dans la fiche modèle ; vérifier le dépôt avant tout usage commercial

Conclusion

L'argument principal de Qianfan-OCR est sa position dans les benchmarks : il surpasse à la fois un modèle fermé frontier (Gemini 3 Pro) et la meilleure alternative open source (DeepSeek-OCR-v2) sur le principal benchmark d'analyse de documents, avec un seul modèle de 4B paramètres. Le mécanisme Layout-as-Thought est une solution pragmatique à la tension classique entre la simplicité bout-en-bout et l'analyse de mise en page structurée.

Pour les développeurs qui construisent des pipelines documentaires — traitement de factures, correction d'examens, extraction de rapports, ou RAG sur des documents scannés — c'est l'option open weights la plus solide disponible à cette taille.

Modèle : baidu/Qianfan-OCR