Est-il possible, avec LuaTeX, de récupérer le contenu textuel d’un PDF (à l’aide d’un code lua j’imagine) ? Pour mon besoin, pas besoin que cela soit «propre» (par exemple, l’ordre n’a pas besoin d’être vraiment respecté), c’est pour faire «de la statistique» sur les mots employés.

Posée 01 Aoû '23, 09:00

Maxime's gravatar image

Maxime ♦
1.3k32439
Taux d'acceptation : 55%

Modifiée 01 Aoû '23, 12:50

1

Je ne comprends pas bien la question : s'agit-il de recourir à LuaTeX pour récupérer le contenu textuel d’un PDF ? Ou bien de récupérer le contenu textuel d’un PDF généré au moyen de LuaTeX ? Dans le dernier cas, pdftotext ⟨fichier⟩.pdf > ⟨fichier⟩.txt stocke le contenu textuel du fichier ⟨fichier⟩.pdf dans le fichier ⟨fichier⟩.txt.

(01 Aoû '23, 11:43) denis ♦♦ denis's gravatar image

Comme j’ai dit, en utilisant LuaTeX, récupérer le contenu textuel d’un PDF.

(01 Aoû '23, 12:49) Maxime ♦ Maxime's gravatar image
2

Un très vieux fil pas très encourageant link text

(02 Aoû '23, 17:58) jybaudais jybaudais's gravatar image

@jybaudais tout à fait :(, j’espérais que cela s’était amélioré, je vais aller poser la question sur stackexchange voir...

(07 Aoû '23, 14:31) Maxime ♦ Maxime's gravatar image
1

Bon, c’est possible, il y a bien un parser pour PDF dans luatex, sauf qu’il faut pas mal travailler pour récupérer le texte: https://tex.stackexchange.com/questions/692930/recovering-the-textual-content-of-a-pdf-file-with-luatex?noredirect=1#comment1719505_692930 ou encore l’article de Taco Hoekwater : https://tug.org/TUGboat/tb35-1/tb109hoekwater.pdf

(09 Aoû '23, 09:58) Maxime ♦ Maxime's gravatar image
Soyez le premier à répondre à cette question !
(dés)activer l'aperçu

Suivre cette question

Par courriel :

Une fois que vous serez enregistré, vous pourrez souscrire à n'importe quelle mise à jour ici

Par flux RSS :

Réponses

Réponses et commentaires

Bases de Markdown

  • *italique* ou _italique_
  • **gras** ou __gras__
  • Lien ::[texte](http://url.com/ "Titre ")
  • Image : ?![alt texte](/path/img.jpg "Titre ")
  • Liste numérotée : 1. Foo 2. Bar
  • Pour ajouter un passage à la ligne, ajoutez deux espaces à l'endroit où vous souhaitez que la ligne commence.
  • Les balises HTML de base sont également prises en charge.