[LuaTeX] récupérer le contenu textuel d’un PDF

Est-il possible, avec LuaTeX, de récupérer le contenu textuel d’un PDF (à l’aide d’un code lua j’imagine) ? Pour mon besoin, pas besoin que cela soit «propre» (par exemple, l’ordre n’a pas besoin d’être vraiment respecté), c’est pour faire «de la statistique» sur les mots employés.

lua luatex pdf

Posée 01 Aoû '23, 09:00

Maxime ♦
1.5k●6●31●42
Taux d'acceptation : 61%

Modifiée 01 Aoû '23, 12:50

Je ne comprends pas bien la question : s'agit-il de recourir à LuaTeX pour récupérer le contenu textuel d’un PDF ? Ou bien de récupérer le contenu textuel d’un PDF généré au moyen de LuaTeX ? Dans le dernier cas, pdftotext ⟨fichier⟩.pdf > ⟨fichier⟩.txt stocke le contenu textuel du fichier ⟨fichier⟩.pdf dans le fichier ⟨fichier⟩.txt.

(01 Aoû '23, 11:43) denis ♦♦

Comme j’ai dit, en utilisant LuaTeX, récupérer le contenu textuel d’un PDF.

(01 Aoû '23, 12:49) Maxime ♦

Un très vieux fil pas très encourageant link text

(02 Aoû '23, 17:58) jybaudais

@jybaudais tout à fait :(, j’espérais que cela s’était amélioré, je vais aller poser la question sur stackexchange voir...

(07 Aoû '23, 14:31) Maxime ♦

Bon, c’est possible, il y a bien un parser pour PDF dans luatex, sauf qu’il faut pas mal travailler pour récupérer le texte: https://tex.stackexchange.com/questions/692930/recovering-the-textual-content-of-a-pdf-file-with-luatex?noredirect=1#comment1719505_692930 ou encore l’article de Taco Hoekwater : https://tug.org/TUGboat/tb35-1/tb109hoekwater.pdf

(09 Aoû '23, 09:58) Maxime ♦

Soyez le premier à répondre à cette question !

(dés)activer l'aperçu

Wiki communautaire

Suivre cette question

Par courriel :

Une fois que vous serez enregistré, vous pourrez souscrire à n'importe quelle mise à jour ici

Par flux RSS :

Réponses

Réponses et commentaires

Bases de Markdown

*italique* ou _italique_
**gras** ou __gras__
Lien ::[texte](http://url.com/ "Titre ")
Image : ?![alt texte](/path/img.jpg "Titre ")
Liste numérotée : 1. Foo 2. Bar
Pour ajouter un passage à la ligne, ajoutez deux espaces à l'endroit où vous souhaitez que la ligne commence.
Les balises HTML de base sont également prises en charge.

En savoir plus sur Markdown

[LuaTeX] récupérer le contenu textuel d’un PDF

Suivre cette question

Questions similaires