Est-il possible, avec LuaTeX, de récupérer le contenu textuel d’un PDF (à l’aide d’un code lua j’imagine) ? Pour mon besoin, pas besoin que cela soit «propre» (par exemple, l’ordre n’a pas besoin d’être vraiment respecté), c’est pour faire «de la statistique» sur les mots employés.

Posée 01 Aoû '23, 09:00

Maxime's gravatar image

Maxime ♦
1.5k42839
Taux d'acceptation : 61%

Modifiée 01 Aoû '23, 12:50

1

Je ne comprends pas bien la question : s'agit-il de recourir à LuaTeX pour récupérer le contenu textuel d’un PDF ? Ou bien de récupérer le contenu textuel d’un PDF généré au moyen de LuaTeX ? Dans le dernier cas, pdftotext ⟨fichier⟩.pdf > ⟨fichier⟩.txt stocke le contenu textuel du fichier ⟨fichier⟩.pdf dans le fichier ⟨fichier⟩.txt.

(01 Aoû '23, 11:43) denis ♦♦ denis's gravatar image

Comme j’ai dit, en utilisant LuaTeX, récupérer le contenu textuel d’un PDF.

(01 Aoû '23, 12:49) Maxime ♦ Maxime's gravatar image
2

Un très vieux fil pas très encourageant link text

(02 Aoû '23, 17:58) jybaudais jybaudais's gravatar image

@jybaudais tout à fait :(, j’espérais que cela s’était amélioré, je vais aller poser la question sur stackexchange voir...

(07 Aoû '23, 14:31) Maxime ♦ Maxime's gravatar image
1

Bon, c’est possible, il y a bien un parser pour PDF dans luatex, sauf qu’il faut pas mal travailler pour récupérer le texte: https://tex.stackexchange.com/questions/692930/recovering-the-textual-content-of-a-pdf-file-with-luatex?noredirect=1#comment1719505_692930 ou encore l’article de Taco Hoekwater : https://tug.org/TUGboat/tb35-1/tb109hoekwater.pdf

(09 Aoû '23, 09:58) Maxime ♦ Maxime's gravatar image
Soyez le premier à répondre à cette question !
[Masquer l'aperçu]

Suivre cette question

Par courriel :

Une fois que vous serez enregistré, vous pourrez souscrire à n'importe quelle mise à jour ici

Par flux RSS :

Réponses

Réponses et commentaires

Mots-clés de la question :

×31
×5
×2

Question posée : 01 Aoû '23, 09:00

Question vue : 897 fois

Dernière mise à jour : 09 Aoû '23, 09:58

C'est votre première visite ici ? Consultez la FAQ !

×