Est-il possible, avec LuaTeX, de récupérer le contenu textuel d’un PDF (à l’aide d’un code lua j’imagine) ? Pour mon besoin, pas besoin que cela soit «propre» (par exemple, l’ordre n’a pas besoin d’être vraiment respecté), c’est pour faire «de la statistique» sur les mots employés. Posée 01 Aoû '23, 09:00 Maxime ♦ |
Je ne comprends pas bien la question : s'agit-il de recourir à
LuaTeX
pour récupérer le contenu textuel d’un PDF ? Ou bien de récupérer le contenu textuel d’un PDF généré au moyen deLuaTeX
? Dans le dernier cas,pdftotext ⟨fichier⟩.pdf > ⟨fichier⟩.txt
stocke le contenu textuel du fichier⟨fichier⟩.pdf
dans le fichier⟨fichier⟩.txt
.Comme j’ai dit, en utilisant LuaTeX, récupérer le contenu textuel d’un PDF.
Un très vieux fil pas très encourageant link text
@jybaudais tout à fait :(, j’espérais que cela s’était amélioré, je vais aller poser la question sur stackexchange voir...
Bon, c’est possible, il y a bien un parser pour PDF dans luatex, sauf qu’il faut pas mal travailler pour récupérer le texte: https://tex.stackexchange.com/questions/692930/recovering-the-textual-content-of-a-pdf-file-with-luatex?noredirect=1#comment1719505_692930 ou encore l’article de Taco Hoekwater : https://tug.org/TUGboat/tb35-1/tb109hoekwater.pdf