|
Est-il possible, avec LuaTeX, de récupérer le contenu textuel d’un PDF (à l’aide d’un code lua j’imagine) ? Pour mon besoin, pas besoin que cela soit «propre» (par exemple, l’ordre n’a pas besoin d’être vraiment respecté), c’est pour faire «de la statistique» sur les mots employés. |
Je ne comprends pas bien la question : s'agit-il de recourir à
LuaTeXpour récupérer le contenu textuel d’un PDF ? Ou bien de récupérer le contenu textuel d’un PDF généré au moyen deLuaTeX? Dans le dernier cas,pdftotext ⟨fichier⟩.pdf > ⟨fichier⟩.txtstocke le contenu textuel du fichier⟨fichier⟩.pdfdans le fichier⟨fichier⟩.txt.Comme j’ai dit, en utilisant LuaTeX, récupérer le contenu textuel d’un PDF.
Un très vieux fil pas très encourageant link text
@jybaudais tout à fait :(, j’espérais que cela s’était amélioré, je vais aller poser la question sur stackexchange voir...
Bon, c’est possible, il y a bien un parser pour PDF dans luatex, sauf qu’il faut pas mal travailler pour récupérer le texte: https://tex.stackexchange.com/questions/692930/recovering-the-textual-content-of-a-pdf-file-with-luatex?noredirect=1#comment1719505_692930 ou encore l’article de Taco Hoekwater : https://tug.org/TUGboat/tb35-1/tb109hoekwater.pdf