16 March, 2011

10.000 linjer om forskning

Strøtanker: har netop modtaget en cdrom fra Bento software med wordfiler på mindst 10.000 linjer med oplysning om forskningsartikler. En linje pr. artikel samt en slags tags. Efterhånden som filen vokser (den er monsterstor nu) bliver det jo et upraktisk med et monolitisk filformat. Komplekse søgninger er ikke muligt i en wordfil.

En databaseløsning med et python-Glade / web interface....?

Hvordan konverterer man .doc på en fornuftig måde, så resultatet kan håndteres af en database? Redaktøren er ofte off-line, så her må man finde en løsning til offline redigering... hmmm... tænke, tænke....

Første løsning: konverter .doc til alment tekstformat. Så kan man:
# cat AQC-Index-2010.txt | grep spam > eggs.txt

En python / glade GUI burde kunne udføre samme nummer.

No comments: