Noe av det som ofte har frustrert meg er manglende evne til å enkelt kopiere tekst ut av bilder og visse PDF-filer (f.eks. De som kan ha blitt opprettet fra skannede dokumenter). Heldigvis er det over tid utviklet programvareløsninger for å løse dette problemet, noe som muliggjør betydelige tidsbesparelser som ellers ville blitt brukt manuelt på å kopiere og skrive inn teksten på nytt. I dagens tips skal jeg snakke om et gratis programvareverktøy kalt Capture2Text som bruker en OCR-algoritme (Optical Character Recognition) som lar deg fange tekst fra bilde- og PDF-filer.
Installasjon og oppsett
For å begynne, gå videre til prosjektets SourceForge-side og last ned den nyeste versjonen av Capture2Text. Programvaren kommer som et zip-arkiv og inkluderer på det tidspunktet ikke et eget installasjonsprogram. Når du er lastet ned, pakker du ut arkivet og starter Capture2Text.exe-filen. Dette vil starte programvaren og legge et ikon ned i systemstatusfeltet:
Det første du vil gjøre er å konfigurere programvarens preferanser, spesifikt hvilke hurtigtaster (eller snarveier) du vil bruke for å starte og stoppe fangst:
I mitt tilfelle har jeg valgt å bruke “Windows + q” -tastene for å starte fangst og “Enter” for å stoppe det. Du kan tilpasse disse alternativene til det som fungerer best for deg. Husk at “Windows + s” -tasten ofte brukes til skjermdumping allerede (f.eks. Av programmer som Microsoft One Note).
På neste fane kan OCR-alternativer konfigureres inkludert inngangsspråket (for øyeblikket støttes syv språk) og om du skal bruke OCR-forbehandling for å forbedre nøyaktigheten (anbefales på det sterkeste). Til slutt, på Output-fanen, kan du blant andre alternativer velge om du bare vil lagre den fangede teksten på utklippstavlen eller om du vil starte et eget popup-vindu.
Bruke programvaren
Når programvaren er installert og konfigurert, kan du begynne å bruke den via starttast-hurtigtastkombinasjonen. Velg musen til å velge området på bildet som inneholder teksten du vil ta. For å stoppe fangst, trykker du bare på hurtigtasten du har valgt for å stoppe fangsten. Teksten blir deretter kopiert enten til utklippstavlen, til et popup-vindu eller begge deler. Et eksempel kan sees nedenfor.
Fra min raske testing av verktøyet med bilder har jeg funnet at nøyaktigheten er anstendig. Det er klart det er begrensninger i verktøy som dette og OCR generelt. For eksempel fungerer tungt modifisert tekst (veldig kursiv, kursiv eller moderne) kanskje ikke så bra, og noen ganger ikke i det hele tatt. I noen tilfeller vil det også bidra til å justere dimensjonene til fangstboksen eller spille med zoomen på selve bildet for å få et mer nøyaktig resultat.
Når du tar tekst fra skannede PDF-dokumenter, er nøyaktigheten ok, med noen få endelige endringer som vanligvis fortsatt er nødvendige på den fangede utdata (avhengig av kvaliteten på den første skanningen). Jeg har også lagt merke til at programvaren kan ta noen sekunder lenger tid å behandle, spesielt når du blir bedt om å konvertere store mengder tekst.
Når det er sagt, synes jeg verktøyet generelt gjør en god jobb, spesielt siden det er fritt tilgjengelig - jeg oppfordrer deg til å prøve det.
Tillegg 11/16/2015:
Som et annet alternativ, for de som har Google-kontoer, er det også mulig å bruke Googles OCR-evner ved å laste opp en fil til Google Drive (flere detaljer finner du her). Videre er det også en OCR-plugin tilgjengelig for Google Chrome-brukere som heter Copyfish, som du kanskje også vil sjekke ut.