Hoe werkt data extractie en automatische tekstherkenning?

Veelgestelde vragen over data extractie

Wil je weten hoe data extractie precies in zijn werk gaat? Hier vind je de meest gestelde vragen over data extractie. Voor meer informatie zie onze pagina over onze data dienst: data extractie.

Wat houdt data extractie in?

Met data extractie wordt bedoeld; het vinden en verwerken van data uit verschillende type bronnen. Data extractie kan zowel manueel als geautomatiseerd plaats vinden. Wanneer het geautomatiseerd plaats vindt, dan wordt daar vaak automatische tekstherkenning voor gebruikt.
Lees meer over hoe data extractie werkt op onze dienst data extractie.

Wat is automatische tekstherkenning?

Door middel van automatische tekstherkenning worden woorden herkend in een afbeelding. Dit wordt door middel van OCR (Optical Character Recognition) gedaan. OCR herkend de letters, vervolgens maakt de software daar woorden van.
Met automatische tekstherkenning kunt bijvoorbeeld uw gescande documenten doorzoekbaar maken.

Wat is OCR?

OCR (Optical Character Recognition) is het vertalen van patronen in een afbeelding, naar (bijvoorbeeld) alfabetische karakters.
De software beschikt over patronen van pixels die vertaald kunnen worden naar een ASCII karakter. Doordat de software onderscheidt kan maken tussen achtergrond en karakter kan een patroon in pixels herkend worden. Deze wordt vervolgens tegen een index met ASCII karakters gelegd, om zo tot een aannemelijk resultaat te komen.

Wat kost automatische tekstherkenning?

Voor automatische tekstherkenning is specialistische software nodig. Het licentie model van dergelijke software is per pagina. Kortom, u betaald een vast bedrag per pagina, om de software te mogen gebruiken.
Om de software enige betrouwbaarheid te geven, zijn controles essentieel. Deze controles (context scanning) dienen vooraf geconfigureerd te worden. Hierdoor is er vaak sprake van een relatief hoge opstart prijs.

Wat is de betrouwbaarheid van automatische tekstherkenning?

De betrouwbaarheid van de herkenning is afhankelijk van de kwaliteit van de scans. Standaard automatische tekstherkenning, zonder enige controle of context, heeft over het algemeen een accuratesse van +/- 80%.

Hoe kan ik de betrouwbaarheid van automatische tekstherkenning vergroten?

Om tot een acceptabel niveau te komen voegen de meeste bedrijven hier context herkenning aan toe. De software wordt enige context gegeven tijdens de tekst herkenning (taal, formattering, etc.). Hierdoor kan een nauwkeurigheid van +/- 90% gehaald worden.
Door de herkende tekst (of minimaal key index velden) visueel te laten beoordelen, kan een nauwkeurigheid van 99,99% gehaald worden.
Uit kwaliteitsoogpunt raden wij daarom altijd aan om uw herkende gegevens te laten controleren. Zodat uw organisatie direct met de data aan de slag kan.

Wanneer manuele data extractie?

Bij kleine volumes is data extractie vaak veel kosten efficiënter wanneer de data manueel wordt beoordeelt, dan wanneer de tekst automatisch wordt herkend. Dit komt door de relatief hoge opstartkosten van automatische tekstherkenning.
Het kosten verschil per pagina tussen manuele en automatische data extractie is enkele centen. Om de initiële opstart kosten van automatische tekstherkenning terug te verdienen is dus een hoog volume nodig.
Hebt u geen hoog volume of doorlopend project, dan is manuele data extractie een beter alternatief.
Lees meer over hoe data extractie werkt op onze dienst data extractie.

Kunnen ongestructureerde documenten ook automatisch verwerkt worden?

Vaak kan het wel, maar zijn de opstartkosten vrij hoog, omdat uitzonderingen en controles toegevoegd moeten worden. In veel gevallen is manuele data extractie een kosten efficiëntere oplossing.
Lees meer over hoe data extractie werkt op onze dienst data extractie.

Hoe worden mijn documenten doorzoekbaar?

Wanneer de woorden of tekst verwerkt zijn, worden deze toegevoegd aan de meta-data van het document (pdf meta data). Zo kunnen bijvoorbeeld een titel, auteur, datum, beschrijving, meerdere categorieën en trefwoorden toegevoegd worden.
Wanneer vervolgens gezocht wordt op dergelijke termen komt uw document naar voren.
Wanneer u de beschikking hebt over een DMS (Document Management Systeem), dan kan de meta-data ook aangeleverd worden aan uw DMS systeem. Hierdoor kunt u eenvoudig documenten koppelen. Dat is handig wanneer er bijvoorbeeld sprake is van revisies of verschillende versies.
Lees meer voor meer informatie over document gegevens verwerken.

Wil je meer weten over onze dienstverlening of over data extractie en automatische tekstherkenning? Kijk dan eens naar onze oplossing voor het verwerken van document gegevens.

Hoe werkt data extractie?

Veelgestelde vragen over data extractie