SANE installieren #
Eigentlich braucht man nur das Debian-Paket sane und sane-utils zu installieren. Danach steht das Kommandozeilen-Programm scanimage zur Verfügung, das das grundlegendste Programm zum scannen ist.
Wer will, kann auch noch das xsane-Paket installieren. Es enthält ein graphisches Frontend. Andere graphische Frontends gibt natürlich auch noch.
Hardware aussuchen #
Grundsätzlich ist es wohl immer noch so, daß es viele Geräte gibt, die unter Linux gar nicht laufen. Es gibt auch noch einige Hersteller, die die Unterstützung bzw. auch nur die Herausgabe von Spezifikationen völlig blockieren. Deshalb habe ich mir die Liste der unterstützten Scanner von der SANE-Seite (und Jonathan Buzzards Zusatz-Seite) ausgedruckt. Das war zwar ein hübscher Haufen Papier, hat mich aber davor bewahrt, den Scanner nachher umtauschen zu müssen. Die Listen sicnd erstaunlich gut und vollständig! Dann habe ich mich in einen grossen Elektronikmarkt gestellt und sogar mehrere Geräte zur Auswahl gehabt. Einen Verkäufer nach Linux-Scanner-Unterstützung zu fragen kann man übrigens genauso vergessen wie die Hoffnung, ein Wort dazu auf einem Karton zu finden... :-(
Hardware ansprechen #
Die Kunst ist zumeist, seinen Scanner zu finden. Hierzu haben wir die Seiten ScannerAmParallelport und UsbScanner mit unseren Erfahrungen gefüllt. Interessant ist eventuell auch die Seite ScannerImNetzwerk. Wer einen BrotherDrucker mit integriertem Scanner besitzt, findet darüber auch besondere Informationen.
Scannen #
Gewonnen hat man, wenn ein Aufruf von "scanimage -L" eine Ausgabe ergibt, in der der angeschlossene Scanner angezeigt wird. Mit "scanimage >bla.pnm" kann man nun eine Seite scannen. Weitere Optionen gibts unter "man scanimage" oder "man sane" und weiteren manpages, die fast alle mit "sane-" anfangen (z.B. sane-microtek2 für meinen Scannertreiber).
scanimage ist ein gutes Programm, um von der Kommandozeile oder aus Programmen oder Skripten heraus zu scannen. xsane ist das richtige, wenn man eine schöne GUI haben möchte. Es braucht sich zumindest nicht hinter dem bei meinem Scanner mitgelieferten Windows-Programm zu verstecken.
OCR #
Am Montag (20.4.2011) hat Walter auf CuneiForm und YAGF aufmerksam gemacht. Damit funktionieren Scannen und OCR in einer Qualität, die mit kommerziellen Programmen vergleichbar ist:
- CuneiForm Homepage
- CuneiForm in der Wikipedia
- YAGF grafische Oberfläche zu CuneiForm
- http://code.google.com/p/tesseract-ocr/ - OCR-Engine, ursprünglich von HP, heute von Google, die qualitativ sehr gut sein soll und seit der Version 3.0 auch Layouts erkennen kann (Artikel auf Heise.de)
- http://code.google.com/p/ocropus/ - Das benutzt Google, um alle Bücher der Welt zu scannen, basiert seit kurzem nicht mehr auf Tesseract (was dafür spricht, daß die Engine besser ist als Tesseract)
- http://en.wikipedia.org/wiki/CuneiForm_(software) russische OCR-Engine, die freigegeben wurde
- http://jocr.sourceforge.net/ gocr=jocr ist eine freie Gnu Optical Character Recognition Entwicklung, deren Entwicklung wegen Sourceforge-Featurities seit Mitte 2009 ungewiss ist.
- http://wiki.ubuntuusers.de/Texterkennung - Seite mit einigen guten Programmempfehlungen
- http://xplus3.net/2009/04/02/convert-hocr-to-pdf/#more-207 - Python-Skript hierzu
- http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/ Anleitung, wie man PDF/A-Dokumente erzeugt, die gescannten Text enthalten
- http://www.exactcode.com/site/open_source/exactimage/ - Bibliothek mit einigen trickreichen Tools zum Thema
Links #
- http://sane-project.org - SANE Hauptseite
- http://ihatethat-computer.com/jsane - Java-Schnittstelle für SANE