Wir empfehlen:


OCR: Unterschied zwischen den Versionen

Aus DadAWeb
Wechseln zu: Navigation, Suche
(Tesseract (Open Source))
(Open Source Programme)
 
Zeile 3: Zeile 3:
 
=Open Source Programme=
 
=Open Source Programme=
 
==Tesseract (Open Source)==
 
==Tesseract (Open Source)==
'''Tesseract''' ist eine [[freie Software]] zur [[Texterkennung]].
+
'''Tesseract''' ist ein reines Zeichenerkennungs OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google  weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate:  
Es ist ein reines OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google  weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate:  
 
 
  tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.
 
  tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.
  

Aktuelle Version vom 5. November 2012, 18:30 Uhr

Hier Kurzübersichten zu den zur Verfügung stehenden Zeichenerkennungs OCR-Programmen geben:

Open Source Programme

Tesseract (Open Source)

Tesseract ist ein reines Zeichenerkennungs OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate:

tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.

Siehe Fraktur/OCR mit Tesseract: http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/

Kommerziele Programme

Abby-Finereader