“Old News” möchte man sagen, wenn folgende Aussgage kommt:
Alles was ein Mensch lesen kann, kann auch (irgendwann) eine Maschine lesen.
Durch ein aktuelles Projekt angetrieben hab ich mir ein paar Dinge dann doch näher angesehen. Auch wenn ich keine fertige Lösung präsentiere, so sollte nachfolgendes ein wenig zu Denken geben. Ich beschränke mich dabei “nur” auf CAPTCHA, da dies durchaus weit verbreitet ist um sich vor Spam in verschiedenster Form zur Wehr zu setzen. Spam ist aber nur eine Seite. Die andere ist der “Schutz” privater Daten durch einen CAPTCHA-Mechanismus; sei es bei einer Registrierung zu einer Community, bestimmter Interaktionen (in einer Community) oder die Abfrage z.B. von WHOIS-Daten.
Das ich eine Grafik durch die Mitarbeit von Menschen entschlüsseln kann (in irgendeiner massenfähigen Form), ist zwar oft genug vorgekommen, aber eben nicht ganz so “wirtschaftlich” – naja, der Köder muss nur gut genug sein. Ich ziele hier auf den rein maschinellen Lösungsweg.
Mein “Versuchsaufbau” ist relativ einfach:
Es geht mir nicht nur darum das CAPTCHA zu lösen, es also maschinenlesbar zu machen, sondern einen Mechanismus anzuwenden, der eine (ganze) Seite maschinenlesbar machen kann. Der Weg dazu ist also relativ einfach:
Beispiele
Das ganze Gedankenspielchen ist natürlich relativ langweilig… hier also ein paar Beispiele:


Man kann aus dieser kleinen Auswahl eines ableiten: Ein bisschen (bunter) Hintergrund ist nutzlos. Die Buchstaben und Zahlen müssen mind. verzerrt sein, anderfalls ist die Erkennung ohne grossen Aufwand möglich.
Automatisierung
Natürlich ist dieser manuelle Weg nicht praktikabel. Aber diese Dinge lassen sich ja automatisieren. Man nehme z.B. das iMacros-Plugin für den Firefox.
Ich hab es nicht ausprobiert, aber iMacros lässt sich sicher mit dem “Automator.app” von MacOSX kombinieren. Mit Automator.app kann ich auf jeden Fall Screenshots erzeugen und Programme aufrufen. Die Texterkennung von Acrobat liesse sich so sicher auch ansteuern. Das Resultat dann so zu speichern das es von einem weiteren Programm/ Script verarbeitet werden kann, sollte dann auch kein mehr Problem sein.
Es steckt sicher einiges an Arbeit darin einen Workflow zu etablieren, der halbwegs stabil und in anständiger Geschwindigkeit abläuft – aber machbar ist das.
Und wenn die so gewonnenen Daten – in welcher Weise auch immer – wertvoll sind, dann ist es sicher kein Problem diesen Aufwand zu finanzieren.
Tags: CAPTCHA, Copy protection, firefox, Gedankenspiel, OCR, Test
Posted in Software, diverses | Comments Off