Paperless

Wir lernen die elektronische Dokumentenablage für den Heimgebrauch kennen.

Sendung vom 2024/10/30 17:00:00 GMT+1

Download: pta241030.mp3

papier

Der Vortrag von mart-w "Paperless – was das ist und warum du das haben willst" media.ccc.de/v/2024-393-paperless-was-das-ist-und-warum-du-das-haben-willst

Musik Playlist

Leslie Wai, Paradigm in Guy Collins, 孔明の罠 - Kaizo Trap youtube.com/watch?v=lIES3ii-IOg
Eminem, Crab God youtube.com/watch?v=jhExvE5fvJw
Oratrice Mecanique d'Analyse Cardinale youtube.com/watch?v=7SV0ZPdordk
XG, Woke Up youtube.com/watch?v=5sT20edl02I
Kodama Boy, Shiki TMNS, Big Gay, Thigh High youtube.com/watch?v=BbN50TscIPo
Crystal Castles, Kerosene youtube.com/watch?v=qR2QIJdtgiU
东方红艳 VS 赵真, 火火的姑娘 youtube.com/watch?v=OMkIAeB787U

Transkription

Hier ist das politopia-magazin, euer gesellschaftspolitisches Magazin bei Radio X, dem Frankfurter Bürgerradio. Schön, dass ihr dabei seid, schön, dass ihr zuhört. Wir haben heute einen Vortrag von den Meta-Rhein-Main-Chaos-Days.

Das ist eine Veranstaltung in Darmstadt, die gibt es einmal im Jahr. Da treffen sich auch Computerinteressierte, die sich ein bisschen austauschen wollen. Da gibt es Vorträge, da kann man sich schlau machen zu verschiedenen Themen.

Eine ganz spannende Sache. Wir hören heute den Vortrag von Mart W. mit dem Titel Paperless, was ist das und warum du das haben willst? Bei Paperless geht es darum, dass es eine Software, eine Lösung ist, wie man Dokumente auch in seinem eigenen Umfeld ablegen kann, wiederfinden kann. Und natürlich, wenn man Dokumente im Computer hat, der auch mit Sachen machen kann, die mit Papierdokumenten im Aktenordner nicht so einfach gehen.

Also man kann die nach verschiedenen Dimensionen sortieren. Man kann da komplexe Filter anwenden, um bestimmte Dokumente zusammenzustellen. Es ändern sich aber auch ein paar Sachen.

Man muss sich mehr um Backups kümmern. Man muss gucken, wie stellt man sicher, dass die Dokumente nicht verändert werden. Also das hat auch ein paar Herausforderungen.

Aber im Sinne der Digitalisierung und der Nutzung von modernen Werkzeugen, also auch Computern, ist das eine interessante Sache, wo man jetzt auch selber wirklich was machen kann. Wir hören jetzt also den Vortrag von Marc W. bei den Meta-Rhein-Main-Chaos-Days 24. Wir wollen uns heute ein bisschen mit Paperless beschäftigen.

Das ist eine Dokumentmanagement-Software. Ich werde darauf eingehen, wozu braucht man sowas eigentlich? Was ist das eigentlich? Was brauche ich, um sowas aufzusetzen? Wie mache ich das? Wie setze ich das um? Was sind die Grundeinstellungen? Und das sind so ein paar Dinge, die man dann auf dieser Basis aufbauen kann, wenn man weitermachen möchte. Ganz zum Schluss, wie gesagt, gibt es nochmal eine kleine Fragerunde für die verbleibende Zeit.

So, wozu jetzt eigentlich so ein DMS? Da gibt es so einen ganz klassischen Use Case. Den haben wir alle mehr oder weniger einmal im Jahr. Das ist nämlich die Steuererklärung.

Da steht dann plötzlich so ein Finanzamt. Und die sagen, gib mir mal ganz viele Zahlen über das, was du das letzte Jahr so gemacht hast. Und wenn du ganz viel Pech hast, dann melden die sich anschließend und sagen, ich hätte ganz gerne Belege.

Und dann fängst du an zu paniken. Und dann kommt dieser Stapel da raus. Und dann blätterst du der Wild von vorne nach hinten durch.

Weil wenn du eine Ordnung hast, dann ist es wahrscheinlich vor allem so eine First Come, First Serve Ordnung. Und dann ist es so halb chronologisch sortiert. Aber außer dieser eine Beleg, den du eine Zeit lang auf dem Schreibtisch liegen hattest und der deswegen drei Monate weiter hinten im Stapel ist.

Und somit hast du dann am Ende vielleicht ein paar Stunden auf die Steuererklärung eingesetzt. Und dann viele weitere einfach nur, um diese Sachen zusammenzusammeln. Und das ist nicht der einzige Fall, in dem man so Situationen hat.

Klassiker sind dann zum Beispiel auch Rechnungen für die Krankenkasse, wenn man beim Arzt war und was einrechnen muss. Der Mietvertrag, den man vor fünf Jahren abgeschlossen hat, wo man gerade gucken möchte, wie eine gewisse Sache geregelt war. Oder diese eine Abrechnung aus August 2019, wo man noch mal was gegenprüfen möchte, um zu sehen, ob eine aktuelle Abrechnung hinkommen kann.

Übrigens für diejenigen, die sich nicht alt fühlen hier. 2019 ist fünf Jahre her und in der Mitte gab es Covid. Bitte schön.

Und wenn man das ein paar Mal durch hat und diesen Ordner vor sich hat und der Ordner wird immer größer und es werden immer mehr Ordner, da wünscht man sich dann irgendwann so Features, die man eigentlich von Computern und Datenbanken so kennt. So was wie eine Volltextsuche, so was wie, dass man Daten vielleicht taggen kann. Dass man vielleicht so Abläufe, die man sich intern zurechtgefummelt hat, dass man die abbilden kann und sieht, wo jedes Dokument jeweils steht.

Dass man die Sachen verfügbar hat, damit ich, wenn ich irgendwo beim Arzt stehe und er hat ganz gerne eine Diagnose von mir, die vor drei Monaten gestellt wurde, dass ich nicht sagen muss, die bringe ich das nächste Mal mit oder schicke sie über E-Mail, sondern ich kann das Telefon rausziehen und kann sagen, hier ist das PDF. Und Backups. So, Papier ist notmäßig feuerfest.

Wenn irgendwas passiert, sind alle Dokumente weg und ihr habt keine Möglichkeit, da noch irgendwie dran zu kommen, wenn ihr nicht ein Backup habt. Und bevor ihr anfangt, alle eure Dokumente einmal auf den Kopierer zu legen, erstens wisst ihr dann nicht, ob die Zahlen am Ende noch stimmen und andererseits habt ihr dann den Dokumentenstapel verdoppelt. Es gibt dafür schon ewig Lösungen.

Firmen haben das. Das haben Dokumentenmanagementsysteme. Die haben schon lange erkannt, dass es halt super ineffizient ist, Papier durch die Gegend zu schieben, zumindest solange es keine Behörden sind.

Wenn man da heutzutage an ein größeres Unternehmen einen Brief schickt, dann wird der am Eingang aufgeschlitzt, dann wird der eingescannt und dann geht das digital weiter und die haben dort ihre ganzen Berechtigungsstrukturen drin, ihre Abläufe drin. Will man halt irgendwie als Privatperson nicht haben. Entweder ist es proprietär oder es ist teuer oder es ist proprietär und teuer.

Und es ist in den meisten Fällen auch völlig overkill. Schönerweise haben sich aber irgendwann mal ein paar Nerds hingesetzt und haben gesagt, wir machen das mal anwenderfreundlich und in einer Version, die auch für kleine Use Cases funktioniert. Und da ist dann Paypal ist bei entstanden.

Also wir reden hier über eine Dokumentenmanagementsoftware, die durchaus auch sehr mächtig ist, auch wenn sie gewisse Funktionen für große Unternehmen nicht hat. Gleichzeitig aber nicht so super bloated ist und jeden kleinsten Use Case abbildet, den man vielleicht in irgendeiner Branche braucht. Sie ist vollständig frei und Open-Source-Software und man kann sie sich halt relativ einfach auch mal daheim auf einen Server schmeißen und einrichten und dann kommen dann auch Laien damit zurecht.

Das heißt, es ist auch noch nicht nur was für den einen Nerd in der Familie oder für die Untermenge der Familie, die Nerds sind, sondern vielleicht auch für den Rest der Familie, die dann auch in der Lage sind, damit umzugehen. Das ist übrigens eure letzte Chance, euch noch die Folien zu besorgen. Ansonsten sind sie aber auch noch im Pre-Talks verlinkt.

So setzt man sich das also auf und in dem Moment, wo ich das hatte, hatte ich plötzlich eine zentrale Ablage für alle Dokumente, die Nicht-Ordner heißt. Ich hatte eine Lösung, um Dokumente, die ich so bekomme, die in den Briefkasten flattern, Rechnungen, die ich per E-Mail bekomme, was auch immer automatisch einzupflegen, unter Anwendung verschiedener Datenquellen, unter Anwendung von Zeichenerkennungen, damit ich eine Volltextsuche machen kann, von Machine Learning für das Tagging, da gehen wir später noch drauf ein. Und ich habe eine Durchsuchbarkeit.

Ich kann halt einfach bei mir in mein Papers reingehen, kann sagen, ich hätte ganz gern die Steuererklärung von vor drei Jahren oder ich hätte ganz gern das eine Dokument, wo von dieser einen Sache die Rede war und ich komme halt einfach dran. Und auf diese Weise kann ich dann Prozesse abbilden. Ich kann mir einen digitalen Posteingang anlegen, ich kann mir Dokumente mit To-Do-Text versehen, ich kann Rechnungsstatus haben, zum Beispiel diese Rechnung ist noch zu bezahlen, diese ist schon bezahlt.

Ich kann meine Dokumente kategorisieren, beispielsweise nach Absender, damit ich meine komplette Kommunikation mit einer bestimmten Partei mir anzeigen lassen kann oder nach Kontext. Und ich kann selbstverständlich ganz viel Papier vermeiden. Das ist jetzt nicht zwangsläufig so bei den Sachen, die einem zugeschickt werden, per Post zugeschickt werden, sondern eher so bei den Sachen, die elektronisch ankommen, weil dann muss man sich entscheiden, entweder man druckt alles aus und hat es dann wieder an einem Ort, aber es ist halt alles ausgedruckt oder man hat halt irgendwie verschiedene Orte, wo man seine Dokumente hat, je nachdem, welche Art Dokument es ist.

Diese ganzen Kopfschmerzen kann man sich sparen an der Stelle. Alles Papier wird man auch niemals los. Das muss man halt einfach anerkennen.

Es gibt manche Dokumente, die braucht man im Original, egal ob das jetzt eine Geburtsurkunde ist oder die Belege fürs Finanzamt, für den Fall, dass Sie das doch in physischer Form haben wollen oder was auch immer. Und in dem Fall kann so ein Dokumentenmanagementsystem auch als Brücke agieren zwischen digital und analog. Das heißt, ihr scannt diese Sachen trotzdem ein, die landen bei euch im DMS.

Ihr habt alle die Vorteile, die ihr von euren digitalen Dokumenten habt und ihr verseht dieses wichtige Dokument mit einer Nummer und sperrt das dann ganz tief in irgendeinen Ordner ein, den ihr hoffentlich so schnell nicht mehr anfassen müsst. Und wenn dann irgendwann einmal im Jahr ihr doch eines dieser physischen Dokumente braucht und nicht nur den Scan, dann geht ihr halt einfach im Paperless und schaut euch das Dokument an und dann steht da die Referenznummer und dann könnt ihr nach dieser Referenznummer euch dieses Dokument wieder rausziehen. Und ja, seitdem sind Steuererklärungen deutlich weniger kopfschmerzig geworden.

Inzwischen sieht das so aus, wenn ich eine Steuererklärung machen möchte, dann gehe ich in mein Paperless, filter einmal alle meine Dokumente nach dem steuerrelevanten Tag und mit einem Datumsfilter für das letzte Jahr, habe das alles auf einen Schlag, kann es von vorne bis hinten abarbeiten und in wenigen Stunden ist die Steuererklärung durch und ich brauche mir keine Gedanken machen. Es gibt bestimmt zumindest ein oder zwei von euch, die sich denken, ich will das auch. Bevor wir weitermachen, will ich nur kurz klären, ich rede ja die ganze Zeit vom Paperless, das kann man so ganz eindeutig nicht sagen, gemeint ist in allen Fällen Paperless NGX.

Im Grunde genommen ist es ein Fork von einem Fork von Paperless und jedes Mal, als sie geforkt haben, haben sie weitere Buchstaben hinten dran gehängt, weil sie das Repo nicht übernehmen konnten, weil immer der vorherige Maintainer irgendwann weggesprungen ist und inzwischen gehört es aber einer Community, die das pflegt, wo mehrere Menschen Zugriff haben, deswegen heißt es stehen gute Chancen, dass dort keine weiteren Buchstaben mehr zukommen. Wichtig ist nur, wenn ihr auf ein Paperless oder ein Paperless NG zum Beispiel irgendwo stoßt, das sind keine maintainenden Versionen mehr von Paperless, ihr wollt immer nur Paperless NGX haben. Jetzt habt ihr euch das besorgt, ihr habt irgendwie ein Deployable gefunden irgendwo und dann fragt ihr euch, wohin soll das eigentlich, da habt ihr eigentlich drei Möglichkeiten.

Die erste ist so in die Cloud, irgendwas mit Containern, hat den Vorteil, es ist relativ einfach aufzusetzen, es ist gut verfügbar, irgendwie ein Digital Ocean Droplet oder sonst irgendwas, da braucht man sich auch nicht so viel Gedanken um Administration machen, hat es trotzdem zentral irgendwo gehostet, wo man drankommt, muss sich auch nicht so viele Netzwerkkopfschmerzen machen. Man kann einfach sagen, ich kaufe das ein, es ist Service, es gibt Dienstleister, die einfach für dich ein Paperless führen, denen wirfst du Geld hin, sie geben dir Zugangsdaten und du hast Paperless. Das hat natürlich absolut gar keinen Administrationsaufwand, was für manche Menschen auch interessant sein könnte.

Oder wenn man die maximale Kontrolle über seine Daten haben möchte, wir reden hier durchaus auch über sensible Dokumente teilweise, ist natürlich für mich zumindest die attraktivste Möglichkeit, das daheim zu haben. Wenn wir den Containerweg gehen, dann haben wir es relativ einfach, Paperless ist schon fertig für Docker paketiert, das ist so vorgesehen. Das heißt, man kann halt einfach zu einem der üblichen Container-Hoster da draußen gehen, kann das da reinpacken und kann quasi viele der Vorteile von Selbst-Self-Hosting haben, ohne sich wirklich die Gedanken darum machen zu müssen oder das Wissen haben zu müssen.

Eine Stufe aufwärts wäre halt, man mietet sich einen Server im Internet, das heißt, man hat ein bisschen mehr Administrationsaufwand, weil plötzlich muss man SSH bedienen können. Man erhält aber mehr Kontrolle über das Setup logischerweise und man bekommt für das gleiche Geld mehr Leistung oder die gleiche Leistung für weniger Geld. Das ist oft bei dieser Diskussion zwischen Dedicated-Server, Virtual-Server und Containerisierung nicht so relevant, weil man dann sagt, Containern können ja skalieren.

Wir haben hier aber, wie gesagt, OCR mit drin, wir haben Machine Learning mit drin, wir haben Konvertierungs-Steps mit drin. Das sind alles keine Sachen, wo man sagt, ich stelle jetzt einfach zwei Paperless mehr auf den Load Balancer davor, sondern das sind sehr stoßartige Lasten und du möchtest ja trotzdem, dass deine Dokumente halbwegs schneller durchfließen. Deswegen ist es immer eine ganz gute Idee, ein bisschen Leistungsreserve zu haben und die bekommt man hier günstiger.

Wie gesagt, Software as a Service ist eine Möglichkeit. Es gibt da irgendwie Unternehmen, die haben sich darauf spezialisiert, Software für dich zu hosten. PickerPods gibt es, Portunity gibt es, es gibt dann auch weitere.

Ich habe keinen davon getestet, das ist kein Endorsement, aber vielleicht, falls das für jemanden interessant ist, kann er dort anfangen zu suchen. Wie gesagt, man hat keinen Administrationsaufwand, bis auf die Konfiguration von Paperless an sich über die Nutzeroberfläche. Man hat aber auch keine wirkliche Kontrolle.

Die hat man vor allem zu Hause. Witzigerweise ist es oft weniger schwierig als gedacht. Da kommen wir gleich nochmal drauf zurück, was es da für Möglichkeiten gibt, das daheim aufzusetzen.

Aber viele von euch, gerade so in der Bubble, haben wahrscheinlich schon irgendwo so ein Synology-Nast oder sowas in der Ecke stehen und gerade diese großen Ökosysteme haben in der Regel schon Lösungen, um Paperless dort drauf zu hosten. Das heißt, ihr müsst euch gar nicht mal unbedingt einen Raspberry Pi in die Ecke stellen oder einen komischen Server bauen, sondern vielleicht habt ihr alles, was ihr braucht, schon im 24-7-Betrieb in der Ecke stehen. Unabhängig davon ist es super sinnvoll, einen guten Scanner zu haben für das Papier, was halt so ins Haus flattert.

Ihr braucht nicht unbedingt einen, also ihr könnt theoretisch den Weg gehen, so eine Scanner-App auf dem Handy zu nehmen und das da irgendwie reinzubringen. Ihr könnt auch theoretisch irgendwie einen Flachbett-Scanner nehmen oder meinetwegen einen Copyshop-Scan. Die Sache ist, ihr wollt euch diesen Prozess so einfach wie möglich machen.

Sonst macht man das dreimal, während die Begeisterung anhält und danach bleiben die Dokumente doch wieder liegen und man kümmert sich drum. Und dann ist so ein bisschen der Goldstandard für die Hardware, die man da haben kann, so ein Durchzugs-Scanner, idealerweise duplex. Wenn er nicht duplex ist, bringt er euch nicht viel, weil dann müsst ihr alles doppelt scannen und dann Dokumente zusammenführen und das ist riesig aufwendig und das macht man nicht.

Er sollte netzwerkfähig sein, damit der dann die Sachen direkt auch am Paperless schicken kann und man sollte nicht große Menüs rumklicken müssen, bis dann irgendwann mal der Scan durchgeht. Im Idealfall habt ihr einen Scanner, den ihr so konfigurieren könnt, dass vorne ein dicker Knopf ist und da drückt ihr drauf und dann scannt er das ein, was im Einzug ist, im Dokumenteneinzug und das landet automatisch dort, wo es sein soll. Das sind alles relativ unternehmensartige Anforderungen.

Entsprechend teuer sind die Geräte oft auch. Die klassische Gerätekategorie, die hier spannend wäre, wären Scanner, die in einem Sekretariat oder einer Poststelle von einer Zweigstelle eines großen Unternehmens stehen würden, damit die ein bisschen Post bearbeiten können, aber nicht in dem großen Maßstab, den man in einer großen Zweigstelle bräuchte. Es lässt sich aber ganz hervorragend Gebrauch kaufen.

Da kann man sich ein bisschen informieren, was man da haben möchte. Brother baut da Geräte, Epson baut da Geräte, das kann man alles gut kaufen. Dann stellt man sich in ein oder anderen Filter mal und früher oder später bekommt man da etwas, was dann auch in dem unteren dreistelligen oder vielleicht sogar im zweistelligen Euro-Bereich ist.

Jetzt habt ihr alles, was ihr an Zutaten braucht. Wie macht ihr das jetzt? Wenn ihr den reinen Containerweg gehen wollt, bei AWS oder sowas, dann müsst ihr noch differenzieren, entweder das Ding kann Docker Compose, dann gibt es ein Docker Compose-File vom Paperless-Projekt und das könnt ihr einfach laden und seid fertig. Vielleicht noch ein bisschen Konfig anpassen, aber das sind zwei Einträge, das steht alles dokumentiert im Paperless-Wiki.

Wenn nicht, dann müsst ihr halt wissen, wie so ein Docker Compose-File aussieht, die Docker Compose lesen und das manuell nachbauen. Falls ihr einen eigenen Server irgendwo gemietet habt, dann ist die erste Antwort witzigerweise schon wieder Container. In dem Fall nutzt ihr dann vor allem die Performance-Vorteile und die Kosten-Nutzen-Faktor-Vorteile von der Maschine, könnt aber das Setup-Skript nutzen vom Paperless.

Das stellen die zur Verfügung, das führt ihr aus, das stellt euch ein paar Fragen dazu, wie ihr das Setup haben wollt und dann kümmert sich das Skript darum, dass ihr Docker eingerichtet bekommt auf der Maschine und die entsprechenden Container installiert werden und das alles aufgesetzt wird, sodass das ein relativ reibungsarmer Prozess dann ist. Ich bin persönlich immer so ein Fan von Bare-Metal. Statt irgendwo dann noch tausend Sandboxes umeinander zu wrappen, ist natürlich mehr Aufwand, außer man hat halt irgendwelche Deploy-Tools.

Ich persönlich bin halt so ein überzeugter Nixos-Nutzer und dann ist das in vielen Fällen einfach nur ein paperless.enable="true", und dann habt ihr Paperless. Das heißt, falls ihr mal eine Inspiration brauchtet, um Nixos auszuprobieren, hier ist eine weitere. Probiert Nixos.

Daheim sieht das ganz ähnlich aus. Wenn das irgendeine generische Linux-Maschine ist, auf die ihr jetzt Root-Zugriff habt, dann läuft das eigentlich eins zu eins, genauso wie bei einem VPS. Ihr müsst euch ein bisschen mehr Gedanken darum kümmern, wie ihr das öffentlich verfügbar macht, wenn ihr das wollt.

Wenn ihr irgendeinen Nass habt, kommt es halt stark auf den Hersteller, auf das Ökosystem an. Das kann ich hier nicht abdecken. Da müsst ihr einfach mal googlen.

Hier nochmal der Punkt, was den Scanner angeht und das Scanner-Setup. Wirklich nur einfache Prozesse haben Bestand. Ihr wollt zum Beispiel nicht, dass dieses Dokument von Scanner auf eurem Computer erstmal irgendwie landet und dann manuell von euch eingepflegt werden muss.

Insbesondere wollt ihr nicht, dass das meinetwegen ein USB-Scanner ist und dann müsst ihr den Computer hochfahren und dann legt ihr das da ein und dann startet die Scanner-Software, dann startet sie zwei weitere Male, weil sie zweimal crasht, weil der Scanner-Treiber kaputt ist und dann fällt irgendwann eine PDF raus und dann ladet ihr die hoch. Das passiert in der Praxis einfach nicht und ihr wollt euch Arbeit abnehmen mit dem Ganzen. Das heißt, ihr solltet irgendeinen Weg einplanen, wie diese Dokumente in eurer Paperless kommen.

Klassische Wege sind alles irgendwie, was das Dateisystem von eurem Server zur Verfügung stellt, NFS, FTP, SMB, was auch immer. Paperless kann bestimmte Verzeichnisse beobachten und wenn da Dokumente drin auftauchen, dann saugt es die auf. Paperless kann aber auch zum Beispiel auf E-Mail-Postfächer zugreifen.

So könntet ihr zum Beispiel ein Paperless-Import-E-Mail-Adresse einführen und euren Scanner, wenn er eine E-Mail-Funktionalität hat, das dann Paperless schicken lassen. Ich habe auch später in meinen weiteren Ideen einen ganz besonders kürzten Weg mir ausgedacht für die ganz besonders Deutschen unter uns, aber da kommen wir dann noch drauf. Genau, und dann seid ihr eigentlich auch schon so gut soweit.

Ihr habt dann das deployed, das läuft bei euch auf dem Server. Das heißt, jetzt geht es halt wirklich darum, dass ihr euch in eurem Paperless anmeldet, also Paperless-Account einrichtet, euch anmeldet. Eine sinnvolle Sache, die ich hier in die Basics mit aufnehme, weil sie halt eigentlich jeder haben sollte, stellt euch einen Posteingangstag, dann habt ihr auch gleich mal ein bisschen Übung da dran, wie man Tags anlegt und wie man die automatisch zuweist.

Dieser Posteingangstag landet dann halt einfach an allem, was frisch importiert ist, und den könnt ihr wegmachen, wenn ihr es dann später selbst bearbeitet habt. Und dann werft ihr euer erstes Dokument rein und schaut, dass der Import funktioniert. Dann habt ihr ein Paperless.

Import. Wenn man jetzt irgendwie bisher vielleicht schon so halb digitalisiert ist und sich die PDFs meinetwegen einfach nur in einem Verzeichnis auf dem Computer ablegt, dann würde man vielleicht annehmen, dass das halt wirklich einfach nur irgendwo hingeschoben wird und dann ist das fertig. Aber Paperless macht im Hintergrund wahnsinnig viel mehr.

Es kann, je nachdem wie viel Konvertierungstooling ihr auf der Maschine mit deployed habt, wahnsinnig viele Formate einlesen und dann in kanonische Formate konvertieren. Also wenn ihr das wollt, könnt ihr zum Beispiel das auch so einrichten, dass ihr da eine Exit-Tabelle reinschmeißt und die wird in PDF konvertiert, bevor es weitergeht. Die Dokumente werden aufbereitet.

Wenn da irgendwelche Scanner-Artefakte oder sowas drin sind, dann kann Paperless die oft rausrechnen, damit das am Ende alles ein bisschen hübscher aussieht. Es läuft eine automatische Texterkennung, damit man den kompletten Inhalt des Dokumentes auch bei ursprünglich analogen Dokumenten dann in den Metadaten hat. Es werden Regeln angewandt, die man definieren kann und es wird Matching angewandt zu den bereits bestehenden Daten, damit ihr dann weniger Pflegeaufwand habt.

Pflegeaufwand ist am Anfang noch relativ viel. Also wenn ihr anfangt, so ein Paperless zu bespielen und die ersten Dokumente da reinputzen, dann arbeitet ihr dann so euren Posteingang ab, den ihr ja habt, weil ihr euch einen Posteingangstag angelegt habt. Und im Grunde genommen wird euch dann jedes Mal einfach nur das PDF vor die Nase gehalten mit einem generischen Zeitstempel als Titel und dann fragt ihr euch so Sachen wie was ist der Titel dieses Dokumentes und von wem ist das Dokument und habe ich das Datum richtig erkannt und sollen hier noch irgendwelche Texte dran und im Grunde genommen setzt ihr euch vor so eine leere Maske und dürft halt erstmal in den Metadaten tippen und das für jedes Dokument.

Das wird aber besser. Paperless ist lernfähig, der erkennt dann irgendwann zum Beispiel, wenn ihr schon das dritte Dokument von eurem Arzt habt und der heißt so und dann sieht er diesen Namen das vierte Mal, dann weiß er wahrscheinlich schon, dass es vermutlich dieser Arzt ist und füllt dieses Feld für euch aus. Das heißt, je voller eure Paperless Datenbank wird, desto einfacher wird dieser Prozess.

Manchmal kann es sich auch lohnen, wenn ihr schon eine große Sammlung an Dokumenten habt und die digitalisieren wollt, da war ich zum Beispiel, dass ihr wirklich auch erstmal so meinetwegen 50 davon nehmt, die erstmal einpflegt, damit das Modell im Hintergrund lernen kann und dann erst die nächsten paar hundert, damit ihr schon mal diese Grundbasis habt und dann bei diesem Metadaten-Tagging-Marathon weniger Arbeit habt. Wenn ihr wirklich alle auf einmal reindammt, dann werden die halt alle mit dem Modell zugewiesen, das am Anfang da ist und dieses Modell ist leer, also sind auch die ganzen Dokumente leer. Irgendwann seid ihr dann an dem Punkt, wo das wirklich kein großes Hindernis mehr ist.

Ihr könnt halt, wenn ihr den Scanner entsprechend eingerichtet habt, schmeißt ihr halt alles, was ihr so bekommt, augenblicklich in den Scanner und einmal in der Woche setzt ihr euch dann vielleicht hin, sichtet kurz die Dokumente, schaut, dass das richtig zugewiesen wurde und dann seid ihr da fertig. Dann ist das so ein bisschen ein Selbstläufer. Was macht ihr dann mit dem Papier? Im Grunde genommen könnt ihr es wegwerfen, zumindest die Dokumente, die nicht irgendwie Belegcharakter haben und bei denen ihr verpflichtet seid, sie zu behalten.

Denkt an Backups. In dem Moment, wo ihr so etwas macht, man könnte natürlich argumentieren, wenn wir die Wohnung abbrennen, wäre das ganze Papier auch weg gewesen, aber in dem Moment, wo ihr dann wirklich den Schritt geht und eure Dokumente dort eingepflegt habt und das vernichtet, gibt es keinen Weg zurück und wenn dann ihr kein Backup-Konzept habt und durch die Festplatte crasht, dann ist halt alles weg. Deswegen ist das, glaube ich, so ein System, das muss man als kritische Infrastruktur dann betrachten für sich selber und sollte halt die notwendigen, die entsprechenden Vorsichtsmaßnahmen treffen, damit da im Zweifel nichts verloren geht.

Für wichtige Dokumente gibt es, wie gesagt, das Tracking über die sogenannten ASNs. ASNs, das steht für Archive Serial Number. Ist wie gesagt eine aufsteigende Nummer, wird für jedes wichtige Dokument vergeben.

Schreibt ihr dann mit Kuli da drauf oder ihr habt einen coolen Stempel dafür oder ihr schreibt es auf ein Post-it, dass ihr das halt in einem Orten zuordnen könnt. Dokumente werden halt einfach nur aufsteigend nach ASN in einen Ordner gepackt und solltet ihr irgendwann nochmal dieses Dokument brauchen, dann blättert ihr halt, bis ihr bei dieser Nummer angekommen seid. Der semantische Wert steckt in dem Moment dann komplett im Paypal.

Ihr habt keine Karteikarten mehr, Karteireiter oder sowas mehr in eurem Ordner drin. Es ist so ein bisschen wie bei so einem Karteiregister, wenn man vor mehr als zehn Jahren vielleicht nochmal in der Bibliothek war und dann anfängt, die Bücher haben alle nur eine generische Nummer und dann kann man nach verschiedenen Kategorien da durchblättern. So kann man es sich ein bisschen vorstellen.

Jetzt sind wir am Punkt, das ist schon sehr, sehr nutzbar. Grundsätzlich werden die allermeisten Use Cases davon schon abgedeckt sein. Bis vor ein paar Jahren war das auch alles, was Paypal ist, konnte.

Aber Menschen bauen immer weiter Dinge aus und man kann immer weiter coolere Sachen machen. Was, wenn ich mehr möchte? Was, wenn ich irgendwie optimieren will? Dann ist der erste Schritt, das finde ich immer ganz besonders befriedigend, Stempel. Weil wenn ihr da irgendwie Papier so in die Wohnung kriegt, dann ist das ganz, also ich finde, ich mache mich glücklich, da so einen Stempel auf Papier zu hauen und dann steht da, dann weiß ich, was ich mit diesem Ding schon gemacht habe und dann könnt ihr da irgendwie Eingangsstempel machen und so.

Spannend ist ja halt, also ich weiß nicht, ob ihr einen Eingangsstempel braucht, das sieht vielleicht ganz professionell aus, wenn ihr mit irgendwelchen Unternehmen arbeitet und denen dann Sachen schickt und vielleicht sehen die das sogar so ein bisschen als Beweiskarakter an, für wann das angekommen ist, aber eigentlich hat es ja keinen Rechtswert. Interessanter sind Paginierungsstempel. Das ist ein Stempel, jedes Mal, wenn ihr den drückt, kommt eine aufsteigende Zahl raus und wenn ihr mir vor fünf Minuten zugehört habt, dann wisst ihr, dass aufsteigende Zahlen im Kontext von ASNs sehr praktisch sind.

Das heißt, dann könnt ihr einfach jedes Mal, wenn ihr ein Dokument habt, das ihr physisch behalten müsst, diesen Stempel da einmal draufdrücken, dann habt ihr eine eindeutige ASN vergeben, dann tragt ihr die in Paypal das ein und dann ist das auch leserlich, im Gegensatz zu dem, wenn man da irgendwie 500 Dokumente hat und dann muss man da überall schriftlich Sachen draufschreiben. Nach dem hundertsten Dokument liest man es nicht mehr so einfach. Ihr könnt Tags vergeben für alles Mögliche.

Ihr könnt verschiedene Diagnosen zu einem gewissen Krankheitsverlauf bündeln. Ihr könnt Sachen, die mit einem Versicherungsvertrag zu tun haben, bündeln. Ihr könnt, wenn ihr oft umzieht und dann irgendwie Mietverträge und Meldebescheinigungen und so weiter habt, könnt ihr die Dokumente mit dem jeweiligen Wohnort verknüpfen.

Ihr könnt, das ist für mich, wie gesagt, immer ein praktisches Tag, ein Tag vergeben für Steuerrelevanz, wenn ich irgendwie ein Dokument habe, bei dem ich weiß, das kann ich am Ende des Jahres absetzen, dann packe ich dieses Tag da dran und dann brauche ich am Ende nur noch diesen Tag filtern. Ihr könnt euch da wirklich austoben und findet da garantiert noch viel coolere Anwendungsfälle als ich. Ein spezifischer sind halt so Statustags auch.

Bei Rechnungen kann man zum Beispiel so einen Offentag und einen Bezahltag und einen Rückerstattetag haben und kann sich dann auch eine Übersicht geben lassen von allen Sachen, die den Typ Rechnung haben und offen, um noch zu sehen, was da zu tun ist. Man kann sich einen To-Do-Tag dran machen. Das habe ich persönlich zum Beispiel auch an der Regel gehängt, wenn dort irgendwo das Wort Bitte drin ist oder irgendwo das Wort Frist vorkommt, dann wird automatisch dieses To-Do-Tag dran geklebt.

Das hat mir schon das eine oder andere Mal den Hintern gerettet. Oder vielleicht auch, falls ihr irgendwelche sensiblen Sachen haben wollt und so begeistert von eurem Paperless seid, dass ihr das euren Freunden zeigen wollt, dann lohnt sich manchmal vieles auch so ein Versteckentag, wo ihr dann negativ filtert, damit diese Dokumente vielleicht nicht gleich auf der Startseite landen, wenn da irgendwo mal jemand einen Blick mit drauf wirft. Es gibt ein Berechnungssystem.

Ihr könnt Nutzer-Accounts vergeben. Ihr könnt Gruppen anlegen. Ihr könnt diesen Nutzer-Accounts Gruppen zuweisen.

Das ist praktisch, wenn ihr irgendwie ein Haushalt teilt und Rechnung für verschiedene Menschen zugänglich machen wollt. Wenn ihr einen Steuerberater habt, der sich irgendwie eure Bescheide bei euch abholen können soll. Wenn ihr eine WG habt und habt Einkaufs... Einkaufs-Sättel ist der falsche Brief.

Einkaufs-Belege, die ihr da irgendwie einscannt, damit man weiß, wo man was gekauft hat. Das kann man über sowas wunderbar abbilden. Und wo Tags und Berechtigungen dann gemeinsam so ein bisschen ihren Moment haben, ist, wenn man das dann auch noch automatisiert in Abläufen.

Das heißt, man kann sich Regeln anlegen, wenn bestimmte Szenarien eintreten, dann mach das, füge dort ein Tag hinzu, werse das einer Kategorie zu, gibt das Eigentum an diesem Dokument ein, schickt dann diesen Nutzer ab, sodass ihr die Bürokratie, die ihr euch hier selber schafft, noch nicht mal selbst durchführen müsst, sondern der Computer kann das machen. Oder die Bürokratie, die euch auferlegt wurde, kann euch auch zum gewissen Grad der Computer abnehmen. Was auch spaßentspannend sein kann, ist irgendwie E-Mail-Import.

Wie habe ich vorhin schon mal erwähnt, ihr könnt euch ein Postfach anlegen, an das ihr per E-Mail Dokumente schicken könnt, die in eurem Paperless landen sollen. Finde ich insbesondere praktisch, wenn ich E-Mails bekomme mit einer PDF drin und ich möchte diese PDF in Paperless, dann müsste ich normalerweise mir diese PDF runterladen, dann in den Browser gehen, dann in Paperless und das da rein machen. Wir wollen einfache Prozesse, also klicke ich auf Weiterleiten und gebe die E-Mail-Adresse von meinem Paperless ein.

Wenn ihr ein bisschen mehr Hardcore seid, könnt ihr theoretisch auch einfach sagen, Paperless, hier sind meine E-Mail-Zugangsdaten, gehe durch mein persönliches Postfach und wenn du über eine PDF stolperst, importiere die. Das müsst ihr halt für euch entscheiden, ob ihr das möchtet oder nicht. Es gibt garantiert Use Cases, in denen das sehr praktisch sein kann.

Gerade so beim ersten Mal, wenn man große Mengen scannt, ist es auch praktisch zu wissen, dass Barcode-Blätter existieren. Das sind A4-Zettel, die man sich ausdrucken kann mit einem Barcode drauf und dieser Barcode hat irgendeine Bedeutung, die Paperless kommuniziert wird und die könnte dann zum Beispiel als Trenner zwischen unterschiedliche Dokumente liegen und könnte diesen ganzen Stapel einmal in den Scanner reinlegen. Da fällt dann ein PDF mit 5 Millionen Seiten raus und dann erkennt aber Paperless jede Seite, auf der dieser Barcode draufsteht, der vielleicht die Bedeutung hat, bitte hier das Dokument und dann werden aus diesen 5 Millionen Seiten 5 Millionen Dokumente mit einer Seite, meinetwegen. So lassen sich so größere Import-Jobs ganz gut streamlinen. Ansonsten kann man, wenn man das möchte, zum Beispiel auch anhand von Barcodes Tags vergeben, wenn man sagt, ich habe jetzt irgendwie, ich sortiere meine Dokumente gerne physisch vor auf meinem Schreibtisch weil das irgendwie für mich funktioniert, dann kann man sich, wenn man das vorher schon kategorisieren möchte, für jede Kategorie, in die das später kommen soll, so ein Barcode-Blatt ausdrucken, packt das einmal auf den Stapel dann jeweils mit drauf, schiebt es durch den Scanner und anhand dieses Barcodes weiß dann Paypal es zum Beispiel, dass das jetzt der Stapel war für Rechnung, keine Ahnung.

Genau, und dann gibt es noch den Behörden-Modus. Schafft euch ein Fax zur E-Mail-Gateway an. E-Mail kann Paperless.

Behörden werden neidisch sein. Und ich glaube, mehr muss ich dazu auch nicht sagen. Aber um nochmal auf das vorhin zurückzukommen, von den Fähigkeiten eures Scanners, hiermit funktionieren offiziell auch Faxgeräte als Scanner.

Genau, und weil man es nicht oft genug sagen kann, macht Backups, macht mehr Backups. Das ist wirklich kritisch. Und wenn ihr Backups macht, dann denkt auch daran, nicht nur die PDFs zu backuppen, sondern vielleicht auch die Datenbank.

Weil wenn die Datenbank irgendwann versehentlich korrupt wird, dann habt ihr zwar die Dokumente, aber die Metadaten sind alle weg. Und das hat mir ein Freund erzählt. Fazit, Bürokratie kann sehr nervig sein.

Wir kommen aber nicht wirklich drum herum. Ausreichend Spieltrieb kann Abhilfe schaffen, aber es braucht ihn nicht, weil es halt auch wirklich eine echte Hilfe ist und nicht nur ein Spielzeug. Es ist realistisch für euch daheim, elektronische Dokumentenmanagementsysteme zu betreiben. Und ich bin sehr dankbar für die Maintainer dieses Projektes. Sie haben mir sehr viel Arbeit abgenommen, schon in meinem Leben.

Das war der Vortrag von Mart W. Paperless, was das ist und warum du das haben willst, den hat er gehalten bei den Meta-Rhein-Main-Chaos-Days 24.

Wir haben die Sendung auf unserer Webseite politopia-magazin.de. Dort könnt ihr die auch nochmal komplett nachhören. Außerdem gibt es dort Links. Da haben wir zum Beispiel den Link zu dem Original-Video und auch noch weiterführende Infos.

Das politopia-Magazin ist jeden Mittwoch 16 Uhr hier bei Radio X. Wir hören uns wieder nächste Woche. Bis dann.