Reflow ist nicht gleich Umfließen-Modus
Der sogenannte Umfließen-Modus ist seit vielen Jahren ein Thema bei der Umsetzung von barrierefreien PDF-Dokumenten. Das Erfolgskriterium 1.4.10 Reflow der WCAG sowie die entsprechende Anforderung in der EN 301 549 (Kapitel 10.1.4.10) verlangen, dass Inhalte ohne Verlust von Informationen oder Funktionalität linearisiert dargestellt werden können. Wir kennen das Thema auch von Webseiten (Stichwort: Responsive Design). Bei Webseiten gibt das HTML (der sogenannte DOM) die Reihenfolge für die linearisierte Darstellung vor – Browser bauen die Darstellung aus dem DOM (Document Object Model) auf. Bei PDF-Dokumenten ist die Lage komplexer: Hier gibt es mehrere Ebenen, über die Inhalte dargestellt werden können. Insbesondere stehen Content Stream (Inhaltsebene) und Tag-Baum (Strukturebene) nebeneinander – und nicht jeder PDF-Reader nutzt sie gleich. Das hat auch Auswirkungen auf den sogenannten Umfließen-Modus, beispielsweise in Adobe Acrobat Pro. In diesem Artikel beleuchten wir die Unterschiede, erklären, warum für Barrierefreiheit immer der Tag-Baum maßgeblich ist, und warum der Acrobat Umfließen-Modus nicht dasselbe ist, wie die Anforderung aus der EN 301549, Kapitel 10.1.4.10 Reflow.
Reflow – die normative Anforderung
Die WCAG 2.1 und 2.2 formulieren im Erfolgskriterium 1.4.10, dass Inhalt ohne Informations- oder Funktionsverlust und ohne horizontales Scrollen dargestellt werden können muss. Die EN 301 549 hat diese Anforderung für elektronische Dokumente (Kapitel 10.1.4.10) übernommen. Der PDF/UA-Standard präzisiert in Abschnitt 7.1, dass die logische Lesereihenfolge im Strukturbaum, also im Tag-Tree, des PDF-Dokuments abgebildet sein muss, Zitat: „Content shall be marked in the structure tree with semantically appropriate tags in a logical reading order“.
Zusätzlich veröffentlicht die WCAG-Arbeitsgruppe des W3C auch für barrierefreie PDF-Dokumente sogenannte „Techniques“, in denen darauf verwiesen wird, dass für die korrekte Lesereihenfolge der Inhalte die Tag-Struktur ausschlaggebend ist. Zitat: „(Tagged PDF) is intended for use by tools that perform the following types of operations: Automatic reflow of text and associated graphics to fit a page of a different size than was assumed for the original layout“. Darüber hinaus lässt sich auch auf Understanding SC 1.4.10 (WCAG 2.2) verweisen, wo ebenfalls unter der Überschrift „Examples“ festgehalten wird, dass Umfließen („Reflow“) bereits möglich ist, wenn ein PDF-Dokument den Anforderungen von PDF/UA genügt.
Das macht deutlich, dass eine barrierefreie „Darstellung“ auf der getaggten Struktur basiert und nicht auf der rein visuellen Anordnung von Inhalten. Damit ist sowohl aus normativer Sicht (EN 301 549 und PDF/UA) als auch aus interpretativer Sicht (W3C-Techniken) die Sichtweise eindeutig: Für die Erfüllung der Anforderung EN 301 549 (Kapitel 10.1.4.10 Reflow) ist nur dar Tag-Baum ausschlaggebend.
Content Stream vs. Tag-Baum – zwei Welten im PDF
Aber was ist jetzt der Unterschied zwischen Content Stream (Inhaltsebene) und Tag-Baum (Strukturebene)? Der Content Stream ist die physische Zeichenreihenfolge aller Text- und Grafikelemente, so wie sie von einer Layout-Software definiert wird. Er ist häufig ein Abbild der technischen „Erzeugungsreihenfolge“ und orientiert sich nicht zwingend an der logischen Lesereihenfolge (Tag-Baum bzw. Strukturebene). Der Tag-Baum dagegen beschreibt die semantische Struktur des Dokuments – er definiert Überschriften, Absätze, Listen, Tabellen und ihre Reihenfolge so, wie sie von Screenreadern oder anderen assistiven Technologien verarbeitet und ausgegeben werden sollen. In einfachen Fließtext-Dokumenten können Content Stream und Tag-Baum deckungsgleich sein, bei komplexeren Layouts weichen sie jedoch häufig voneinander ab.
Warum der Acrobat Umfließen-Modus nicht gleich Reflow ist
Der Acrobat Reader verfügt, ebenso, wie andere Reader auch, über eine eingebaute Reflow-Funktion, die Inhalte in einer linearisierten Darstellung neu anordnet. Diese Funktion ist als Umfließen-Modus bekannt. Die Funktion basiert jedoch ausschließlich auf dem Content Stream und ignoriert den Tag-Baum vollständig. In Fällen, in denen Content Stream und Tag-Baum identisch sind, liefert der Umfließen-Modus von Adobe eine Darstellung, die in etwa dem Lesefluss entspricht. Das kann zum Beispiel bei sehr einfachen Dokumenten aus Textverarbeitungsprogrammen wie Word der Fall sein, wenn sie korrekt exportiert wurden.
Sobald sich jedoch Abweichungen zwischen Content Stream und Tag-Baum ergeben – etwa durch mehrspaltige Layouts, frei platzierte Textkästen, eingebettete Grafiken oder nachträgliche Bearbeitung – bricht diese Übereinstimmung zusammen. Der Umfließen-Modus zeigt dann möglicherweise Inhalte in einer Reihenfolge an, die für Leserinnen und Leser ungewohnt oder sogar verwirrend ist. Für Nutzerinnen und Nutzer von Screenreadern ergibt sich ein anderes Bild, denn sie hören den Text in der Reihenfolge, die im Tag-Baum definiert ist – was zu massiven Verständnisproblemen führen kann.
Aus Sicht der Barrierefreiheit bedeutet das: der Umfließen-Modus von Adobe und Co. ist kein verlässlicher Beleg dafür, ob ein PDF-Dokument das Erfolgskriterium 10.1.4.10 Reflow tatsächlich erfüllt. Die normativ geforderte logische Lesereihenfolge kann nur anhand des Tag-Baums beurteilt werden, weil er die einzige dafür vom Standard vorgesehene Referenz ist.
Die Stellungnahme von Alexander Pfingstl, Überwachungsstelle des Bundes für Barrierefreiheit von Informationstechnik, unterstützt diese Sicht, Zitat:
Der Acrobat Reader unterstützt Reflow, allerdings nicht über den Tag-Tree. Acrobat verwendet hierzu die „Inhaltsebene“ des PDF-Dokumentes. Es scheint auch aktuell nicht so, als hätte Adobe hier ein großes Interesse das zu ändern. Eine barrierefreie Umsetzung von 10.1.4.10 muss daher über den Tag-Tree erfolgen. Der PAC-Test kann das in der Screenreader-Vorschau auch entsprechend anzeigen. Das Problem ist also, dass die barrierefreie Umsetzung von 10.1.4.10 aktuell von keinem uns bekannten Reader unterstützt wird. Dennoch sollten keine anderen Mechanismen zur Umsetzung genommen werden.
Die Frage nach der Übereinstimmung von Inhaltsebene und Strukturebene
Auf den ersten Blick scheint es naheliegend, dass ein korrekt erstelltes PDF keinen Unterschied zwischen Inhaltsebene und Strukturebene aufweisen sollte. In einem einfachen Layout, das streng von oben nach unten und von links nach rechts aufgebaut ist, kann das tatsächlich so sein. In der Praxis ist es jedoch selten der Fall, dass beide Ebenen vollkommen synchron sind.
Dies liegt zum einen an der Art, wie Layoutprogramme Inhalte exportieren: Die Reihenfolge im Content Stream wird oft durch die interne Zeichenreihenfolge bestimmt. Zum anderen spielen Elemente wie Spalten, Marginalien, dekorative Grafiken und komplexe Tabellen eine Rolle, die im Content Stream an Positionen auftauchen, die nicht der logischen Reihenfolge entsprechen. Auch nachträgliche Bearbeitungsschritte können dazu führen, dass Inhaltsebene und Strukturebene (Content Stream und Tag-Baum) auseinanderlaufen.
Prüfmethoden – sinnvolle Reihenfolge im Tag-Baum
Für die Überprüfung der Reflow-Anforderung in PDF-Dokumenten ist es also wichtig, den Tag-Baum zu kontrollieren. Werkzeuge wie Adobe Acrobat Pro oder der PDF Accessibility Checker (PAC) bieten die Möglichkeit, die Struktur und Reihenfolge der Tags direkt zu prüfen. Die Screenreader-Vorschau im PAC zeigt den Text so, wie er aus Sicht assistiver Technologien wahrgenommen wird – und damit so, wie er gemäß PDF/UA standardkonform linearisiert werden muss. Die Umfließen-Ansicht des Acrobat Readers ist dafür aus den genannten Gründen nicht geeignet.
Momentan kann kein bekannter PDF-Reader den Reflow so darstellen, wie es für eine korrekte Umsetzung gemäß 10.1.4.10 nötig wäre. Trotzdem sollte man sich an die korrekte Tag-Struktur halten und PDF nicht für proprietäre Darstellung in PDF-Readern optimieren – insbesondere, wenn diese sich nicht an den Standard halten.
Fazit
Die EN 301 549 schreiben für die Erfüllung des Erfolgskriterium 10.1.4.10 Reflow nicht wortwörtlich vor, dass ausschließlich der Tag-Baum zu berücksichtigen ist. Über den Verweis auf PDF/UA ergibt sich jedoch, dass die logische Lesereihenfolge im Tag-Baum abgebildet sein muss und somit auch für eine linearisierte Darstellung maßgeblich ist. Die W3C-Techniken bestätigen dies und benennen Tagged PDF als Referenz für die logische Lesereihenfolge in PDF.
Für die Erfüllung des Erfolgskriterium 10.1.4.10 ist also allein die korrekte Strukturebene (sinnvolle Reihenfolge im Tag-Baum) ausschlaggebend. Auch wenn derzeit kein verbreiteter PDF-Reader den Reflow auf dieser Basis anzeigt, gilt das Erfolgskriterium 10.1.4.10 Reflow als erfüllt, wenn der Tag-Baum, also die Strukturebene eine sinnvolle Lesereihenfolge aufweist. Eine Optimierung für einen Umfließen-Modus, der sich nicht an die Standards hält, macht also keinen Sinn und kostet nur Zeit und Geld. Umso wichtiger ist es aber, zum Beispiel über die Screenreader-Vorschau im PDF Accessibility Checker (PAC), die korrekte Lesereihenfolge zu prüfen.