Donnerstag, 5. Dezember 2019

PrPages - Individuelle Erweiterungen... Alles ist möglich!

PrPages dient zur Ermittlung der farbigen und monochromen (b/w oder grau) Seiten eines PDF-Dokuments.
Dieses kann z.B. zur präziseren Kostenermittlung bei Kopier-Aufträgen dienen oder bei der Druckkosten-Ermittlung von Unternehmensteilen bzw. Abteilungen.

Wenn man nur die Entscheidung hat, ob es ein monochromer Ausdruck oder ein farbiger Ausdruck werden soll, kann eine einzige Farbseite in einem 30-seitigen PDF-Dokument aus einer - eigentlich - Schwarz/Weiß-Kopie eine sehr viel teurere Farbkopie machen. Das tut natürlich weh, wenn man rechnen muss ;-)
Nun wieder zu PRPages... Welche Seite hat farbige Elemente, welche ist komplett schwarz/weiß wissen wir. Das hilft bei der Kostenreduzierung im Druckbereich aber nur eventuell. Ideal wäre es doch, wenn man die u.U. wenigen Farbseiten extrahieren könnte und die paar extra Farbseiten getrennt drucken bzw. kopieren könnte.

Ein Interessent ist mit dieser Frage bzw. Problematik an mich herangetreten... ob ich dafür eine individuelle Lösung entwickeln könnte.

Nach einiger Überlegung ist mir das kostenlose Tool PDFtk wieder in den Sinn gekommen. Das Kommandozeilen-Tool PDFtk bietet u.a. Funktionen zum Verbinden einzelner PDF-Seiten zu einem neuen Dokument, zum Zerlegen von PDF-Dokumenten in einzelne Seiten, zum Verbinden einzelner Seiten nach Vorgabe zu einem neuen Dokument und vieles weitere.
PDFtk und der CMD-Befehlssatz von Microsoft zur Erstellung von BATchdateien (ja... die mit der Endung BAT) müssten eigentlich genügen, um die gewünschte individuelle Lösung kostenfrei realisieren zu können.

1. Schritt
PRPages erzeugt zu einem PDF-Dokument die entsprechende CSV-Datei mit einzelnen Angaben (Seite für Seite) zur Farbverwendung.

Eine BAT-Datei im gleichen Verzeichnis wie PrPages könnte dazu wie folgt aussehen:

@echo off
if "%~1"=="" goto eingabe1
set testvar1=%~1
IF EXIST zeilen.txt del zeilen.txt
IF EXIST zeilen.csv del zeilen.csv
prpages %testvar1% E 00 zeilen.csv
ren zeilen.csv zeilen.txt
goto ende
:eingabe1
echo Der 1. Parameter Eingabedatei (wie z.B.: "c:\temp\katalog.pdf") fehlt!
goto ende
:ende
 
Der variable Aufruf dieser BAT-Datei (wir nennen sie mal get_colors.bat) von der Kommandozeile aus könnte z.Bsp. wie folgt aussehen:

get_colors c:\temp\katalog.pdf



 
Im Ergebnis bekommen wir eine Datei zeilen.txt mit einem Inhalt ähnlich dem folgenden:

c:\temp\pdftk\tutorial.pdf;1;842;595;color; 
c:\temp\pdftk\tutorial.pdf;2;842;595;color; 
c:\temp\pdftk\tutorial.pdf;3;842;595;bw/gray; 
c:\temp\pdftk\tutorial.pdf;4;842;595;bw/gray; 
c:\temp\pdftk\tutorial.pdf;5;842;595;bw/gray; 

2. Die Farb- und Schwarz/Weiß-Seiten tatsächlich extrahieren und getrennt zu zwei neue PDF-Dateien zusammenfügen.

Hierzu bedienen wir uns PDFtk, dass u.a. Funktionalität zum Zusammenführen einzelner Dateien anbietet.
Das kann als Bsp. wie folgt aussehen:

pdftk c:\temp\katalog.pdf cat 2 5 8 9 12 output ausgabec.pdf









Wir müssen also aus der Datei zeilen.txt die Seitennummern für z.B. farbige Seiten herauslösen und daraus den String für den Seiten-Parameter von PDFtk aufbauen...

Die wichtige Zeile dazu in der BAT-Datei ist die folgende:
for /f "tokens=2 delims=;" %%i in ('findstr /C:";color;" %testvar2%') do echo %%i>>nur_color.txt
tokens=2 ... steht dafür für die zweite Spalte in der CSV-Datei zeilen.txt, in der die Seitenangabe steht.
delims=; ... steht für den verwendeten Spaltentrenner.
findstr ... ist ein interner CMD-Befehl zur String-Suche in Dateien.
;color; ... steht für den String, nach dem gesucht werden soll.
%testvar2% ... enthält den Parameter aus dem Aufruf der/dieser BAT-Datei (z.B. die csv-Datei zeilen.txt).
do echo %%i>>nur_color.txt ... die Ausgabe der Zeilennummern in Zeilen, die ";color;" enthalten erfolgt in nur_color.txt.

nur_color.txt enthält jetzt als Inhalt untereinander die Seitennummern.
Daraus müssen wir jetzt noch einen String bilden:


FOR /F %%i in (nur_color.txt) do call set "Myvar1=%%Myvar1%% %%i"
for ... steht für Schleifenverarbeitung.
%%i ... enthält als Variable den eingelesenen Zeileninhalt (die Seitennummern).
nur_color.txt ... ist unsere Datei mit den Seitennummern der farbigen Seiten.
Myvar1 ... steht namentlich für die Variable zum Aufbau des Seitennummernstrings.
%%Myvar1%% ... steht für den Inhalt der Variable Myvar1
Myvar1=%%Myvar1%% %%i ... steht also für Myvar1=bisheriger Inhalt von Myvar1 plus neuer Inhalt für Myvar1

Myvar1 enthält am Schluß der Schleifenverarbeitung einen String wie z.B. 2 5 8 9 12.
Die abschließende Zeile in der BAT-Datei kann dann wie folgt aussehen:
pdftk %testvar1% cat %Myvar1% output ausgabec.pdf
%testvar1% ... enthält die Angaben zum originalen PDF-Dokument.
cat ... ist eine Anweisung aus PDFtk zum Herauslösen von Seiten.
%Myvar1% ... enthält den String mit den Seitennummern aus Variable Myvar1.
output ... ist eine Anweisung aus PDFtk zum Wegschreiben der Seiten in eine neue Datei.
ausgabec.pdf ... enthält abschließend im Bsp. die Farbseiten 2, 5, 8, 9 und 12.

Abschließend dazu die ganze BAT-Datei mit einigen - hoffentlich selbsterklärenden - zusätzlichen Zeilen.
Um das Ganze komplett zu machen, ist darin auch die Aufbereitung der schwarz/weiß-Seiten enthalten:

@echo off
if "%~1"=="" goto eingabe1
set testvar1=%~1
if "%~2"=="" goto eingabe2
set testvar2=%~2
SET "Myvar1="
SET "Myvar2="
IF EXIST nur_color.txt del nur_color.txt
IF EXIST nur_bwgray.txt del nur_bwgray.txt
for /f "tokens=2 delims=;" %%i in ('findstr /C:";color;" %testvar2%') do echo %%i>>nur_color.txt
for /f "tokens=2 delims=;" %%i in ('findstr /C:";bw/gray;" %testvar2%') do echo %%i>>nur_bwgray.txt
FOR /F %%i in (nur_color.txt) do call set "Myvar1=%%Myvar1%% %%i"
for /f %%i in (nur_bwgray.txt) do call set "Myvar2=%%Myvar2%% %%i"
IF EXIST ausgabec.pdf del ausgabec.pdf
IF EXIST ausgabeb.pdf del ausgabeb.pdf
echo Colorseiten: %Myvar1%
pdftk %testvar1% cat %Myvar1% output ausgabec.pdf
echo BW-Gray: %Myvar2%
pdftk %testvar1% cat %Myvar2% output ausgabeb.pdf
goto ende
:eingabe1
echo Der 1. Parameter PDF-Eingabedatei (wie z.B.: "c:\temp\katalog.pdf") fehlt!
goto ende
:eingabe2
echo Der 2. Parameter CSV-Datei (mit Farbangaben) (wie z.B.: "c:\temp\zeilen.txt") fehlt!
:ende

Der variable Aufruf dieser BAT-Datei (wir nennen sie mal get_pages.bat) von der Kommandozeile aus könnte z.Bsp. wie folgt aussehen:

get_pages c:\temp\katalog.pdf c:\temp\zeilen.txt










Im Ergebnis bekommen wir aus der originalen Datei (die erhalten bleibt) zwei neue Dateien - eine mit farbigen PDF-Seiten, eine mit schwarz/weiß-Seiten, die dann zum Copyshop bzw. auf den Farb- oder Schwarz/Weiß-Laser gehen können.

Freitag, 29. Mai 2015

Die dpi-Werte von PDF- und Bilddateien

Gerade erhielt ich die Mailanfrage eines Kunden wie man sicher die dpi-Werte von PDF- und Bilddateien ermitteln kann...

Den dpi-Wert kann man relativ leicht ausrechnen.
1 dpi entspricht 1 Pixel pro Zoll und 1 Zoll sind 2,54 cm.
Eine Bilddatei mit einer Breite von 1024 Pixel und 10 cm Breite hat einen dpi-Wert von ( 1024 x 2,54 ) / 10 ... also in diesem Fall 260 dpi.

Ein DIN A4 PDF hat die Standardabmessungen von 595 x 842 Pixeln.
Mit 21 cm Breite und einer Pixelbreite von 595 sind das:
( 595 x 2,54 ) / 21 ... also die berühmten 72 dpi.

Wenn z.B. eine DIN A4-PDF-Seite direkt zur Bilddatei gerendert wird, ist die Qualität deswegen nie so besonders toll, weil immer nur die 72 dpi dabei herauskommen können.

Dienstag, 23. Dezember 2014

Foxit versus Adobe ... oder auch "David gegen Goliath"

Adobe hat als treibende Kraft das von ihnen publizierte PDF-Format als einen "Quasi-Standard" besonders auch für Online-Dokumente etabliert. Ein Dokumenten-Standard sollte auch für alle Anwender nutzbar (lesbar) sein und so gab es von Adobe den kostenlosen Adobe Reader für PDF-Dokumente.

PDF-Dokumente müssen natürlich auch irgendwann mal erstellt worden sein. Einmal die normalen Dokumente aber gerade auch für Formulare ist das PDF-Format gut geeignet. Durch Einbettung von z.B. JavaScript-Aktionen und Schaltflächen kann den Formularen viel Eigenleben eingehaucht werden. Für alle diese Dinge gibt es eine ganze Reihe von Adobe Produkten - kostenpflichtige Produkte, die im hohen drei- ... meistens vierstelligen Bereich liegen.

Seit Version 1.0 der PDF-Spezifikationen sind viele Jahre vergangen und mit jeder neuen Version des kostenlosen Adobe Readers wuchs dessen Installationsumfang um viele MBs. Dieser Umstand rief die Open Source Community auf den Plan. Auf Basis einer Open Source Bibliothek wie z.B. GhostScript wurden  alternative Möglichkeiten der kostenlosen PDF-Erstellung in Form von Druckertreibern (einbindbar in z.B. Office-Produkten) veröffentlicht. Beispiele hierfür sind z.B. der PDFCreator und FreePDF. Daneben gibt es inzwischen auch eine Reihe kostenloser PDF Reader, die teilweise nicht mal installiert werden müssen sondern - als portable Version - einfach auf die
Festplatte kopiert funktionsfähig sind.

Der - meines Wissens - bekannteste Vertreter der alternativen PDF Reader ist der Foxit Reader. Während z.B. eine Adobe Reader 10 Installation mit einem Umfang von 457 MB daherkommt, sind es beim Foxit Reader 5.4.2 schlanke 44 MB! ... Und wenig MBs bedeuten wenig PLatz auf  Festplatten und ein schnellerer Start der Anwendung! Als kleiner Tipp: Wer wirklich nur ein "PDF-Anzeige-Programm" benötigt, dem möchte ich "Sumatra PDF" (besonders auch in der portablen Version) ans Herz legen. Mehr braucht man oft nicht.

Was treibt ein großes Unternehmen wie Adobe dazu an, mit dem PDF-Format einen "quasi" Dokumentenstandard zu etablieren? ... Natürlich auch das - völlig legitime - Geldverdienen ;-) So gibt es inzwischen natürlich nicht nur den Adobe Reader sondern auch die hochpreisigen Produkte aus der Adobe Acrobat-Reihe, die alles rund um die Erstellung von PDF-Dokumenten ermöglichen.

Das so etwas - mit vergleichbarer Qualität - auch günstiger geht, beweist die Foxit Corporation - Hersteller des kostenlosen Foxit PDF Readers. Gestartet mit dem Reader, den es inzwischen neben Windows für so ziemlich jede technische Basis (auch iOS und Android) gibt, bietet das Unternehmen  eine ganze Reihe schlanker und kostengünstiger Produkte für die PDF-Entwicklung und -Bearbeitung an. Das reicht von Anwendungen zur PDF-Bearbeitung und -Erstellung bis hin zu kompletten Entwickler-SDKs. Das alles mit einem "preislich sehr zurückhaltenden" Lizenzverfahren.

Als Entwickler im PDF-Umfeld habe ich natürlich mehrere Produkte und Versionen von PDF-Readern und auch verschiedene Adobe Reader Versionen installiert. Alleine schon, um sagen zu können "läuft auch auf Adobe...". In meinem alltäglichen Geschäft nutze ich allerdings
nur den Foxit Reader - Probieren Sie es aus ;-)

Donnerstag, 19. Dezember 2013

PrPages unterstützt jetzt auch "Grauwert-Toleranz"!

Mit der nun implementierten Unterstützung für "Grauwert-Toleranz" hat PrPages ein ausgereiftes Stadium erreicht. Was ist Sinn und Zweck dieses Wertes, den manche auch als "Grau-Schwellenwert" bezeichnen?

Manchmal ist es beim Betrachten von hellen bis sehr hellen Grauwerten ja tatsächlich so, dass man - je länger darauf geschaut wird - irgendwann gar nicht mehr weiß, ob es tatsächlich grau ist oder ob da nicht doch ein ganz leichtes Lila, Pink oder ganz helles Blau schimmert. Aufgrund dieses Umstandes arbeiten eine Reihe Druckertreiber optional mit der "Grauwert-Toleranz".

PrPages untersucht die RGB-Farbwerte jedes Pixels einer zu druckenden Seite. So hat man dann einen Wert für Rot, einen für Grün und einen für Blau. Die Werte reichen dabei jeweils von 0 bis 255. Bei echten Grauwerten sind diese drei Farbwerte absolut identisch. Da aber auch leichte Abweichungen durchaus noch als Grauwert interpretierbar sind, kann man eine Grauwert-Toleranz festlegen, bis zu deren Wert Dokumente noch mit echten Grauwerten ausgedruckt werden. So kann z.B. eine Grauwert-Toleranz von 10 dafür sorgen, dass auch Farbreihen wie R125 G121 B127 (mit einer Differenz von max. 6) noch als Grauwert ausgegeben werden.

Wenn für Sie identische Werte bei Druckausgabe und paralleler Verarbeitung wichtig sind, sollten Sie die neue Option "Grauwert-Toleranz" bei PrPages nutzen.

Montag, 3. Dezember 2012

Ermitteln farbiger Seiten in PDF-Dokumenten

In den Servicebereichen ist die Berechnung der Druckkosten 
bei PDF-Dokumenten immer ein beliebtes Thema. Braucht der
Drucker nur den günstigen schwarzen oder auch farbigen Toner?
Wieviele farbige und wieviele schwarz-weiße Seiten druckt
welcher Unternehmensbereich und mit welcher Papiergröße?

Intern in der Struktur eines PDF-Dokuments gibt es die
Device-Flags wie z.B. DeviceRGB, DeviceGray oder DeviceCMYK.
Diese weisen zwar auf farbigen Inhalt hin - zwingend ist das
aber nicht. Es kann durchaus sein, dass kein Device vorhanden
ist - es trotzdem aber auch farbigen Inhalt im PDF-Dokument
gibt. Genauso können beim DeviceGray trotzdem farbige Seiten
im Dokument auftauchen und - anders herum - könnte ein Dokument
mit DeviceRGB auch ohne farbigen Inhalt daherkommen.

Ein großes Problem in den Servicebereichen, für das es auch
Lösungen gibt - sehr teuere Lösungen.

Ich biete in meiner Produktpalette die Lösung "PrPages" an.
Es handelt sich dabei um eine sogenannte Commandline-Exe,
die somit problemlos in Workflows und allen Anwendungen (in
32- und 64-Bit-Windows-Umgebungen) einfachst einbindbar ist.

Das Modul verfolgt den Ansatz, dass sich die tatsächlichen
Farbinformationen in jedem einzelnen Bildpixel befinden
und nur hierüber die Bestimmung wirklich sicher möglich ist.
Beim Grafiktyp Bitmap enthält deswegen jedes Pixel drei Werte
zur Farbsetzung auf Pixelebene. "PrPages" rendert die PDF-
Seiten temporär im Hauptspeicher in's Bitmap-Format und prüft
die Pixelwerte bzgl. der Farbinformationen auf schwarz-weiß
und farbig. Im Ergebnis wird eine CSV-Datei erzeugt, die je 
nach optionaler Einstellung einen Eintrag pro Dokumentseite mit
mit dem Dateinamen, der Seitennummer, Seitengröße und dem 
Hinweis auf b/w oder farbig enthält oder (übersichtlicher) einen
Eintrag pro Datei mit den Angaben Dateiname, Gesamtseitenanzahl,
Seitengröße der ersten Seite, Anzahl farbigen und Anzahl der
b/w-Seiten.

Es ist gelungen diese sichere Technik sehr performant auf-
zubereiten. Auf meiner Produktseite unter www.pdf-analyzer.com
finden Sie die "PrPages" als Testversion, um sich von der schnellen
und zuverlässigen Arbeitsweise - vor dem Kauf - selbst zu überzeugen.

Montag, 9. April 2012

PDF, JavaScript und ungewollter Code

Hallo meine lieben Leser!

Im Zuge der Trojaner- und Virenangriffe tauchen immer mal wieder PDF-Dateien als Emailanhang auf, die beim Öffnen u.U. (je nach den Sicherheitseinstellungen auf dem lokalen Rechner) Schadsoftware installieren oder Systemeinstellungen ändern.

Dieses funktioniert i.d.R. über die Interpretersprache JavaScript. Mittels eingebettetem JavaScript-Code kann die Funktionalität einer PDF-Datei stark erweitert werden. Der enthaltene Code wird mit bestimmten Systemereignissen wie z.B. OnLoad (also beim Öffnen einer PDF-Datei) gekoppelt und dann ausgeführt. Natürlich kann so etwas positiv als auch negativ (zu Ihrem Schaden) genutzt werden. PDF-Reader von Adobe und Foxit sind in der Lage Javascriptcode aus/in PDF-Dateien zu lesen und auszuführen.

Standardmäßig wird die Verwendung von JavaScript bei Installation Ihres Adobe- oder Foxit-PDF-Readers mit aktiviert. Genauso haben Sie aber die Möglichkeit diese - oft nicht benötigte - Funktionalität wieder dauerhaft zu deaktivieren.

Beim Adobe Reader 9 oder z.B. 10 verwenden Sie hierfür den Menüweg:

...Bearbeiten -> Voreinstellungen -> JavaScript...

Im rechten Fensterbereich können Sie dann die Haken aus den Checkboxen bei
"Java Script / Acrobat JavaScript aktivieren" und
"Java Script Sicherheit / Menübefehlen Berechtigung zur Ausführung von JavaScript erteilen"
entfernen.

Beim Foxit-Reader 5 verwenden Sie hierfür den Menüweg:

...Werkzeuge -> Einstellungen -> JavaScript...

Entfernen Sie den Haken in der Checkbox bei
"Java Script aktivieren".

Wollen Sie sich mit solchen Dingen gar nicht beschäftigen und genügt Ihnen i.d.R. die einfache Anzeige einer PDF-Datei können Sie es mal mit dem kleinen, einfachen Sumatra PDF Reader probieren.

Viele Grüße,
Ingo Schmökel

Mittwoch, 2. März 2011

PDFs aus Ihrer Anwendung drucken

Meine lieben LeserInnen!

Ich hatte eine Kundenanfrage bezügl. des Druckens aus eigenen Anwendungen heraus unter Zuhilfenahme eines installierten PDF-Readers (versuchen Sie Foxit... für mich der beste!).
Ich habe ein wenig mit der Keybd_Event-Syntax von Delphi/Pascal zum virtuellen Auslösen der Tastatur "herumprobiert"...
Wenn Sie Delphi oder Free Pascal verwenden, können Sie den u.a. Code direkt hinter ein OnClick-Ereignis einer Schaltfläche in Ihrer Anwendung kopieren. In anderen Programmiersprachen werden Sie eine sehr ähnliche Syntax für diesen Zweck finden (oder fragen Sie Dr.Google).
Mit der Zeitangabe bei der sleep-Syntax können Sie noch etwas herumprobieren...

procedure TForm1.Button3Click(Sender: TObject);
begin
// At the uses-part don't forget the ShellAPI ;-)

// Show/open the pdf-document ...
ShellExecute(hinstance,'open',PChar('c:\temp\test.pdf'),nil,nil,SW_NORMAL);

sleep(2000); // sleep/wait for 2 seconds

// Virtual Keys [Strg] + [P] to open the print dialog ...
Keybd_Event(VK_CONTROL,0,0,0);
Keybd_Event(Ord('P'),MapVirtualKey(Ord('P'), 0),0,0);
Keybd_Event(Ord('P'),MapVirtualKey(Ord('P'), 0),KEYEVENTF_KEYUP,0);
Keybd_Event(VK_CONTROL,0,KEYEVENTF_KEYUP,0);

// Virtual key [ENTER] to start printout ...
Keybd_Event(VK_RETURN,1,0,0);
Keybd_Event(VK_RETURN, 1, KEYEVENTF_KEYUP, 0);

sleep(2000); // sleep/wait for 2 seconds

// Virtual keys [Alt] + [F4] to close the active reader-window ...
Keybd_Event(VK_MENU,0,0,0);
Keybd_Event(VK_F4,0,0,0);
Keybd_Event(VK_F4,0,KEYEVENTF_KEYUP,0);
Keybd_Event(VK_MENU,0,KEYEVENTF_KEYUP,0);

end;