PDF-Suchmaschinen-Optimierung 8 SEO-Tipps

PDF-SEODas PDF-Format ist ein plattformunabhängiges Format und weltweit so beliebt, weil man damit Text- und Bild-Dokumente hoch-kompatibel und in hoher Qualität publizieren kann – daher auch die Bezeichnung:
PDF = Portable Dokument Format“.
Doch welche Rolle spielt ein PDF-Dokument auf der eigenen Website und was ist bei der PDF-Optimierung für SEO wichtig? Sollte man Inhalte auf seiner Website ergänzend als PDF zum Download anbieten oder besser nur eine Variante von beiden, um doppelte Inhalte (Duplicate Content)  zu vermeiden? Hierum und um weitere Fragen rund um PDF’s im Internet geht es in diesem Beitrag.

8 ultimative Tipps
zur PDF-Suchmaschinen-Optimierung

pdf-seo Optimierung Tipps-Tricks
Lesbarer Text & Inhalte allgemein

PDF-Optimierung Tipp: 1
Lesbarkeit für Suchmaschinen und Dokument-Größe optimieren

Die PDF-Datei sollte grundsätzlich nicht verschlüsselt oder passwortgeschützt sein. Texte des PDF-Dokuments sollten sich herauskopieren lassen, d.h. dass sie sich theoretisch per “Copy & Paste” in ein Standard-Textdokument übertragen lassen. So ist gewährleistet, dass Suchmaschinen sie auch mühelos lesen können und indexieren können.
Google ist in der Lage eingebetteten Text (als Bild) mit OCR-Algorithmen (Optical Character Recognition) zu extrahieren, doch sollte man es Suchmaschinen so einfach wie möglich machen. Man kann auch davon ausgehen, das Text der aus Bildern stammt von Suchmaschinen als weniger relevant eingestuft und damit geringer gewertet wird.
Weiter sollte die Dateigröße nicht durch unnötig hoch aufgelöste Bilddaten aufgeblasen werden. Hierzu bietet Acrobat-Pro eine Optimierungsmöglichkeit an.

 

PDF-Optimierung Tipp: 2
Anzeige des Titels im Suchergebnis

Grundsätzlich gilt für Inhalte von PDF’s das Gleiche wie für Webseiten auch: Titel sollen charakteristisch für den Folgetext sein und relevante Keywords aus dem Inhalt enthalten.
Hier ein Beispiel wie Suchergebnisse zu PDF’s dargestellt werden:

Beispiel eines Pdf-Suchergebnisses von Google und Bing

Google und Bing indexieren PDF-Dokumente sehr ähnlich

Laut Google werden zwei Hauptelemente für den Titel herangezogen:
1. der Meta-Tag Titel des PDF-Dokuments und
2. der Link-Text (anchor text), der zum PDF-Dokument zeigt.
In der Praxis benutzt aber so gut wie Niemand diese Meta-Tags in PDF-Dokumenten, die sich unter „Datei“ > „Eigenschaften“ finden lassen. Im folgenden Bild hat der Verfasser scheinbar hier gar nichts bewusst eingegeben und Word hat diese Aufgabe für ihn erledigt:

pdf-dokumenteigenschaften

… sinnloser Titel in den “PDF-Metatags”: Das Bild oben ist ein Beispiel zu einer Suchanfrage in Google zu Texten von Heinrich Kleist. Hier vergibt Word automatisch einen Namen für das Dokument.

PDF-Suchergebnis-SEO

Trotz unrelevantem Titel-Metatag im PDF wird das Suchergebnis gut dargestellt.

Das ist ein gutes Beispiel, dass man die PDF-Metatags nicht zu ernst nehmen sollte.
Um zu steuern, dass der gewünschte Titel zum PDF im Suchergebnis auch als Titel erscheint schadet es sicher nicht, wenn man wie von Google empfohlen den Titel im Link-Text (Anchor Text) und in den Meta-Daten des PDF benutzt. Doch vor allem kommt es darauf an, den Titel als fette und vergrößerte Überschrift im PDF-Dokument selbst zu benutzen.

Domain-Name im Suchergebnis

In dem Fall wird noch der Domain-Name dargestellt: Introduction to Searchengine Optimization – TourismTechnology.com

Die Feinheiten der Titel-Anzeige bei Bing & Google
Ist der Titel relativ kurz wird eventuell noch mit Bindestrich getrennt, der Domainname angezeigt 
Auch das, was nach dem Bindestrich angezeigt wird, kann man beeinflussen. In dem obigen Beispiel zeigt Google und Bing den Domain-Namen. Bing kann hier aber auch den Title-Tag der Frontpage oder den DC.Title bevorzugen (nicht hier im Bild), wohingegen Google im gleichen Fall eher den Description-Tag bevorzugt.

 

PDF-Optimierung Tipp: 3
Anzeige des PDF-Dateinamens im Suchergebnis

pdf-dateibezeichnung
Die PDF-Datei sollte den Titel (nicht zu lang…) des PDF-Dokuments zum Namen haben, da er auch im Suchergebnis angezeigt wird. Also möglichst konsequent Titel, Dateinamen, Metatags im PDF und den Dateinamen gleichsam benutzen.

 

PDF-SEO-Optimierungs-Tipp: 4
Anzeige der Kurzbeschreibung im Suchergebnis optimieren

Google reagiert hier empfindlicher als Bing und tendiert dazu sich eine Stichprobe eines Textes der zweiten Seite zu nehmen, wenn der Beginn des PDF’s: Titel und Folgetext nicht schlüssig scheinen. Bing zeigt hier konsequenter … allerdings nicht immer besser i.d.R. den Text nach dem Titel an oder eben auch den Titel mit Folgetext, wenn nicht eindeutig getrennt.

 

PDF-SEO Profi-Tipp: 5
PDF-Dokumente nicht als Massenware auf der Website anbieten

Achtung!: Stellst du eine extrem große Anzahl von PDF’s ins Netz, kann es für Google leicht den Anschein von “Shovelware” (Schaufel-Ware) erwecken. Google könnte es als automatisch generierten Content (SPAM!) werten und disqualifizieren.

 

PDF-SEO Tipp: 6
Nutzung von Links in PDF-Dokumenten

Wie in einer Website werden auch Links in PDF-Dokumenten laut Google nachverfolgt. Doch ist es bisher nicht möglich das Attribut rel=”nofollow” zu benutzen.

 

PDF-SEO Tipp: 7
Was rankt besser: PDF oder Webpage?

Bei dieser Frage kann man leider keinen eindeutigen Tipp geben, sorry. Matt Cutts, Google’s Suchmaschinen Software Ingenieur sagt hierzu, dass jede Suchmaschine seine eigene Philosophie verfolgt. Bei wissenschaftlichen Texten sind oft PDF’s beliebter, da diese Texte oft komplex sind und man sie sich gerne herunterlädt und evtl. zum studieren ausdruckt.
Google’s Bestreben ist es, dem Nutzer das beste Suchergebnis zu liefern. Da allerdings Nutzer sehr individuelle Vorlieben haben kann man nicht pauschal sagen, ob ein PDF oder eine Webseite hier besser ist. Google kann aber anhand relevanter “Signale” die Nützlichkeit einzuschätzen.

PDF-SEO Tipp: 8
Thema: Doppelter Inhalt “Duplicate Content”

Google empfiehlt hier den rel=”canonical” Tag im Head-Abschnitt einer HTML-Seite zu verwenden. Hierbei wird das PDF als kanonische Seite, also “Original” ausgezeichnet oder es wird die Ursprungs-URL angegeben. Hier ein Beispiel:

Link: <http://www.meineWebsite.de/downloads/dokument.pdf>; rel="canonical"

Das ist leichter gesagt als getan, denn bei PDF-Dokumenten ist es derzeit nicht so einfach möglich diesen rel=”canonical” Tag im HTTP-Header zu verwenden, da sich bei einem PDF der Tag nicht wie in eine HTML-Seite einfügen lässt. Google weist hierbei darauf hin, dass man seinen Server dafür konfigurieren können muss, um diese Option zu nutzen. Das klingt nach höherer Mathematik doch ist es genauso einfach wie eine HTML-Datei zu editieren.
Ich erkläre es weiter unten Schritt für Schritt und stelle diesen Beitrag als PDF zum Download zur Verfügung. Das Beispiel setzt allerdings einen HTTP Apache Server voraus.
Wer sich das nicht zutraut, braucht deswegen aber auch keine schlaflosen Nächte zu haben, da es erst bei extrem großen Web-Seiten von Bedeutung ist, die hunderte PDF-, Doc- und Excel-Dokumente mit Duplicate Content (doppelten Inhalten) anbieten. Wen aber den Optimierungs-Wahn nicht loslässt, der kann eine einfache Maßnahme durchführen und die PDF-Datei oder die Webpage als URL in seiner XML-Sitemap angeben – also nur eine und nicht beide. Das sollte reichen, dass Suchmaschinen das bevorzugte Medium erkennen.

Beispiel: HTTP-Header des PDF-Dokuments
mit dem Canonical-Tag versehen

Ich möchte beispielsweise als besonderen Service diesen Beitrag als PDF zum Download anbieten, obwohl er exakt den gleichen Inhalt wie diese Webseite hat und daher den rel=”canonical”-Tag verwenden, damit Google das PDF als Kopie einstuft. Dazu erstelle ich einen Link zum PDF (dessen Anchor-Text und Title-Attribut man auch gleich optimieren sollte):
Download: 8 ultimative Tipps zur PDF-Suchmaschinen-Optimierung
Wenn man sich nun den HTTP-Header anzeigen lassen möchte, braucht man ein kleines Tool. Denn der HTTP-Header wird vom Server versteckt an den Browser gesendet. Ich habe hier z.B. den Service von http://www.topster.de/http-header/ genutzt. Mein Download-Link spuckt folgenden HTTP-Header aus:

HTTP/1.1 200 OK
Date: Sat, 12 Jan 2013 23:02:32 GMT
Server: Apache
Last-Modified: Sat, 12 Jan 2013 22:58:09 GMT
ETag: "94ea6-361ff-4d31f5889c52f"
Accept-Ranges: bytes
Content-Length: 221695
Connection: close
Content-Type: application/pdf

Damit hier der Link mit rel=”canonical” Tag auftaucht, muss ich die .htaccess Datei auf meinem Server bearbeiten. D.h. hier soll beim Aufruf des PDF der Link dieses Artikel mit dem rel=”canonical” Tag angezeigt werden, damit Google weiss, dass ich die Webseite hier bevorzugen und als “Original” deklariere.
Hier liegt das PDF:

http://inlinear.com/blog/wp-content/uploads/2013/01/pdf-suchmaschinen-optimierung.pdf

hier ist die Adresse zum Blog-Beitrag:

http://inlinear.com/blog/ultimative-tipps-zur-pdf-suchmaschinen-optimierung/

Dazu in die .htaccess-Datei folgendes hinzufügen

<Files pdf-suchmaschinen-optimierung.pdf>
 Header set Link 'http://inlinear.com/blog/8-ultimativen-tipps-zur-pdf-suchmaschinen-optimierung/; rel="canonical"'
</Files>

Wenn ich nun erneut den Header abfrage erscheint:

HTTP/1.1 200 OK
Date: Sun, 13 Jan 2013 01:57:03 GMT
Server: Apache
Last-Modified: Sat, 12 Jan 2013 22:58:09 GMT
ETag: "94ea6-361ff-4d31f5889c52f"
Accept-Ranges: bytes
Content-Length: 221695
Link: http://inlinear.com/blog/8-ultimative-tipps-zur-pdf-suchmaschinen-optimierung/; rel="canonical"
Connection: close
Content-Type: application/pdf
! Wichtige Anmerkung: Wie man den Link zum HTTP Header hinzufügt ist auf etlichen Seiten im Internet zu finden, doch wird bei allen Beispielen der Link in eckige Klammern gesetzt, was bei mir dazu führt, dass der Link eben NICHT! im HTTP-Header angezeigt wird. Daher die Frage, ob Google dennoch den Link ohne eckige Klammern akzeptiert? Wer es weiß ist herzlich eingeladen zu erklären was es mit den eckigen Klammern auf sich hat.
Wenn ich nämlich gemäß sämtlichen Beispielen den Link in eckige Klammern setze wie hier:
Header set Link '<http://inlinear.com/blog/8-ultimative-tipps-zur-pdf-suchmaschinen-optimierung/>; rel="canonical"'

… so hat es zur Folge, dass im HTTP-Header der Link nicht angezeigt wird, sondern nur:

Link: ; rel="canonical"

Auch funktioniert anstelle von set Link auch append Link oder add Link, sowie wird auch oft mit dem Code: FilesMatch anstelle von nur “Files” der HTTP-Header für Dateien gesetzt…

<FilesMatch pdf-suchmaschinen-optimierung.pdf>
...
</FilesMatch>

doch hat das alles keinen Einfluss darauf, dass im HTTP-Header der Link in eckigen Klammern erscheint. Fazit: Ich bekomme es nur ohne diese Klammern hin und würde mich um eine Apache-Server-Experten-Erklärung sehr freuen! : ).

Zum Abschluss noch das Google-Video von Matt Cutts zum Thema PDF-Optimierung:

Grundsätzlich gibt es erst einmal nur wenig, was sich an einem PDF-Dokument überhaupt optimieren lässt, sagt Matt Cutts der bekannte Software Ingenieur in Google’s Suchqualitäts-Team, in einem Video

 

Share and Enjoy

  • Facebook
  • Twitter
  • Delicious
  • LinkedIn
  • StumbleUpon
  • Add to favorites
  • Email
  • RSS

6 Gedanken zu „PDF-Suchmaschinen-Optimierung 8 SEO-Tipps

  1. Markus Kohler

    Vielen Dank für den ausführlichen Artikel. Bislang habe ich mich mit der optimierung von pdf-Dateien noch nicht so stakr befasst, doch eigentlich ist da ein Fehler, denn immer wieder geben ich Schriftstücke damit heraus und dann wundere ich mich, wenn sie nicht gefunden werden.

    Antworten
  2. Daniel Weihmann

    Klasse Artikel, danke für die Infos … ich probiere gerade sozusagen am Snippet für die SERPs ein wenig herum.

    Zum Canonical-Link:

    Ich habe bei mir den Eintrag:
    Header append Link "; rel=\"canonical\""
    direkt in der jeweilige Serverkonfiguration hinterlegt. Im Response-Header wird Link demnach auch mit -Klammern übertragen und Google hat den Canonical-Eintrag auf page.html “akzeptiert”.

    Hier wird es mit Sicherheit mehrere funktionierende Möglichkeiten geben, um den Suchmaschinen mitzuteilen, was die kanonische Adresse des Inhalts ist. Nachprüfen sollte den Header allerdings jeder, der hiermit zu tun hat.

    Antworten

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>