Commons:Guide to batch uploading/de

Batch-Uploading oder Datenerfassung bezeichnet das automatisierte Hochladen mehrerer Dateien. Diese Anleitung soll erläutern, wie dies durchgeführt wird. Siehe auch Commons:Batch uploading für weitere Informationen. Für Informationen zum Aufbau einer Partnerschaft mit einem Inhaltspartner zwecks Beschaffung von Inhalten zum Hochladen siehe Commons:Guide to content partnerships. Für Hilfe bei der Evaluierung des Arbeitsablaufs für Batch-Uploads siehe das Lernmuster auf Meta.
Bevor du beginnst: Lizenzierung und Berechtigungen
Bevor du auch nur daran denkst, eine Reihe von Dateien als Batch-Upload hochzuladen, vergewissere dich zu 100 %, dass alle Dateien frei sind und in den Projektumfang fallen. Stelle sicher, dass du die Künstler und deren Todesjahr oder das Jahrhundert, in dem sie lebten, kennst und verwende Creatir-Vorlagen, damit andere das Todesjahr problemlos überprüfen können. Falls du Freigaben einholen musst, tu dies bitte, bevor du mit dem Batch-Upload beginnst. In den meisten Fällen wird für einen gesamten Batch-Upload eine einzige Lizenz für alle enthaltenen Dateien verwendet. Welche Lizenz angemessen ist, hängt von einer Vielzahl von Faktoren ab, insbesondere davon, ob es sich um Bilder von 2D- oder 3D-Objekten handelt.
2D-Werke
2D-Werke umfassen Gemälde, Zeichnungen, Fotografien und Dokumente. Falls du beabsichtigst, eine der unten aufgeführten Lizenzen zu verwenden, stelle bitte sicher, dass es sich bei den Bildern tatsächlich um 2D-Werke handelt; versuche, etwaige Rahmen von Gemälden wegzuschneiden, und lade keine Fotografien von Räumen mit Wandmalereien oder Fresken hoch, die architektonische Merkmale zeigen, es sei denn, du gibst eine gesonderte Lizenz für den Fotografen an. Zu den für 2D-Werke geeigneten Lizenzen gehören unter anderem:
- {{PD-Art}} - für Bilder von 2D-Kunstwerken von Künstlern, die vor mehr als 70 Jahren verstorben sind.
- {{Licensed-PD-Art}} - für Bilder von 2D-Kunstwerken von Künstlern, die vor mehr als 70 Jahren verstorben sind, sofern der Fotograf des Werkes seine Fotos ausdrücklich unter einer freien Lizenz freigegeben hat.
- {{PD-scan}} - für Scans oder Fotokopien von 2D-Werken von Autoren, die vor mehr als 70 Jahren verstorben sind.
Alle diese Vorlagen können mit einer Unterlizenz versehen werden. Wenn du beispielsweise Bilder von Gemälden hochlädst und weißt, dass alle Künstler vor mindestens 100 Jahren verstorben sind, könntest du {{PD-Art|PD-old-100}} verwenden.
3D-Werke
3D-Werke umfassen Skulpturen, Gebäude, Gemälde mit künstlerisch gestalteten Rahmen, Münzen sowie bestimmte Textilien. In den meisten Fällen sind bei solchen Bildern zwei Urheberrechte betroffen: das Urheberrecht am Originalwerk und das Urheberrecht an der Fotografie selbst. (Siehe Commons:Freedom of panorama für Ausnahmen.) Wenn du solche Bilder hochlädst, achte bitte darauf, die Lizenzierung sowohl für die Fotografie als auch für das darauf abgebildete Werk anzugeben. Siehe als Beispiel dieses Foto eines 3D-Kunstwerks aus dem Walters Art Museum. Für 3D-Werke sind im Allgemeinen keine speziellen Lizenzvorlagen erforderlich. In der Regel kannst du für die Werke die üblichen PD-Old-Vorlagen und für die Fotografien Creative-Commons-Vorlagen verwenden.
Voraussetzungen
Die Dateien erhalten
Bevor du etwas hochlädst, musst du die entsprechenden Dateien haben. Du kannst die Dateien entweder lokal speichern oder URL-Links verwenden, die auf den genauen Speicherort der Quelldateien verweisen. Die URL sollte mittels Deep Link direkt auf die JPG/OGG/...-Dateien verweisen. Falls alle oder einige der Bilder bearbeitet werden müssen, beispielsweise um Gemälde aus Rahmen auszuschneiden oder Wasserzeichen zu entfernen, ist es einfacher, zunächst alle Bilder herunterzuladen und lokal zu speichern.
Die Metadaten erhalten
Rufe die Metadaten ab, damit uns genügend Informationen zur Verfügung stehen, um später den Dateinamen, die Beschreibung und die Kategorien zu erzeugen. Im Falle von Kunstwerken benötigst du beispielsweise: Autoren, Titel, Techniken, Datierungen, verwahrende Institutionen etc. Zu den Quellen für Metadaten können gehören:
- von den Websites bereitgestellt, siehe beispielsweise hier
- von den am Hochlade-Prozess beteiligten GLAM-Institutionen bereitgestellt (wenn beispielsweise ein Museum TMS verwendet, könnte es seine Daten als SQL-Datei exportieren)
- von der Website ausgelesen: Seiten-Scraping
Ratenbegrenzungen
Normale Benutzer auf Commons sind auf 380 Uploads pro 72 Minuten beschränkt. Benutzer, die die Rechte image-reviewer, patroller oder autopatrolled erhalten haben, unterliegen einer Ratenbegrenzung von 999 Uploads pro Sekunde. Benutzer können diese Benutzerrechte unter COM:RFR beantragen. Wenn du ein accountcreator, bot, bureaucrat, sysop oder translationadmin bist, bestehen keine Ratenbegrenzungen.
Um deine Ratenbegrenzungen zu testen, klicke hier und gehe anschließend auf query > userinfo > ratelimits > upload.
Werkzeuge

Historisch gesehen erfolgten Uploads mithilfe von Bots, die von Wikimedianern programmiert wurden. Mittlerweile existieren benutzerfreundlichere Werkzeuge, die den Hochladeprozess teilweise oder vollständig vereinfachen.
- Pattypan und ComeOn! sind für GLAM-Aktivitäten optimierte Desktop-Anwendungen, die eine Tabellenkalkulation nutzen, um Dateien von deiner Festplatte hochzuladen.
- OpenRefine, ein flexibles Werkzeug zur Datenaufbereitung, eignet sich auch für GLAM-Uploads. Es verarbeitet eine Vielzahl von Datenformaten (einschließlich XML und Daten aus APIs). OpenRefine unterstützt die Bearbeitung und das Hochladen strukturierter Daten.
- (Funktioniert seit Nov. 2021 nicht mehr) Commonist funktioniert mit älteren Systemen und MediaWiki-Instanzen außerhalb von Commons.
- (Stand 2020 veraltet) Das GLAMwiki Toolset (auch bekannt als GWToolset), ein On-Wiki-Werkzeug, das es dir ermöglicht, Dateien im Batch-Upload aus einer strukturierten Datenquelle, wie etwa einer XML-Datei, hochzuladen.
- Offroader ist eine Android-App, die MOV- und MP4-Dateien in das WebM-Format transkodiert, Videodateien mit einer Größe von über 4 GiB aufteilt, vor Beginn eines Uploads die SHA1-Prüfsumme verifiziert, Versions-Uploads ermöglicht, Uploads nach Unterbrechungen (CPSR-Token, Abmeldung, geänderter Dateischlüssel, Internetausfall, Geräteabsturz) fortsetzt, nach der Veröffentlichung die Dateintegrität überprüft und ein Protokoll mit Fehlermeldungen für Entwickler erstellen kann.
Siehe Commons:Upload tools für weitere Optionen.
Werkzeuge, die bereits vorhandene Dateien massenhaft ändern können, sind nützlich, um Details zu Dateien hinzuzufügen, falls beim Hochladen etwas vergessen wurde.
- Cat-a-lot kann die Kategorien großer Mengen von Dateien in Sekunden ändern.
Prozess
Erstelle eine Unterseite von Commons:Batch uploading, um den Upload zu diskutieren. Auf dieser Seite kannst du beschreiben, was du hochlädst, Rückmeldung erhalten und den Fortschritt dokumentieren.
Prüfung auf Duplikate
Bevor du dir die Mühe machst, sämtliche Informationen zusammenzustellen, prüfe, ob die Datei nicht bereits auf Commons existiert.
- Berechne den SHA-1-Hash der Datei. (In PHP kannst du die Funktion sha1_file() verwenden.)
- Frage die API, ob eine Datei mit diesem Hash existiert.
- Überspringe die Datei, falls bereits eine Datei mit demselben Hash existiert oder überprüfe, ob die aktuelle Beschreibung das korrekte Format aufweist, und füge bei Bedarf Metadaten hinzu.
Benennung
Definiere eine sinnvolle Dateibenennungskonvention und stelle dabei sicher, dass die Dateinamen eindeutig sind und noch nicht auf Commons verwendet werden. Du kannst dabei Folgendes berücksichtigen:
- Titel und/oder kurze Beschreibung (vorangestellt, damit wir, falls Namen abgeschnitten werden, dennoch erkennen, worum es geht)
- Jahr
- Name der Quelle/Institution
- Zugriffsnummer / Datensatz-Identifikator - Das Hinzufügen eines eindeutigen Identifikators, der von einer anderen Institution verwendet wird, erleichtert die Verknüpfung und erhöht die Wahrscheinlichkeit, dass der Dateiname eindeutig ist.
Beschreibungen und Vorlagen
Beschreibungen sollten aus den Metadaten abgeleitet werden, insbesondere dann, wenn von einer Partnereinrichtung umfangreiche Metadaten bereitgestellt wurden. Um die Informationen erfolgreich auf Commons speichern zu können, müssen die Metadaten in das Wikitext-Format umgewandelt werden:
- Als beste Vorgehensweise gilt die Verwendung standardisierter Vorlagen für die Metadaten, um sicherzustellen, dass diese auf Commons eine längere und robustere Beständigkeit aufweisen (insbesondere, sobald Commons:Structured data möglich wird):
- {{Information}} -- Standardvorlage für Beschreibungen, nur zur Verwendung
- {{Artwork}}
- {{Book}}
- Verwende, wann immer möglich, die folgenden Vorlagen, die Wikidata und andere von der Community erstellte Informationen nutzen:
- vorhandene Creator-Vorlagen, um Autoren, Künstler und andere Urheber zu identifizieren, oder erstelle neue Vorlagen unter Verwendung von {{Creator}}.
- vorhandene Institution-Vorlagen, um GLAM-Institutionen zu identifizieren, die die Kunstwerke verwahren, oder erstelle neue Vorlagen unter Verwendung von {{Institution}}.
- {{Other date}}, {{Size}}, {{Technique}}
- so viele mehrsprachige Tags wie möglich
- Stelle URL-Links zu den Quelldatensätzen bereit und verwende dabei eine Identifikationsnummer und eine Vorlage wie {{Archives municipales de Toulouse - FET link}} oder {{KIT-source}}.
- Erstelle ein Quellen-Tag, um die Quelle/Partnerschaft anzugeben (siehe Commons:Partnership templates für Richtlinien und Beispiele).
- Gib, sofern angemessen, eine Namensnennung unter Verwendung der Standardmechanismen an (Parameter attribution der Creative-Commons-Tags, {{Credit line}}).
Kategorien
Die Dateien, die du hochladen wirst, müssen in die Kategorienstruktur auf Commons integriert werden. Kategorien sind für Nutzer eine gängige Methode, um Dateien zu finden. Eine möglichst umfassende Kategorisierung ist entscheidend dafür, dass deine Bilder von einem möglichst breiten Publikum gesehen werden.
Arten von Kategorien
Grob gesagt gibt es zwei Arten von Kategorien, die eine Datei haben kann: Kategorien, die sich auf das Thema der Datei beziehen, und solche, die sich auf die Herkunft der Datei beziehen.

Betrachte das Bild auf der rechten Seite. Es handelt sich um eine Reproduktion einer Fotografie aus den 1910er-Jahren, die Männer in einem Pic-Pic-Wagen zeigt und aus der Sammlung des Schweizerischen Bundesarchivs stammt.
Die Themenkategorien für dieses Bild sind Pic-Pic-Fahrzeuge, Fotografien der 1910er-Jahre und Schweiz im Ersten Weltkrieg (motorisierte Fahrzeuge).
Die Herkunftskategorien sind CH-BAR-Sammlung Erster Weltkrieg Schweiz und Von den Schweizerischen Bundesarchiven beigesteuerte Medien.
Die Herkunftskategorie lässt sich weiter in Tracking-Kategorien und Quellenkategorien unterteilen. Tracking-Kategorien sind für 'normale Benutzer' von geringem Nutzen, jedoch unverzichtbar, um sämtliche Inhalte einer Quelle nachzuverfolgen. So nutzt beispielsweise das BaGLAMa-Werkzeug diese Kategorie, um monatliche Seitenaufrufe bereitzustellen.
Eine Tracking-Kategorie kann zudem angeben, dass die Reproduktion 'offiziell gestiftet' wurde. Reproduktionen (insbesondere von gemeinfreien Werken) sind im Internet weit verbreitet und können von jedem Commons-Nutzer hochgeladen werden. Im Falle eines Batch-Uploads wird die Quelle üblicherweise 'verifiziert' (z. B. über eine API oder einen Datendump). Daher ist es sinnvoll, sowohl eine Tracking-Kategorie, wie etwa Medien beigesteuert von <Institution>, als auch eine Quellenkategorie zu haben, welche die Sammlung der betreffenden Institution ausweist, wie etwa Sammlungen von <Institution>.
Für Dateien, die 'zusammengehören', ist es zudem sinnvoll, eine übergreifende Quellenkategorie zu erstellen, wie etwa Dekorative Kunstwerke im Louvre - Raum 19. Diese Kategorie sollte korrekt in die entsprechende Hierarchie eingeordnet werden (z. B. als Unterkategorie von Dekorative Kunstwerke im Louvre).
Beachte, dass Kategorien auf Commons alles andere als standardisiert sind und unvorhersehbar sein können. Im Allgemeinen sind die Kategorienamen auf Englisch, es gibt jedoch viele Fälle von inkonsistenter Benennung und Fehlern.
Umsetzung in die Praxis
Zusammenfassend: Jede Datei, die du hochlädst, sollte Folgendes haben:
- Eine Tracking-Kategorie, hinzugefügt durch eine Partnerschaftsvorlage wie Category:Media_contributed_by_the_Swiss_Federal_Archives. Diese Kategorie sollte eine Unterkategorie sein von:
- Der Institutionskategorie (in diesem Fall Category:Swiss Federal Archives)
- Der Stammkategorie für Inhaltspartnerschaften: Category:Files from content partnerships
- Einer optionalen übergeordneten Quellenkategorie (in diesem Fall Category:Images from libraries).
- Eine Quellenkategorie, die die Quelle oder Sammlung des Originalkunstwerks angibt. Zum Beispiel Category:CH-BAR Collection First World War Switzerland.
- Diese Kategorie sollte auch eine Unterkategorie der Institutionskategorie sein (in diesem Fall Schweizerisches Bundesarchiv).
Deine Dateien können Folgendes haben:
- So viele Themenkategorien wie möglich aus den Metadaten. Dazu können je nach Eignung gehören: Datum (Category:1905 in France), Ort, Entstehungsort, Künstler, Objekttyp, Stil, Material, Technik, Motiv etc. Idealerweise sollte innerhalb jedes Kategoriebaums die jeweils präziseste verfügbare Kategorie gewählt werden (prüfe hierzu, welche Unterkategorien existieren). Sollen einer Kategorie eine größere Anzahl von Dateien - etwa mehr als 20, manchmal aber auch weniger - hinzugefügt werden, empfiehlt es sich häufig, diese entweder auf bestehende Unterkategorien zu verteilen oder eine neue Unterkategorie für sie anzulegen (wie es beispielsweise bei den Unterkategorien von Category:Photographs by Paolo Monti geschehen ist).
- {{subst:chc}}, um {{Check categories}} automatisch hinzuzufügen (HotCat und andere entfernen dies automatisch, sobald Kategorien manuell geändert werden). Und/oder eine Kategorie «Zu überprüfen» für die Wartung nach dem Hochladen (siehe Category:To be checked).
Einen Test-Upload durchführen
Lade einige Bilder hoch und bitte auf der Unterseite von Commons:Batch uploading um Rückmeldungen. Die Prüfer werden dich auf einige verrückte und völlig unbekannte Vorlagen hinweisen oder solche vorschlagen, die du unbedingt integrieren wollen wirst. Du wirst sicherlich mehrere Iterationen durchlaufen müssen, bevor du grünes Licht erhältst. Bitte hab Geduld: Es ist besser, es gleich beim ersten Mal richtig zu machen, als die Uploads hinterher korrigieren zu müssen.
Wenn du das Hochladen testest und sicher mit der Verwendung von Werkzeugen oder neuen Vorlagen in einer geschützten Umgebung experimentieren möchtest, kannst du ein Benutzerkonto im Beta-Cluster anlegen. Dies ist ein Spiegel von Wikimedia Commons; sollte dabei etwas schiefgehen, verursachst du keinerlei Störungen in der produktiven Umgebung. Siehe http://commons.wikimedia.beta.wmflabs.org und diese Erläuterung.
Einen neuen Benutzer für deinen Hochlade-Bot erstellen
Falls du noch keines besitzt, musst du ein Bot-Konto unter Commons:Bots/Requests beantragen.
Den echten Upload durchführen
Obwohl Hochlade-Bots in verschiedenen Sprachen und unter Verwendung unterschiedlicher vorhandener Frameworks programmiert werden können, basierten die meisten Bots bislang auf dem Python Pywikibot Framework. Du kannst zudem Code wiederverwenden, der von anderen Batch-Uploadern geteilt wurde.
Falls deine Dateien zu groß sind oder es sich um sehr große Mengen handelt, kannst du einen serverseitigen Upload beantragen.
Dokumentation
Richte eine Commons-Seite ein, um das Projekt zu beschreiben:
- Bitte halte dich an das übliche Layout und verwende {{Sample}} und {{Header}}.
- Füge sie mit {{Partnership table row}} zu Commons:Partnerships hinzu.
- Sorge für Übersetzungen in so viele Sprachen wie möglich.