Benutzer:Jokannes/SpokenWikipediaPodcast
Aktuell: Hier gibt es einen RSS-Feed
Wer einige Megabytes von seinem Webspace spenden möchten, bitte auf der Diskussionsseite melden oder Email an jokannes (at) arcor.de mit Betreff "Wikipedia Podcast". Vielen Dank!
Projekt Idee: automatischer Spoken Wikipedia Podcast
[Bearbeiten | Quelltext bearbeiten]Das WikiProjekt Gesprochene Wikipedia hat sich zum Ziel gesetzt, möglichst viele Artikel der Wikipedia als Audioversion zur Verfügung zu stellen. Dazu können Artikel von beliebigen Nutzern eingesprochen und als Audiodatei im Ogg Vorbis-Format hoch geladen werden. Auf der Projektseite wird eine Liste aller geprochenen Artikel geführt. Wer einen neuen Artikel einstellt, sollte ihn an dieser Stelle und im betreffenden Artikel veröffentlichen.
Die englische Wikipedia stellt einen manuell gepflegten RSS Feed mit den neuesten Einsprechungen zur Verfügung. Umgangssprachlich nennt man so etwas einen Podcast, der aber in der Regel ein RSS-Feed mit verlinken MP3-Dateien (statt OGG) ist, da der originale Namensgeber iPod und die übrigen portablen Audio-Player sowie viele Podcatcher eher das durch Patente geschützte MP3-Audioformat unterstützen als das quelloffene und freie Ogg Vorbis-Format.
Ziel dieses Projektes ist die Bereitstellung eines echten Podcasts, also eines RSS-Feeds mit verlinken MP3-Dateien, der automatisch aus den neuesten Einträgen aus der Liste der geprochenen Artikel generiert wird. Dabei erfolgt ebenfalls voll automatisch eine Umwandlung der Dateien aus dem OGG- ins MP3-Format.
Umsetzung
[Bearbeiten | Quelltext bearbeiten]Die Umsetzung könnte dabei in folgenden Schritten passieren:
- Akquirierung der aktuellen Liste aller geprochenen Artikel durch manuellen Aufruf eines PHP/Perl-Skriptes, automatisch durch einen Cronjob oder täglich beim ersten Abruf des RSS-Feeds
- Eintragung der Artikel (mit Entstehungszeit, Link zum Artikel, Link zur Medienseite, Link zur Quelldatei, Beschreibungstext) in eine Datenbank oder Liste
- bei neuen Artikeln: serverseitiger Aufruf eines Skriptes/Programmes zum Laden der Wikipedia OGG-Datei und Umwandlung in MP3 mittels LAME
- Senden der Datei an angeschlossene (private) ausgewählte Mirror-Server
- Ergänzung des Eintrages in der Datenbank um Kopien bei diversen Mirrors
- Generierung einer RSS-Datei der neuesten Artikel mit Link auf die Kopien der generierten MP3-Dateien bei den verschiedenen Mirrors
- Regelmäßige Prüfung, ob Kopien bei den Mirror-Servern noch vorhanden sind.
technische Hürden
[Bearbeiten | Quelltext bearbeiten]Für das Projekt ist ein eigener Server für die Akquirierung der nötigen Dateien, sowie die Umwandlung und das Hosting der Audiodateien nötig. Der Server braucht eine entprechende Anbindung und den nötigen Traffic, um bei wenigen Mirrors die ggf. hohe Anfrage an Audiodateien bewältigen zu können. Aufgrund der relativ seltenen weltweiten Einstellung neuer geprochener Artikel, ist die Leistung des Servers u.U. zweitrangig.
Wichtige Faktoren sind Kapazität (ein Artikel ist durchschnittlich 5 MB groß - 10GB reichen damit für 2.000 Artikel - aktuell sind weltweit maximal 500 Artikel eingesprochen) und Traffic (im April 2006 wurde im Projekt in Deutschland M3U Playlist ca. 2500 mal auf das Angebot einer direkten Wiedergabe der Artikel (Pseudostream) zugegriffen. Eine ähnliche Auslastung bedeutet einen Traffic von ca. 10GB monatlich. Durch das automatische runterladen durch Podcatcher kann sich dieser Traffic aber leicht vervielfachen. Mit der Verteilung auf verschiedene Mirror-Server kann diesem Problem begegnet werden)
Eine Ansiedlung des Services innerhalb einer Universität wäre aus diesem Grund für den Anfang ideal. Auch eine Entwicklung auf dem Wikipedia Toolserver ist beantragt. Ob eine endgültige Integration als Wikipedia-Service allerdings denkbar ist, bleibt der Diskussion um rechtliche Hürden vorbehalten. Unter Umständen muss sich das Projekt somit extern finanzieren und organisieren.
Verteilung durch Mirror-Server
[Bearbeiten | Quelltext bearbeiten]Alle Resourcen können auf verschiedene unabhängige Server verteilt werden, ggf. von privaten Betreibern, die immer nur einen oder wenige Artikel hosten. Der zentrale Server würde dann die Konvertierung übernehmen und die Dateien an eine Auswahl der angeschlossenen Server/Mirrors senden, bzw. deren Abruf durch ein spezielles Skript initiieren. Im RSS-Feed könnte dann für jeden Artikel auf einen anderen Server verwiesen werden. Je nachdem wieviele Mitglieder Webspace und Traffic an den Service sponsoren, könnten auch zufällig verschiedene Mirrors im Feed angegeben werden. Dabei ist auch die Entwicklung des Systems zur möglichst genauen Ausnutzung des gespendeten Speicherplatzes und Traffics eine besondere Herausforderung. Prinzipiell reicht eine Spende von wenigen Megabytes Webspaces eines normalen Anbieters, ggf. mit FTP Zugang oder Möglichkeit zur Ausführung eines PHP-Skriptes und laden externer Resourcen, bzw. die Möglichkeit des HTTP-POST von Dateien >2MB.
rechtliche Hürden
[Bearbeiten | Quelltext bearbeiten]Die Wikipedia hat sich für das OGG Vorbis-Format entschieden um patentrechtlichen Schwierigkeiten mit dem MP3-Format von vorn herein aus dem Weg zu gehen. LAME ist selbst kein ausführbares Programm zum Generieren von MP3-Dateien, sondern lediglich eine Sammlung von Quellcodes, die die Erstellung solcher Programme ermöglicht. Auch damit werden potentielle Gefahren umgangen. In wieweit muss die automatische Erstellung von MP3-Dateien und deren öffentliche Verbreitung gegebenenfalls von Rechteinhabern lizensiert werden?
Organisation, Entwicklungsarbeit
[Bearbeiten | Quelltext bearbeiten]Die Projektidee stammt in dieser Form von einem Medieninformatik-Studenten, der sie so auch im Rahmen seiner Freizeit oder im Studium bewältigen könnte. Nach der Hauptentwicklung innerhalb von 100-300 Stunden bedarf das Projekt prinzipiell nur noch marginaler Pflege. Hilfe ist aber in jedem Fall willkommen. Aufgrund der hohen Resourcenanforderung bedarf das Projekt aber längerfristig einer finanziellen Unterstützung oder sollte durch eine Organisation, z.B. einer Universität, getragen bzw. betrieben werden.