Podcasts sind nicht mein Medium. Ich höre mir quasi keine an. Doch weiß ich: Mir entgeht was. Neben viel selbstgefälligen Gelaber – meist von Männern – immer wieder Perlen: schlaue Gedanken, spannende Perspektiven, mir unbekannte Vorgänge, Aspekte und Ideen. In den Podcasts kondensiert ein Teil des gesellschaftlichen Diskurses.
Also habe ich einen Service namens DIVER gebaut, der für mich als Vorkoster fungiert. Seine Entwicklung erlaubte mir diverse Dinge zu lernen und in der Praxis auszuprobieren. Und ich kann sagen, ich bin zufrieden. Statt mir das wirklich schwer aushaltbare Geschwätz von rechten Vögeln wie Hoss & Hopf anzutun, liefert mir der Dienst nun solide Einschätzungen. Etwa zu deren Austausch mit dieser Person aus dem Ulfenbeinturm: „Diese Verbindung von elitärer Position mit Anti-Establishment-Rhetorik ist ein typisches Muster rechtslibertärer Diskurse.“ Ne, muss ich nicht hören. Danke großes Sprachmodell Claude Sonnet 3.7 – das hat mir 75 Minuten Lebenszeit gespart.
Dagegen liest sich die Einschätzung über die Unterhaltung zwischen Carolin Emcke mit Asal Dardan doch gleich hörenswerter: „Das Gespräch bietet durch seine Verbindung von literarischer Reflexion, persönlicher Erfahrung und gesellschaftspolitischer Analyse wertvolle Einblicke in die Herausforderungen einer inklusiven Erinnerungskultur.“ Und warum nicht zumindest mal mitbekommen, was in Taiwan los ist? Allein die Übersetzung des Namens des Podcasts hat was: „Nur zum Trinken geeignete Bibliothek“. Ja, ein möglicher nächster Schritt wäre, den original auf Chinesisch gesprochen Podcasts auf Deutsch hören zu können. Was mittlerweile wesentlich weniger technisch ein Problem sein dürfte als ein rechtliches.
Prototyp von Agentic Media
Doch eins nach dem anderen. Im ersten Teil dieser Serie zu „Agentic Media“ hatte ich skizziert, wie ich mir den Umbruch des Medienökosystems vorstelle: Als neuer Gatekeeper entsteht mittels Generative AI & Co eine Softwareschicht zwischen dem User und dem Internet. Eine Schicht, die auch proaktiv werden kann, also einen Auftragsrahmen hat und entsprechend Medien auswertet, Verknüpfungen schafft, Meta-Analysen tätigt. Die aber auch eigenständig Inhalte findet und ggf. mit in den Informationskanon des Users einbezieht.
DIVER ist ein Prototyp, wie solch eine Schicht wirken kann. Ich halte es für wesentlich, dass diese neuer Gatekeeper-Layer nicht nur durch Lösungen von den Techkonzernen via Betriebssysteme, App- und Hardwaredominanz gestaltet wird. Und diese damit noch mehr Kontrolle über die mediale Wirklichkeit erlangen. Wir benötigen unabhängige Dienste, deren Weise des Filterns und Verarbeitens von Wirklichkeit transparent gestaltet und dokumentiert ist. Die selbstbestimmt von den Nutzer:innen mitgestaltet werden kann – dazu mehr in Teil 3.
Meine Lösung besteht aus zwei voneinander unabhängigen Systemen. Das DiveCenter empfängt von DIVER Angaben zur Quelle – es liegt auf der Hand, dass es künftig nicht nur um das Verarbeiten von Podcast gehen wird; so werden demnächst beispielsweise auch Newsletter „vorgekostet“ werden können. Letztlich kann im Zeitalter multimodaler LLM (Text-, Bild-, Ton-Verständnis) eine große Bandbreite digitalen Contents als Quelle dienen. Zurzeit verarbeitet das System mp3-Dateien: Lädt sie herunter, schickt sie zu einem Transkriptionsdienst (Whisper), der zahlreiche Sprachen beherrscht. Das so erzeugte Transkript wird dann per LLM auf Deutsch zusammengefasst und schließlich noch in Englische übersetzt. Dann geht der Text zu DIVER, der eigentlichen Web-App. Hier können User Quellen abonnieren und erhalten Benachrichtigungen per E-Mail, wenn eine neue Zusammenfassung eintrifft. Das geschieht innerhalb 15 Minuten nach Veröffentlichung der Podcastfolge.
Gibt es Urheberrechtsfragen zu bedenken? Die DIVER-Texte haben einer Länge von ca. 5000 Zeichen; sie handeln von Transkripten mit einigen zehntausend Zeichen: Es wird eine deutliche Reduktion vorgenommen; eine Eigenleistung durch den analytischen Teil (Schöpfungshöhe) liegt vor. Die ursprüngliche Quelle wird gekennzeichnet und verlinkt. Insofern entspricht es gängigen Medienjournalismus und dürfte rechtlich unproblematisch sein.
Coding
Die beiden Systeme, die hier zusammenspielen, sind komplett mittels Coding Agents (Replit Agent, Lovable) durch mich über einen Zeitraum von 8 Wochen entwickelt worden. D. h. kein menschlicher, professioneller Programmierer war involviert. Ich würde das allerdings nicht „Vibe Coding“ nennen, sondern recht zielgerichtetes Arbeiten. Mittels Tools, die vor knapp einem Monat durch die Veröffentlichung von Claude Sonnet 3.7, auf denen sie basieren, noch einmal an Leistungsfähigkeit gewonnen haben. Pi mal Daumen würde ich sagen: Hätte ich dieses Softwareprojekt vor einem Jahr mit einem externen Entwicklerstudio umgesetzt, hätte es mich etwa 30.000 Euro gekostet – mindestens. Plus meiner Arbeitszeit. Davon musste ich jetzt deutlich mehr aufbringen, aber die reinen Kosten für die Coding Agents lagen bei etwa 300 Euro.
Ich habe nun 15 Jahre lang in zahlreichen Vorhaben mit Dutzenden Programmier:innen zusammengearbeitet. Insofern erlaube ich mir folgendes Urteil: Hinsichtlich der Software für z.B. eine Verkehrsssteuerung würde ich weiterhin hauptsächlich auf Menschen setzen – wie in allen anderen sicherheitsrelevanten Software- und Datenvorhaben auch. Bei Webentwicklung von kleineren und mittleren Anwendung werden Coding Agents spätestens kommendes Jahr qualitativ mit den meisten kompetenten Entwickler:innen mithalten können. Und hinsichtlich Geschwindigkeit und Kosten unschlagbar sein. Die Zukunft von einem Teil der Softwareentwicklungsfirmen wird in der sinnvollen Orchestrierung solcher Agenten-Systeme liegen. Ein anderer Teil wird verschwinden.
Redaktion
Etwa 70 Transkript habe ich zusammen mit dem LLM Claude Sonnet in den letzten Monaten betrachtet; mehrheitlich mit um die 60.000 Zeichen, was in etwa eine Stunde Podcast entspricht. Wie kann der generische Auftrag (Prompt) für ein LLM lauten, eine Vielzahl unterschiedlichster Gespräche sinnvoll und aussagekräftig zusammenzufassen und auszuwerten? Das LLM kann aus dem reinen Textkorpus ohne klare Zuordnung der Sprecher:innen erstaunlich gut anhand von Sprechweisen und dem Kontext erkennen, wer spricht. Dann war zu klären: wie akribisch und kritisch soll das Modell herangehen? Ihm ist recht egal, ob es in die Rolle eines rechtskonservativen Kommentators, einer dogmatischen Sozialistin oder eines Mitt-Extremisten schlüpfen soll.
Insofern hat die Vorbereitung dieser Automatisierung von Medienjournalismus durchaus redaktionellen Charakter; de facto ist DIVER ein doppelter Tendenzbetrieb. Einmal bringt das LLM, in dem Fall Claude, einen Bias durch seine „Erziehung“ mit, den es selbst so beschreibt: „Ich neige dazu, Themen aus einer westlich-demokratischen, technologieoptimistischen Perspektive zu betrachten, die den gesellschaftlichen Nutzen rationaler Diskurse und evidenzbasierter Entscheidungsfindung bevorzugt, während ich kulturelle Kontexte, die außerhalb meiner Trainingsdaten liegen, weniger nuanciert erfassen kann.“
Und darauf setzt dann noch meine Vorgaben in den Prompts auf, die ich zum einen im Austausch mit dem LLM selbst entwickelt habe. Zum anderen aber geprägt sind durch meine eigene gesellschaftlich-politische Haltung und mein journalistisches Selbstverständnis: Die Vorstellung, dass Journalist:innen neutral sein können, sagen könnten „was ist“, habe ich schon immer für Unsinn gehalten; Journalismus sollte möglichst fair und ausgewogen sein, alles vertretbar recherchierbare Relevante zu einem Sachverhalt oder Vorgang darzustellen. Die Macht der Verlage, Agenturen, Redaktionen und schließlich der Journalist:innen liegt darin (bzw. lag darin) zu entscheidet, was als relevant gelten kann.
Insights
Ein System wie DIVER kann in andere Sprachräume eintauchen. Die Analysefähigkeiten mancher LLM, die bereits in ihren „Content Windows“ Texte von der Länge der gesamten Bibel auf einmal verarbeiten können, wird es erlauben Meta-Betrachtungen anzustellen: „Ermittle die fünf bedeuteten politischen Themen in italienischsprachigen Politikpodcasts in den letzten 12 Monaten und stelle mir in 12.000 Zeichen die unterschiedliche Betrachtungsweise und Argumente dar.“ Verfahren wie RAG ermöglichen Feature, mit denen User in Anwendungen wie DIVER fragen können: „Wie behandeln Podcasts aus Frankreich dieses Thema?” Oder: “Kennst du Newsletter, die auf diese Fragestellung aus einer ganz anderen Perspektive schauen?”
Soweit. Wer DIVER ausprobieren möchte: einen Test-Zugang gibt es auf Anfrage. Ihr könnt euch auch gerne auf die Warteliste bei diver.fyi eintragen. In der zweiten Aprilhälfte dieses Jahres, so der Plan, wird sich der Service von allen nutzen lassen. Der dritte Text über Agentic Media-Systeme und die künftige Rolle der Verlage und Redaktionen erscheint in einigen Wochen.