Wikipedia:WikiProjekt KI und Wikipedia

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Essentials
Diskussion
Hintergrund
Texte
Übersetzung
Bild/Video/Musik
Qualitätssicherung
Interesse
KI UND Wikipedia - Leonardo.ai

Visual Editor

Ziele des Projektes… sind offen und hängen von den Herausforderungen, vom Interesse der Beteiligten, den vorhandenen zeitlichen Ressourcen und den Kompetenzen ab. Vielleicht braucht es zukünftig für Themen Arbeitsgruppen.

Kern: Wie wirken sich die neuen Nutzungsmöglichkeiten der Künstlichen Intelligenz (KI) auf die Wikipedia aus? Was kann man produktiv nutzen? Wo sind die Gefahren? Wie bewahren wir kuratiertes Wissen? Wie erhalten wir unser Wikipediaprinzip, dass Freiwillige Artikel schreiben und dafür ausreichend motiviert bleiben - und dass auch für die Wikipedia eine Zukunft bleibt?

→ Vermutete Zusammenhänge für den Kreislauf der Entwicklung von Wikipedia und mögliche Einflüsse (Meinung Wortulo)
  • Die Sammlung von Informationen an einer Stelle zu KI allgemein und der richtige Umgang damit in der Wikipedia ist ein Beginn. Quellen stammen hauptsächlich aus Pressespiegeln - strukturiert und redaktionell etwas kommentiert. Andere sollen bitte auch beitragen, Wortulo sieht den Ausbau und die Pflege als seinen Beitrag zum Projekt.
  • Werkzeuge und Hinweise zum Umgang: Das Thema soll auch praktisch bearbeitet werden mit einem Erfahrungsaustausch.
  • Allgemeine Schulungen zu KI sind verlinkt. Wenn genug Wissen vorliegt, könnten (wieder mit Wikimedia) spezifische Schulungen für die Wikipediaarbeit erfolgen
  • Wenn die Foundation oder Projekte eigene Werkzeuge entwickeln, können wir die Sicht der Community einfliessen lassen und diese mit testen.
  • Möglich wäre die Betreuung der Darstellung von KI-Themen in den Artikeln des ANR mit allen Teilgebieten so wie bei Portalen. Hinter den meisten stehen ein Projekt oder eine Redaktion. Dazu braucht es Experten für KI als Mitarbeiter.
  • Die gesellschaftlichen Entwicklungen und Prognosen, was KI mit der Gesellschaft macht und welchen Stellenwert Wissen dabei hat, wie man später Informationen sucht ("Wissenskonsum"), auch ethische Fragen

Wir wollen auch das Format des Digitalen Themenstammtisches als Stammtisch und Forum mit nutzen, um zukünftig Veranstaltungen zu einzelnen konkreten Themen dort durchzuführen.

Projekt-Infos, Einladungen oder Mitarbeit: trage Dich bitte unter Interesse ein, ggf. auch wofür Du ansprechbar bist.

Struktur der Darstellung ("Reiter" oben):

    • Diskussion: alles Neue oder Interessante mit Diskussionswunsch,
  • Wichtiges (ohne Diskussion) bitte selbst einordnen oder dies wird gemacht. Überschriften und eine am Inhalt orientierte Farbstruktur der "Kästen" helfen bim Strukturieren
    • Essentials: Auswahl für den Einstieg (was sollte man unbedingt wissen)
    • Hintergrund: Weiteres für allgemeinen Fragen zu KI
    • Texte: …zu KI-generierten und bearbeiteten Texten (Artikel und die Quellenfrage)
    • Übersetzung: …zu KI-Übersetzungen und dem Post-Editing
    • Bild/Video/Musik: …für Bilder, Videos, Musik und anderen Medien
    • Qualitätssicherung: …für Qualitätssicherung in der Wikipedia bezogen auf KI und die Sensibilisierung der Autoren

Es gilt laut unserem Regelwerk: Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen. Beiträge, die damit erstellt werden, verstoßen daher unter anderem gegen WP:Keine Theoriefindung, WP:Belege, WP:Urheberrechtsverletzung, WP:Neutraler Standpunkt; ihre Verwendung ist daher derzeit generell unerwünscht.

Eng ausgelegt bezieht sich das auf KI-erstellte Beiträge (auch als Teile von Artikeln). Ebenfalls eng ausgelegt ist der Einsatz generativer KI als Hilfsmittel (z.B. für die Recherche, Übersetzungen oder Verbesserungen) nicht ausgeschlossen und verbreitet sich in der Praxis. Hierbei muss jedoch die stochastische Unzuverlässigkeit von Sprachmodellen berücksichtigt werden. Eine Prüfung KI-generierter Elemente und aller Quellen ist daher stets nötig, die Verantwortung für diese Prüfung obliegt dem Ersteller. Auch wenn es überzeigend klingt, kann es fehlerhaft sein. Kontrollmechanismen (Mensch und/oder KI) sind notwendig, aber noch nicht abschließend durch die Community geregelt.

KI verstehen

[Quelltext bearbeiten]

Die Auswahl erfolgt so sparsam wie möglich, um einen Überblick zu erhalten. Mehr in „Hintergrund“ und der zahlreichen anderen Literatur zum Thema. Eines der Standardwerke für die Einführung in die KI samt ihrer Geschichte und ethischer Überlegungen ist Artificial Intelligence: A Modern Approach (AIMA, enwiki).

Einführungen

[Quelltext bearbeiten]
Grundsätzliche Unterscheidung: Symbolische vs. Neuronale/subsymbolische KI
Viele Begriffe sind sich ähnlich, man muss die Relationen beachten (hier für drei wichtige wobei Deep learning das ist, dem generative KI zugeordnet wird
Andere Zuordnung der generativen Modelle, die wiederum nur Teilmenge sind
Weitere Zuordnung mit Erläuterungen. Vergrössern: anklicken
"Wimmelbild" zu AI von Trebol6 (englisch) April 2024. Vergrössern: anclicken

Fachbegriffe und ihre Beziehungen korrekt verstehen:

  • Die wichtigsten KI-Begriffe im Überblick (Microsoft.com)
    • Kurzerklärungen zu Künstliche Intelligenz - Maschinelles Lernen - Grosse Sprachmodelle (LLM) - Generative KI - KI-Halluzinationen - Verantwortungsvolle KI - Multimodale Modelle - Prompts - Copilots <Name für Chatbots bei Microsoft> - Plugins. Konzentriert sich vorwiegend auf den neuronalen Ansatz.

Einführende Info

[Quelltext bearbeiten]
  • What is Agentic AI auf aisera.com
    • → gute Gegenüberstellung 3 Typen AI (KI) (classic, generative und agentic AI), es gibt mehr als die generative KI, das ist aber noch nicht das Ende.
  • Was ist Künstliche Intelligenz?: Teilgebiet der Informatik, das sich mit der Automatisierung intelligenten Verhaltens und dem maschinellen Lernen befasst; 1956 taucht erstmals "artificial intelligence (AI)" auf - Künstliche Intelligenz (KI) ist die Übersetzung. Die Einführung konzentriert sich auf den neuronalen Ansatz.
  • S.M. Kerner: Large Language Model (LLM) Computer Weekly Mai 2024
    • Das Large Language Model (LLM) ist eine Art von Algorithmus der künstlichen Intelligenz (KI), der Deep-Learning-Techniken und massiv große Datensätze verwendet, um neue Inhalte zu verstehen, zusammenzufassen, zu generieren und vorherzusagen. Der Begriff generative KI ist eng mit LLMs verbunden, die in der Tat eine Art von generativer KI sind, die speziell für die Generierung textbasierter Inhalte entwickelt wurde. → Grundlagen werden dargestellt.
  • Symbolische und subsymbolische KI: Stefan Luber: Was ist subsymbolische KI? (symbolisch gibt es länger, Regeln macht der Mensch, ist daher aufwändiger und hält im Moment mit den generativen KI nicht mit, was die breite Nutzbarkeit für verschiedene Zwecke betrifft),
    • Während die subsymbolische KI mit Modellen arbeitet, die die Arbeitsweise und das Lernverhalten des menschlichen Gehirns nachbilden, basiert die symbolische KI auf vordefinierten Regeln, Logik und abstrakten Symbolen […] Die Regeln der symbolischen KI sind transparent und Lösungswege nachvollziehbar. Allerdings benötigt die symbolische KI von Menschen erstellte oder programmierte logische Regeln, da sie nicht wie subsymbolische KI Wissen selbst aus Daten ableiten und generieren kann. Symbolische KI wird für spezifische Aufgaben entworfen, ist nur bedingt anpassbar und bietet nur sehr eingeschränkte, auf einen bestimmten Bereich bezogene Möglichkeiten, echte menschliche Intelligenz zu imitieren […] Subsymbolische KI verhält sich für den Menschen wie eine Blackbox.
    • → Z.B. Wikidata lässt sich durch die dort erfassten Regeln auch in symbolischer KI nutzen. Streng genommen ist schon eine SPARQL-Abfrage in Wikidata die Anwendung symbolischer KI.
    • ELIZA (1966) beruht(e) vollständig auf symbolischer KI. Die meisten modernen generativen KI-Chatbots setzen nicht auf symbolische KI, sondern auf subsymbolische Ansätze wie neuronale Netzwerke und maschinelles Lernen. Einige moderne Chatbots können wie vermutet wird subsymbolische und symbolische KI kombinieren. Als möglicherweise hybrid gelten Workativ Assistant und Chatsonic, vermutet werden symbolische Elemente auch in Claude
    • Auch Expertensystememe - synonym wissensbasierte Systeme gehören in die Geschichte der symbolischen KI. z.B. WolframAlpha hat so begonnen, sieht allerdings auch eine hybride Weiterentwicklung bis zur Einbindung in ChatGPT als Zukunft.
    • → Wenn der Trend der Nutzer anscheinend zu subsymbolischer KI geht (zu denen die generativen Modelle gehören), ist die "hybride" Einbindung eine Chance, solche symbolischen Ansätze überleben zu lassen mit dem Vorteil, kuratiertes Wissen zu nutzen.

Generative KI

[Quelltext bearbeiten]
Architecture of a GenAI agent
  • Oliver Bendel: Definition: Was ist "Generative KI"? Wirtschaftslexikon Gabler: Bei Generative AI wird Machine Learning verwendet, insbesondere Deep Learning, unter Heranziehung unterschiedlicher Datenquellen und Trainingsmethoden. → Generative KI ist ein spezifischer Anwendungsbereich der subsymbolischen KI. KI-basierte Systeme, die in der Lage sind, auf scheinbar professionelle und kreative Weise verschiedene Arten von Inhalten zu produzieren, wie Bilder, Videos, Audio, Text, Code, 3D-Modelle und Simulationen. Das ist die Grundlage der sich verbreitenden Chatbots
  • David Rosenthal: (Teil 17 einer Serie): Was in einem KI-Modell steckt und wie es funktioniert auf vischer.com. Technische Grundlagen (etwas anspruchsvoller, aber auch Blick hinter die Kulissen) Tröstlich oder gefährlich?: Dabei können selbst Top-Wissenschaftler in diesem Bereich heute manche Phänomene, die sich bei den grossen Sprachmodellen beobachten lassen, noch nicht erklären <Beispiele sind genannt> So wie in anderen wissenschaftlichen Disziplinen wie der Physik oder Chemie zuerst auf experimentelle Weise versucht wurde zu verstehen, wie die Welt funktioniert, versuchen die Deep-Learning-Wissenschaftler von heute ebenfalls auf dem Weg des Trial-and-Errors herauszufinden, wie grosse Sprachmodelle funktionieren und warum sie tun, was sie tun.

→ Man unterscheidet bei generativen KI-Chatbots beispielsweise textbasierte Chatbots (ChatGPT u.a.), bildgenerierende Chatbots (Text to image, oft in erstere integriert, brauchen auch das Sprachverstehen), Video-Chatbots (ähnlich für Videos), Chatbots für Musik,... und sprachbasierte Chatbots (Voicebots mit gesprochener Sprache bei Frage und Antwort) Die Unterschiede verschwimmen auch deshalb, weil die meisten hybrid sind und mehrere dieser Funktionen integrieren und das Sprachverstehen (Large Language Models LLM) brauchen (subjektive Zusammenfassung mehrerer Quellen).

  • Wie ChatGPT funktioniert von Kristian Köhntopp. Ein tiefergehender Einblick in die Erstellung von Worthäufigkeiten, n-grammen, neuronale Netzwerke und darauf aufbauenden Klassifikatoren. Der zugrundeliegende englischsprachige Aufsatz von Stephen Wolfram führt dies noch detaillierter aus, inklusive einer Betrachtung der Transformer-Modelle und beispielhafter Erklärung der heuristischen Funktionsweise von Sprachmodellen.
  • Was bedeutet Token (KI/AI)?, siehe auch Tokenisierung als kleinste Einheiten der "Zerlegung" der Information.
    • → Modelle unterscheiden sich nach der Zahl der Tokens, die sie gleichzeitig verarbeiten können (Kontextfenster). Bis 2'049 (GPT-3) - bis 4'096 (GPT-3.5) - bis 32'768 (GPT-4) - bis 128'000 (GPT-4o und Turbo) - bis 200.000 (Claude 3) - bis 1'000'000 (Googe Gemini 1,5 Flash). Ein größeres Kontextfenster ermöglicht es dem KI-Modell, mehr Zusammenhänge zu erfassen und auf einen breiteren Kontext zu reagieren, sowie frühere Interaktionen zu berücksichtigen, was zu personalisierten und kontextbezogenen Antworten führt. Insofern werden präzisierende Nachfragen mit grösserem Kontextfenster möglich.
    • → Ein zu großes Kontextfenster kann jedoch auch zu Verarbeitungsverzögerungen und erhöhtem Ressourcenverbrauch führen. Ein ausgewogenes Verhältnis zwischen Kontextgröße und Verarbeitungseffizienz ist entscheidend für die optimale Leistung eines KI-Systems.

Wie es weitergehen kann

[Quelltext bearbeiten]

Hinter dem "Hype" geht die Entwicklung weiter.

  • Speech and Language Technology auf dfki.de zur Verbindung von sprachbasierten Assistenten und dialogbasierten Chatbots
    • Was in der Umgangssprache Chatbot heißt, wird in der Forschung meist Dialogsystem genannt. Der Begriff Dialogsystem bezeichnet eine Software, mit der der Benutzer in natürlicher Sprache interagiert. Diese Sprache kann geschrieben oder gesprochen sein. Dialogsysteme müssen also zum Einen den Benutzer verstehen und zum Anderen mit Sprache antworten können.
      • [1] Voicebots als Erweiterung von Chatbots]
        • Voicebots stellen eine Erweiterung von Chatbots durch gesprochene Sprache (Voice) dar. Die Technologien zur Absichtserkennung, -verarbeitung und -generierung sind bei Voicebots und Chatbots identisch. Um jedoch gesprochene Sprache nutzen und verarbeiten zu können, werden zusätzliche Komponenten benötigt.
  • Google entwickelt Reasoning KI deinkikompass.de
    • Google […] entwickelt derzeit eine KI, die der menschlichen Fähigkeit zu denken und zu schlussfolgern ähnelt […] Besonders spannend ist dabei, dass Google auf eine Technik namens „Chain-of-Thought-Prompting“ setzt, die das Denken der KI in mehrere kleine, aufeinander aufbauende Schritte unterteilt. Ähnlich wie der Mensch, der bei komplexen Aufgaben verschiedene Lösungsmöglichkeiten durchdenkt, bevor er eine Entscheidung trifft, soll die KI so in der Lage sein, komplexere Probleme zu lösen. Das Ziel dieser Entwicklung ist klar: Google möchte den nächsten großen Durchbruch in der KI-Technologie erzielen, indem es die Fähigkeit zum logischen Denken in seine Modelle integriert. Gerade in Bereichen wie Mathematik und Programmierung kann diese Technologie bahnbrechende Ergebnisse liefern, da sie in der Lage ist, mehrstufige Probleme effizienter und intelligenter zu lösen.
    • Was ist Case-Based Reasoning? ionos.de vom 16.9.24
    • → zahlreiche weitere Anbieter arbeiten daran und bieten bereits Modelle an
  • Das musst du über KI-Agenten wissen: Was können sie und wo kommen sie zum Einsatz? digital pioneers 7.11.24
    • Die Forschung im Bereich der KI-Agenten steckt noch in den Kinderschuhen, und es gibt entsprechend auch noch keine endgültige Definition für sie. Aber ganz einfach gesprochen: Es handelt sich um KI-Algorithmen, die in einer dynamischen Welt autonom Entscheidungen treffen können […] In einer neuen Arbeit, deren Peer Review noch aussteht, schreiben Forscher:innen in Princeton, dass KI-Agenten eine von drei verschiedenen Eigenschaften haben müssten. Sie müssen erstens in komplexen Umgebungen schwierige Ziele verfolgen können, ohne weitere Anweisungen zu erhalten. Zweitens müssen sie sich in natürlicher Sprache instruieren lassen und ohne Aufsicht autonom handeln. Und drittens kann der Begriff „KI-Agent“ auch für Systeme verwendet werden, die in der Lage sind, Werkzeuge zu benutzen, wie beispielsweise Suchmaschinen im Web oder Programmiersprachen – und dabei planvoll vorgehen.
  • Suchmaschinen im Umbruch: Warum KI neue Spielregeln erfordert von MIT Technology Review Online 9.11.24
    • Firmen wie OpenAI wollen mittels großer Sprachmodelle die Online-Suchmaschinen umkrempeln. Das Problem neben Halluzinationen: das Ende zentraler Geschäftsmodelle. Aber es könnte auch zur Chance werden, den Inhaltevertrieb neu zu regeln. Guter Artikel, worum es im aktuellen Wettbewerb geht und welche Rechtsstreite da laufen. Und es geht auch um die Sichtbarkeit der Wikipedia für die Leser, die Öffentlichkeit.

Kurse (online und Auswahl, weitere siehe Hintergründe)

[Quelltext bearbeiten]
  • Kurse (kostenlos und online) der Verbraucherzentrale NRW
    • Mein Alltag mit KI – wie Künstliche Intelligenz unser Leben verändert. Besuchen Sie unsere vier Lerneinheiten, wenn Sie Ihr Verständnis für Künstliche Intelligenz (KI) erweitern und souverän im Umgang mit generativen KI-Anwendungen (engl. Abkürzung: GenAI) werden wollen. Neben informativen Texten finden Sie in den jeweiligen Lerneinheiten Übungen zum jeweiligen Teil-Aspekt von KI.
  • ???

Was hält die KI von sich selbst? (Perplexity, 27.11.24, freie Version)

Ist der Name Künstliche Intelligenz gerechtfertigt, weil Intelligenz menschlich ist?

Antwort:

Der Name "Künstliche Intelligenz" ist umstritten und nicht unbedingt gerechtfertigt, da Intelligenz traditionell als menschliche Eigenschaft verstanden wird. Es gibt mehrere Gründe, die gegen die Verwendung des Begriffs sprechen:

  • Menschliche Intelligenz ist komplex und schwer zu definieren. Intelligenz umfasst verschiedene kognitive Fähigkeiten wie Problemlösen, Lernen, Planen und Kreativität [4]. KI-Systeme können zwar bestimmte Aspekte davon nachahmen, erreichen aber nicht die Vielseitigkeit und Tiefe menschlicher Intelligenz.
  • KI basiert auf menschlichem Einsatz und Programmierung. Hinter KI-Systemen stecken Menschen, die sie entwickeln und trainieren [3]. Es handelt sich eher um eine Erweiterung menschlicher Intelligenz als um eine eigenständige Form von Intelligenz.
  • KI-Systeme haben kein Bewusstsein oder Moralfähigkeit. Sie sind darauf programmiert, spezifische Aufgaben zu erfüllen, ohne ein tieferes Verständnis oder echte Kreativität zu besitzen [3].
  • Der Begriff kann irreführend sein. Er suggeriert möglicherweise Fähigkeiten, die KI-Systeme nicht besitzen, wie etwa echtes Verstehen oder autonomes Denken [6].

Alternativ wird vorgeschlagen, von "Erweiterter Intelligenz" zu sprechen, da KI-Software letztlich eine Erweiterung menschlicher Intelligenz darstellt [3]. Dies würde die tatsächliche Rolle und Funktionsweise von KI-Systemen besser beschreiben.

Trotz dieser Kritik bleibt "Künstliche Intelligenz" der etablierte Begriff in Forschung und Anwendung. Er bezeichnet Technologien, die bestimmte menschliche kognitive Fähigkeiten nachbilden oder ergänzen können [4][6], auch wenn sie nicht alle Aspekte menschlicher Intelligenz umfassen.

Anmerkung: die Quellen gibt es (Wikipedia, Fach-Webseiten, Gabler)

Was macht generative KI problematisch? Die heuristische Herangehensweise, die zu Falschaussagen führen kann

[Quelltext bearbeiten]
Setze für News "Wissen" - Bild von User:Tduk auf Commons heisst "RobotAI Whirlpool", deutsch frei: KI Strudel

→ Man unterscheidet 2 Fehler-Typen, „Halluzination“ und Bias als Verzerrungen (Analogie: Kognitive Verzerrung).

  • Heuristische Fehler eines Systems nach dem konnektionistischen Modell werden (anthropomorphizierend) auch „Halluzinationen“ genannt, wenngleich dies ein tatsächliches „Denken“ eines Modells voraussetzt. Bias resultiert aus Verzerrungen in den Trainingsdaten (Auswahl, bildet ggf. die "im Leben" vorhandenen Verzerrungen ab) oder der Modellkonstruktion.
  • „Halluzinationen“ bedeuten, dass ein Modell mit einer gewissen Wahrscheinlichkeit falsche Informationen ausgibt. Genau genommen ist aber auch eine „richtige“ Information letztlich ein vom Zufall gesteuertes Ergebnis. Bias kann z.B. zu systematischen Benachteiligungen bestimmter Gruppen führen, beispielsweise wenn Empfehlungen für ein Strafmaß anhand vorangegangener Entscheidungen gegeben werden sollen, diese vorherigen Empfehlungen aber einem gruppenbezogenen Bias unterliegen. Laut mehrerer Quellen ist das auch ein systembedingter Fehler, der nicht so schnell und einfach durch die KI selbst behoben werden kann (siehe Seite "Hintergründe")

→ Für die korrekte Wissensdarstellung (Wikipedia) als begründbare, wahre Überzeugung ist bei generativen KI-Modellen problematisch, dass weder der Wahrheitsgehalt ihrer Aussagen noch ihre Begründetheit ohne externe Prüfung nachvollziehbar ist (siehe Evaluation).

Muss man alles nochmal prüfen, wer macht das und welche Rolle spielt die Verantwortung des Autors?

→ Beim Trainingprozess eines generativen KI-Modells wird lediglich eine statistische Analyse der Häufigkeit und Nähe von Wortfragmenten zueinander analysiert. Selbst die Verwendung des Wikipedia-Wissens für das Training von KI bedeutet nicht, dass das Modell automatisch das gesicherte Wissen der Wikipedia deterministisch abrufen und wiedergeben kann. Die Modelle sind daraufhin optimiert, für Menschen überzeugende Ausgaben zu generieren, ein reines Sprachmodell kann von sich aus aber keine logischen Schlüsse ziehen (siehe z.B. Mirzadeh, Iman, et al. 2024.)

Hinzu kommt das Problem der Selbstreferenzialität. Wenn der Inhalt z.B. von Wikipedia für das Sprachmodelltraining verwendet wird, pflanzen sich die Fehler als "gesichertes kuratiertes" Wissen fort, wofür Wikipedia immer noch steht. Wie im Cartoon dargestellt (AI Hackathon Oktober 2024) wird das als "Whirlpool" (auch mit Strudel übersetzbar) bezeichnet und die "Verdünnung" kuratierten Wissens würde fortschreiten. Wikipedia ist zwar keine Quelle für Wikipedia, es würde z.B. über Primärquellen einfliessen können, die bei der Erstellung generative KI nutzen und die dann wiederum in Wikipedia zitiert werden können. Strudel scheint daher recht zutreffend.

„Halluzinationen“ bzw. Konfabulationen

  • Halluzination in ChatGPT und Co: Wenn Künstliche Intelligenz (KI) beginnt zu halluzinieren auf It-p.de
    • KI-Halluzinationen treten auf, wenn ein KI-Modell Inhalte erzeugt, die nicht auf den Trainingsdaten basieren und keine reale Grundlage haben. Diese „Halluzinationen“ sind erfundene Antworten oder Daten, die semantisch korrekt erscheinen, aber faktisch falsch sind. Das bedeutet, dass die generierten Informationen zwar grammatikalisch korrekt und auf den ersten Blick plausibel sein können, aber dennoch völlig aus der Luft gegriffen sind. Diese Halluzinationen entstehen durch die Art und Weise, wie KI-Modelle Muster und Beziehungen in den Daten erkennen und nutzen. Wenn ein Modell auf unsichere oder unzureichende Informationen stößt, kann es kreative, aber ungenaue Antworten generieren.
    • Hier wird behauptet, dass die Falschaussagen „nicht auf den Trainingsdaten basieren“. Korrekter wäre, dass sie nicht aus den Inhalten der Trainingsdaten heraus logisch begründbar sind. Die statistische Wortbestandteil-Analyse der Trainingsdaten und das daraus resultierende Training bietet jedoch die Falschaussage als statistisch wahrscheinlich/möglich und möglicherweise überzeugend wirkend an.
    • Mehr Details
      • Applications of these systems have been plagued by persistent inaccuracies in their output; these are often called “AI hallucinations”. We argue that these falsehoods, and the overall activity of large language models, is better understood as bullshit in the sense explored by Frankfurt (On Bullshit, Princeton, 2005): the models are in an important way indifferent to the truth of their outputs. – Die LLM KI-Modelle sind so aufgebaut dass sie nicht metaphorisch 'verstehen' was sie sagen und es logisch sinnvoll ist, stattdessen soll es nur plausibel klingen. Es gibt diverse Ansätze dieses Problem im fundamentalen Design von LLMs entgegenzuwirken, etwa indem man von mehreren solchen Antworten mittels einer anderen Software die akkurateste auswählt.
  • Vertrauenswürdige KI, die nicht lügt, ist noch viele Jahre weit weg Elektronik Praxis vom 29.11.24 Nvidias CEO Jensen Huang glaubt, dass das Problem halluzinierender KI noch viele Jahre lang bestehen wird und gibt Gründe an.
    • Im Pre-Training lernt die KI gewissermaßen alle Daten der Welt und entdeckt dadurch Wissen; Huang vergleicht das mit einer Hochschulphase. Ausreichend sei das allerdings nicht. In der nächsten Phase folgt das Post-Training, bei dem unterschiedliche Lerntechniken angewandt werden.
    • Hier werden „Wissen“ und „Optimierung auf eine plausibel wirkende Ausgabe“ auf eine ähnliche Ebene gestellt sowie maschinelles Lernen mit dem Lernprozess eines menschlichen Gehirns („Hochschulphase“) verglichen.

Bias (Verzerrung) und Fairness

[Quelltext bearbeiten]

entspricht in Analogie den menschlichen Urteilsfehlern, die über die Trainingsdaten und die Entwicklung der KI selber Eingang finden.

  • Was ist KI-Bias auf ibm.com
    • KI-Bias, auch maschinelles Lernen-Bias oder Algorithmus-Bias genannt, bezieht sich auf das Auftreten voreingenommener Ergebnisse aufgrund menschlicher Vorurteile, die die ursprünglichen Trainingsdaten oder den KI-Algorithmus verzerren – was zu verzerrten Ergebnissen und potenziell schädlichen Ergebnissen führt. Es werden neun Typen von Verzerrungen dargestellt.
  • Grundlagen zu Bias und Fairness in KI-Systemen Institut für Business Analytics der Universität Ulm.
    • Bias entsteht nicht nur durch verzerrte Daten. Bias kann auch aus der Art und Weise resultieren, wie das KI-System modelliert wird, wie das System evaluiert wird oder wie Nutzer*innen die Endergebnisse des KI-Systems interpretieren.

Evaluation der Modelle hinsichtlich der Güte/Fehlerfreiheit

[Quelltext bearbeiten]

Wichtig sind objektive Studien zur Evaluation der generativen KI und der Erkennungsgüte von KI-generierten Inhalten. Wegen der Dynamik sollte man immer die neuesten Daten nehmen.

  • Zu unterscheiden sind Ergebnisse bei normaler Nutzung und unter "Laborbedingungen", wo spezielle Ansätze verwendet werden, z.B Vectara's Hughes Hallucination Evaluation Model. Im ersten Falle können deutlich höhere Fehlerraten auftreten.
  • LLM Benchmarks Einleitungstext, wie solche "Benchmarks" funktionieren

Vergleiche verschiedener Modelle

[Quelltext bearbeiten]

Kritischer Umgang mit KI ist ausreichend?

[Quelltext bearbeiten]

Die "gesamtgesellschaftliche" Perspektive ist hier zu berücksichtigen, insofern es auch den Umgang mit Wissensinhalten betrifft. Können wir auf den kritischen Autor und Leser verlassen? → Hier bestehen Bedenken, dass ein kritischer Einsatz tatsächlich vorhanden ist und vor allem in jüngeren Generationen scheint man das deutlich gelassener zu sehen.

  • Naiver Umgang mit KI „ein bedenklicher Trend“ WirtschaftsWoche 4.11.24 Eine Allensbach-Studie im Auftrag der Telekom fördert eine erstaunliche Naivität der Deutschen im Umgang mit KI zutage. Die Folgen könnten dramatisch sein.
    • 1040 Menschen ab 16 Jahren wurden von den Marktforschern befragt, zudem elf Experten und elf Intensivnutzer. Das Ergebnis: 25 Prozent der Deutschen nutzen KI in Form von Chat-Bots wie ChatGPT oder Google Gemini bereits, weitere 24 Prozent können sich gut vorstellen, dies auszuprobieren. Zwar geben die Befragten an, dass sie den Antworten von Chatbots grundsätzlich etwas weniger vertrauen als denen von Google – das führt nach der Umfrage aber nicht dazu, dass sie die generierten Inhalte mit größerer Vorsicht verwenden. „Durch KI können wir selbstverschuldet in eine neue Unmündigkeit rutschen“, so der Philosoph Matthias Pfeffer, den die Telekom um seine Einschätzung der Studienergebnisse gebeten hat.

Analogie: Bezogen auf den Wahrheitswert von KI ist es wie mit Pilzen in einem "geschenkten" Korb: Ganz viele sind essbar. Man weiss ohne Kontrolle nicht, ob ein Giftpilz dabei ist (sieht wie geniessbare aus) und ob man sich nach dem Verzehr nur schlecht fühlt oder Schlimmeres passiert. Der Anteil der Giftpilze sinkt, es bleiben aber welche dabei. (Analogie von Wortulo)

Wir sind nicht die Enzigen im Wikiversum, die sich mit dem Thema beschäftigen. Zahlreiche Initiativen arbeiten schon länger an diesem Thema, haben die Tragweite erkannt und erarbeiten Konzepte, wie man den Herausforderungen begegnen kann.

Einschätzungen der Lage

[Quelltext bearbeiten]
  • Jürg Tschirren: Bedroht künstliche Intelligenz Wikipedia? SRF.ch vom 8. Juli 2024
    • KI könnte Wikipedia mit fehlerhaften Inhalten fluten. Aber KI kann für Wikipedia auch eine Chance sein. Doch während KI von der Wikipedia profitiert, sieht es umgekehrt nicht so klar aus: KI könnte Leuten, die an der Wikipedia mitarbeiten – den sogenannten Wikipedianerinnen und Wikipedianern – zwar helfen, mehr Inhalte für die Enzyklopädie zu erstellen. Doch um den Preis, dass diese Inhalte fehlerhaft sind und die Wikipedia unzuverlässiger machen. Und noch schlimmer: KI könnte die Wikipedia gleich ganz verschwinden lassen. Denn: Wenn die KI auf alles eine Antwort weiss und diese Antwort erst noch in leicht verdauliche Häppchen fasst – weshalb sollte man sich da noch durch einen langen Wiki-Artikel lesen? «Die Zahl der Nutzerinnen und Nutzer ist hauptsächlich unter jungen Leuten wegen der künstlichen Intelligenz schon zurückgegangen», stellt denn auch Jenny Ebermann fest, die Chefin von Wikimedia Schweiz – dem hiesigen Ableger der gemeinnützigen Organisation hinter der Wikipedia.

Initiativen zu KI

[Quelltext bearbeiten]

Erfahrungsaustausch scheint wichtig auch weil wir hier vielleicht diesen Einfluss noch nicht so deutlich spüren wie andere, etwa die englischsprachige Wikipedia.

AI Cleanup (englischsprachige WP)

[Quelltext bearbeiten]

Systematische Suche und Behandlung KI-erstellter Texte sowie Hinweise an die erstellenden Autoren, rund 100 Mitarbeiter, Erarbeitung von Kriterien zur Identifikaton und einheitliche Hinweise, Benutzeransprachen und Wartungskategorien:

  • Projekt AI Cleanup, gegründet Dezember 2023, hat deutschsprachiges Presseecho:
    • Ben Bergleitner: Generative KI bei Wikipedia: Die freie und KI-generierte Enzyklopädie? Netzpolitik.org vom 6.11.24 (mit Bericht über das Projekt)
    • Einzug von KI in Wikipedia: Das Ende des kollektiven Wissens? DerStandard vom 9. 11.24
    • Freiwillige entfernen KI-generierte Wikipedia-Beiträge mit falschen Inhalten Deutschlandfunk Kultur vom 8.11.24
    • Drei Grundprinzipien des Projektes (übersetzt):
      • Identifizierung von Texten, die von künstlicher Intelligenz geschrieben wurden, und Überprüfung, ob sie den Wikipedia-Richtlinien entsprechen. Alle Behauptungen ohne Quellenangabe, die wahrscheinlich ungenau sind, müssen entfernt werden.
      • Identifizierung von KI-generierten Bildern und Sicherstellung der korrekten Verwendung.
      • KI nutzende Autoren unterstützen und im Auge behalten, die deren Unzulänglichkeiten als Schreibwerkzeug möglicherweise nicht erkennen.
      • → Es schliesst ein Nutzen von KI nicht aus, stellt aber Anforderungen an die Überprüfung und hat eine spezifische nach Monaten geordnete Wartungskategorie für Artikel und eine für Personen. KI zur Identifikation KI-generierter Inhalte ist auch noch im Experimentalstadium.
    • Diskussion (vor dem Hintergrund, dass reine Erkennung KI zunehmend nicht mehr reichen kann, es um die Prüfung auf Fehler gehen müsste).

Wie verbreitet ist KI bereits in Wikipedia?

[Quelltext bearbeiten]
Ratio of new Wikipedia articles detected as AI content (English, French, German, Italian, August 2024. Figure 1 from Brooks et al., The Rise of AI-Generated Content in Wikipedia)
  • "As many as 5%" of new English Wikipedia articles "contain significant AI-generated content", says paper.
    • Es wurden zwei verschiedene Erkennungstools eingesetzt für Artikel, die im August 2024 eingestellt wurden. Laut Grafik hinter dem Link: Englisch (zwischen 3.3 und 5.4 %), Französisch (zwischen 1,5 und etwas unter 5%) Deutsch (zwischen 2 und 1%) und Italienisch (zwischen 3 und 5%) werden als mittels KI erstellt erkannt - jeweils von GPTZero oder Binoculars als die beiden genutzten Erkennungstools.
    • These are among the first research results providing a quantitative answer to an important question that Wikipedia's editing community and the Wikimedia Foundation been weighing since at least the release of ChatGPT almost two years ago.
    • 45 Artikel (1.6%) wurden von beiden Tools als KI-generiert gekennzeichnet, die Tools sind unterschiedlich empfindlich. 8 waren Werbung, weitere die einen bestimmten Standpunkt in polarisierenden Diskussionen vertraten, 3 maschinelle Übersetzungen und solche, wo die KI als Schreibwerkzeug offenbar zur Verbesserung eingesetzt wurde.
    • Die Zahlen der neuen Studie sollten als konkreter Beweis dafür wertvoll sein, dass die generative KI tatsächlich begonnen hat, Wikipedia auf diese Weise zu beeinflussen (aber möglicherweise auch für diejenigen beruhigend sein, die befürchteten, dass Wikipedia vollständig von ChatGPT-generierten Artikeln überrannt werden würde).
    • Es gibt einige ernsthafte Bedenken hinsichtlich der Interpretation der Daten der Studie - viele wurden auch von Wikipedianern entdeckt, gelöscht oder mit Bausteinen versehen ("Die meisten seien mit Warnungen versehen worden").
    • Unbefriedigend beantwortet bleibt, ob die generative KI die Qualitätskontrollmechanismen von Wikipedia unterläuft - oder ob diese LLM-generierte Artikel neben dem bestehenden nie endenden Strom von vom Menschen erzeugtem Vandalismus, Hoaxes oder Artikeln mit fehlenden oder irreführenden Referenzen gut erkannt werden.
    • Die Zuverlässigkeit von Software zur Erkennung von KI-Inhalten - wie den beiden Tools, auf denen die numerischen Ergebnisse der Studie basieren - wurde auch wiederholt in Frage gestellt.

Auf dem Weg zum richtigen Umgang mit KI in Wikipedia

[Quelltext bearbeiten]

In einer Chronik des Projektes hat diese Umfrage einen herausragenden Platz, die Initative von Karsten11 hat verbunden mit der Fortführung der Diskussion in seinem BNR und durch den Impuls des Zukunftskongresses zur Gründung des Projektes geführt. Es hat auch früher und anderswo Stimmen und Veranstaltungen zu diesem Thema gegeben, die nicht vergessen werden sollten. Sie können nun im Projekt sichtbarer dokumentiert und eingeordnet werden.

Ergebnisse der Umfrage 2023

Umfrage (nicht verbindlich)

[Quelltext bearbeiten]
  • Wikipedia:Umfragen/KI-generierte Artikel Juni 2023 (Ablehnung der Umfrage: 6 Stimmen)
    • Für Komplettverbot KI-generierter Texte (immer zu löschen wegen Mischung aus Wahrheit und Erfindung): 119 Stimmen;
    • Status quo ausreichend (unproblematisch, wenn richtig, WP:Q gilt): 76 Stimmen;
    • Deklarationspflicht (Nutzung wie bei payd editing offenlegen, was QS erleichtert): 24 Stimmen;
    • aus dem ANR verschieben, weil ohne menschliche Bearbeitung ungeeignet und nur behalten, wenn sie jemand „adoptiert“: 15 Stimmen

Regelsuche in Schwesterprojekten

[Quelltext bearbeiten]

Rechtsfragen Wikiversum

[Quelltext bearbeiten]

siehe auch: Rechtsfragen und Rechtsstreit auf Hintergründe

  • Wikilegal/Copyright Analysis of ChatGPT von auf meta.wikimedia.org This page shares the Wikimedia Foundation’s preliminary perspective on a legal issue. This page is not final – if you have additional information, or want to provide a different perspective, please feel free to expand or add to it.

Tools und Tipps

[Quelltext bearbeiten]

Der nachfolgende Teil bezieht sich auf den Aspekt, die Werkzeuge genauer kennenzulernen und Erfahrungen zu sammeln. Eindrücke wie Werbung für irgendetwas, unkritische Behandlung des Themas oder einem Hype aufzusitzen sind weder beabsichtigt noch erkennbar. Falls etwas fehlt/falsch ist, bitte korrigieren. Anmerkungen bitte auf der Diskussionsseite

Die Auswahl erfolgt aufgrund des recherchierten Wissensstandes mit dem Ziel, wichtige Tools aufzulisten, mit denen man Erfahrungen sammeln kann - ohne Bevorzugung Einzelner.

ACHTUNG: Fehler (Halluzinationen) können auch bei Recherchen bzw. dem Einsatz als Hilfsmittel auftreten.

Einige Tools sind kostenpflichtig in den neuesten und nicht nutzungsbegrenzten Versionen. In dieser Tabelle sieht man, dass bei geeigneter Auswahl auf die neusten Modelle kostenfrei zurückgegriffen werden kann, wenn die dort genutzten Quellen stimmen.

Spezifische Tools für Bilder/Video und Musik stehen nicht hier, ggf. auf den Themenseiten.

KI-basierte Chatbots (generative KI)

[Quelltext bearbeiten]

Einzelne Chatbots nutzen gleiche oder unterschiedliche Large Language Models (LLM), siehe Tabelle auf "Hintergründe" ganz unten. Die Zahl der Chatbots nimmt aktuell zu, die Übersicht wird schwerer. Textbasierte sind Schwerpunkt der Auswahl. Einige davon können nicht nur Texte erzeugen, sondern auch Medien (Bilder).

Einige greifen neben den "gelernten" Inhalten auch aktuell auf das Internet zurück und bereiten Echtzeitdaten mit in ihren Antworten mit auf.[1]

Von den meisten gibt es auch Apps. Wenn man genau liest, kommt man auch zu einer kostenfreien Version - entweder mit begrenzten Aufrufen in einem Zeitraum oder nicht mit dem vollen Funktionsumfang. Anmeldung ist oft notwendig oder sinnvoll, um die Ergebisse zu speichern), es wird eine E-Mail-Adresse verlangt, die bestätigt werden muss.

  • ChatGPT jetzt mit Websuche für alle
  • Perplexity (Antworten auch mithilfe externer Webseiten und Quellenangabe), kann auch Bilder generieren
  • Microsoft Copilot (auch in MS Edge) Der "normale" Copilot in Microsoft Edge (mit dem Schalter auf "Web" gestellt) hat standardmäßig Zugriff auf das Internet, dies kann deaktiviert werden. Offenbar war das früher mal Bing Chat, was es als App aber noch gibt. Kann auch Bilder generieren.
  • Google Gemini kann auch direkt auf die Google-Suche zugreifen.
  • you.com Mit Stand 20.12.24 Zugriff mit 4 "Agents" (Smart, Genius, Research und Creative) auf Modelle der Familien o1, GPT-4 Grok, Claude, Llama, Mistral, Gemini und 5 weitere - einige nur in der Pro-Version. Antworten auch mithilfe externer Webseiten und Quellenangabe, kann auch Bilder erzeugen. Übersicht: auf "More" klicken. Richard Socher hat darüber beim Wikimedia-Zukunftskongress referiert (am Minute 26).
  • Jasper Chat kann auch Google-Suchergebnisse einbeziehen
  • ChatSonic Pro kann Google-Suchergebnisse ebenfalls einbeziehen.
  • Der Wiki-Bot, basierend auf ChatGPT, beantwortet Fragen anhand der Inhalte von Wikipedia. Hierzu muss aber das Schlagwort Wikipedia im Prompt vorkommen.
  • Rapidminer ist eine Ausgründung des Fachbereiches Statistik der TU-Dortmund. Die Freeware-Version für 10 000 Datensätze ist ein sehr gutes Lerntool für Data Mining und KI. Nach der Fusion mit Altair bietet Rapidminer auch ein ChatGPT-Modul an.

Siehe auch: Hintergrundinformation zu generativen Chatbots

Voicebots (Sprachbots)

[Quelltext bearbeiten]

als Sprachassistenten, die in gesprochener Sprache interagieren und KI verwenden. Allgemein sind z.B. verwendbar:

  • Amazon Alexa
  • Google Assistant
  • Apple Siri

Darüber hinaus setzen viele Unternehmen, besonders in den Bereichen Kundenservice, Finanzdienstleistungen und E-Commerce, zunehmend auf Voicebots in ihren Telefonhotlines. Diese sind zwar nicht allgemein aufrufbar, aber für Kunden dieser Unternehmen zugänglich.

Tools zum Umschreiben, Vereinfachen, Zusammenfassen und Korrigieren von Text

[Quelltext bearbeiten]

Hier kann man prüfen, ob diese Verbesserungen durch KI zu falschpositiven Ergebnissen in den Erkennungstools führen, weil bestimmte Formulierungen als typisch für KI angesehen werden. Ein kuratierter Ausgangs-Text kann auch sinnentstellend verändert werden, er muss daher genau geprüft werden.

Siehe auch: Hintergrundinformation zu KI als Hilfsmittel

Tools für die Übersetzung

[Quelltext bearbeiten]

Eine genaue Überprüfung ist notwendig, wird als en:Postediting bezeichnet.

Siehe auch: Hintergrundinformation Übersetzungstools

Einsatz von Modellen auf einem lokalen Rechner

[Quelltext bearbeiten]

Eine Reihe von Modellen steht auf Plattformen wie Hugging Face zu bestimmten Bedingungen (analog zu Freeware) zum Download zur Verfügung. Sie können mit passenden Werkzeugen damit lokal auf dem eigenen Rechner ausgeführt und getestet werden.

  • faster-whisper (Python) erlaubt die Transkription von Video und Audio. Das nötige Modell wird bei der Verwendung automatisch von Hugging Face heruntergeladen. Eine Grafikkarte ist nicht notwendig, mit einer aktuellen CPU ist die Transkription in etwa 10% der Echtzeit möglich.
  • en:Llama.cpp (Code auf GitHub) erlaubt den Betrieb von Sprachmodellen lokal auf dem Rechner. Das Modell kann bei der Ausführung automatisch von Hugging Face geladen werden, die Interaktion ist über die Kommandozeile oder über ein mitgeliefertes Web-Interface möglich.
  • ChainForge erlaubt die Evaluation sowohl lokaler Modelle als auch von Online-Systemen über grafisch erstellbare Abfrage-Flüsse. Beispielsweise können die Ausgaben verschiedener Modelle verglichen werden, oder dieselbe Abfrage mehrfach an dasselbe Modell gestellt und die Ausgaben verglichen werden.

Tools für das Erkennen KI-generierter Inhalte

[Quelltext bearbeiten]

Einige Tools kann man hinsichtlich der Sensibilität einstellen.

... ---

Tools und Tipps zum Umgehen der Erkennung als KI-generiert

[Quelltext bearbeiten]

Das Problem der KI-Nutzung haben viele Bereiche, einfache Plagiate waren gestern. Alle Prüfungs- und Qualifizierungsarbeiten können betroffen sein, wenn diese nicht mehr ausreichend den eigenen Kenntnisstand repräsentieren, sondern von KI (mit)geschrieben wurden. Es gibt zahlreiche Tools und Tipps, diese Erkennung zu verhindern. Sie sind für Wikipedia insofern auch relevant, dass sie die Erkennbarkeit als KI-generiert beeinträchtigen.

...

  1. Bobachtung: Der neue Artikel Günter Trost von mir brauchte eine Woche, ehe er in den Google-Suchergebissen erschien. Nachfragen in diversen Chatbots , ob es in der Wikipedia zu ihm einen Artikel gibt, wurden verneint und auch die Info von dort wurden nicht verwendet (aber andere aus dem Internet, die schon länger drin sind und auch durch "Training" reingekommen sein könnten). Am gleichen Tag wo es in Google Search erschien, kannte auch Perplexity den und fasst den perfekt zusammen. Gibt es da "Wechselbeziehungen"? Wo

Medien wie Bilder, Grafiken und andere stammen in der Regel aus Wikimedia:Commons, wenn nichts anderes angegeben ist. Die Autoren und Lizenzbedingungen sind ersichtlich, wenn man das Medium anclickt (vergrössert) und dann "Weitere Einzelheiten" aufruft. Die Lizenzbedingungen sind insbesondere dann zu beachten, wenn eine Verwendung ausserhalb der Wikipedia erfolgen soll.

Zitate sind kursiv dargestellt, "→" kennzeichnet redaktionelle Zusammenfassungen