Wikipedia:WikiProjekt KI und Wikipedia/Artikel allgemein

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Intro
Diskussion
KI allgemein
KI+Texte
KI+Übersetzung
KI+Medien
KI+QS
KI+Hilfen
Team

Allgemeine Weblinks, Literatur, Vorträge etc., wenn sie nicht nur ein Thema betreffen, welches extra aufgeführt ist.

Einführungen

[Quelltext bearbeiten]

zu Halluzinationen

[Quelltext bearbeiten]

„Ihr Lösungsansatz sind sogenannte „Probing Classifiers“, also KI-Modelle, die den Token-Output von LLMs analysieren können. Diese KI-Modelle können anhand der korrekten Token trainiert werden und erkennen anschließend, anhand welcher Faktoren ein großes Sprachmodell die Token intern auswählt und ausgibt. Anhand dieser Daten kann der Classifier schon vorab einschätzen, ob die Antwort korrekt ausfällt oder ob die KI einen falschen Weg zur Antwort genommen hat.“

„Bias in KI ist ein Phänomen, das auftritt, wenn KI-Systeme systematisch verzerrte Ergebnisse liefern, die bestimmte Gruppen oder Individuen ungerecht bevorzugen oder benachteiligen. Diese Verzerrungen können sich auf vielfältige Weise manifestieren, von der Benachteiligung bestimmter Bevölkerungsgruppen bei der Jobsuche bis hin zur ungerechten Behandlung in rechtlichen oder medizinischen Anwendungen.“


„Obwohl Sprachmodelle eindeutig anfällig für Argumentationsfehler (oder Halluzinationen) sind, scheinen sie in unserer Aufgabe zumindest weniger anfällig für solche Fehler zu sein als Wikipedia-Autoren oder Redakteure. Diese Aussage ist spezifisch für die hier vorgestellte agentische RAG-Einstellung: Sprachmodelle wie GPT-4 allein, wenn sie aufgefordert werden, Wikipedia-Artikel zu generieren, würden immer noch erwartet, dass sie mit hohen Raten halluzinieren (Übersetzung in Safari)“


zu Erkennen KI Texte

[Quelltext bearbeiten]

zur Akzeptanz

[Quelltext bearbeiten]

„Im Blindtest bevorzugen die Leser die ChatGPT-Ausgabe gegenüber Wikipedia-Artikeln in Bezug auf die Klarheit und sehen beide als gleichermaßen glaubwürdig an

Das Summary übersetzt:

Dieses Paper untersucht, wie Einzelpersonen die Glaubwürdigkeit von Inhalten wahrnehmen, die von menschlichen Autoren stammen, im Vergleich zu Inhalten, die von großen Sprachmodellen wie der GPT-Sprachmodellfamilie, die ChatGPT antreibt, in verschiedenen Versionen der Benutzeroberfläche generiert werden. Überraschenderweise zeigen unsere Ergebnisse, dass die Teilnehmer unabhängig von der Präsentation der Benutzeroberfläche dazu neigen, ein ähnliches Maß an Glaubwürdigkeit zuzuschreiben. Während die Teilnehmer auch keine unterschiedlichen Wahrnehmungen von Kompetenz und Vertrauenswürdigkeit zwischen menschlichen und KI-generierten Inhalten berichten, bewerten sie KI-generierte Inhalte als klarer und ansprechender. Die Ergebnisse dieser Studie dienen als Aufruf zu einem anspruchsvolleren Ansatz bei der Bewertung von Informationsquellen und ermutigen die Benutzer, beim Umgang mit von KI-Systemen generierten Inhalten Vorsicht und kritisches Denken zu walten zu üben.“

„These are among the first research results providing a quantitative answer to an important question that Wikipedia's editing community and the Wikimedia Foundation been weighing since at least the release of ChatGPT almost two years ago.“

    • 45 Artikel (1.5%) wurden von den beiden Tools als KI-generiert gekennzeichnet. 8 waren Werbung, weitere die einen bestimmten Standpunkt in polarisierenden Diskussionen vertraten, 3 maschinelle Übersetzungen und solche, wo die KI als Schreibwerkzeug offenbar zur Verbesserung eingesetzt wurde.
    • Die Zahlen der neuen Studie sollten als konkreter Beweis dafür wertvoll sein, dass die generative KI tatsächlich begonnen hat, Wikipedia auf diese Weise zu beeinflussen (aber möglicherweise auch für diejenigen beruhigend sein, die befürchteten, dass Wikipedia vollständig von ChatGPT-generierten Artikeln überrannt werden würde).
    • Es gibt einige ernsthafte Bedenken hinsichtlich der Interpretation der Daten der Studie - wie viele wurden auch von Wikipedianern entdeckt, gelöscht oder mit Bausteinen versehen ("Die meisten seien mit Warnungen versehen worden").
    • Unbefriedigend beantwortet bleibt, ob die generative KI die Qualitätskontrollmechanismen von Wikipedia unterläuft - oder ob diese LLM-generierte Artikel neben dem bestehenden nie endenden Strom von vom Menschen erzeugtem Vandalismus, Hoaxes oder Artikeln mit fehlenden oder irreführenden Referenzen gut erkannt werden.
    • Die Zuverlässigkeit von Software zur Erkennung von KI-Inhalten - wie den beiden Tools, auf denen die numerischen Ergebnisse der Studie basieren - wurde auch wiederholt in Frage gestellt. Beide Tools waren auch unterschiedlich sensibel in verschiedenen Sprachen.--Wortulo (Disk. * KI-Projekt) 09:10, 24. Okt. 2024 (CEST)[Beantworten]

Wikipedia/Wikimedia intern

[Quelltext bearbeiten]

„Sein Zweck ist es, Strategien zu erforschen, um über unser bestehendes Publikum von Lesern/Nutzern und Mitwirkenden hinaus zu expandieren, um wirklich jeden auf der Welt als „wesentliche Infrastruktur des Ökosystems des freien Wissens“ zu erreichen“

„Das über mehrere Jahre geplante Projekt Future Audiences hat dazu beispielsweise eine Wikipedia-Erweiterung für ChatGPT getestet. Das Fazit nach einem halben Jahr: Generative KI könnte in Zukunft durchaus dabei helfen, die Wikipedia effizienter zu machen – Chatbots seien dafür aber nicht notwendigerweise der beste Weg.“

„We collect monthly Wikipedia page views and content (text) data for six months before and after the release date as the treatment group. We then collect data for same months a year before as the control group. The difference-in-difference (DID) analyses demonstrate significant decrease in Wikipedia page views (market value) after the release of ChatGPT. However, we found an increase in the quality of Wikipedia articles as evidenced by a significant increase in verbosity and readability of the articles after ChatGPT release."

Übersetzung (via deepl.com):"Wir sammeln monatliche Wikipedia-Seitenaufrufe und Inhaltsdaten (Text) für sechs Monate vor und nach dem Veröffentlichungsdatum als Behandlungsgruppe. Anschließend erheben wir Daten für die gleichen Monate ein Jahr zuvor als Kontrollgruppe. Die Differenzanalyse (DID) zeigt einen signifikanten Rückgang der Wikipedia-Seitenaufrufe (Marktwert) nach der Veröffentlichung von ChatGPT. Die Qualität der Wikipedia-Artikel hat jedoch zugenommen, was sich in einem signifikanten Anstieg der Ausführlichkeit und Lesbarkeit der Artikel nach der Veröffentlichung von ChatGPT zeigt. "“

Presse zu Wikipedia und KI

[Quelltext bearbeiten]

Trainingsdaten

[Quelltext bearbeiten]

„Wikimedia Deutschland hat zusammen mit DataStax und Jina AI ein Projekt gestartet, das den Zugang zu den offenen Daten von Wikidata für KI-Anwendungen vereinfacht. Dadurch sollen nicht nur Tech-Giganten, sondern auch Open-Source-Initiativen die Möglichkeit haben, diese Daten zu nutzen. Ziel ist es, vor allem die Entwicklung von gemeinnützigen KI-Anwendungen auf der Grundlage offener und qualitativ hochwertiger Daten zu unterstützen“

„A new project is underway to allow Large Language Models (LLMs) to read Wikidata. The data is currently structured in a way that’s machine readable, but LLMs read data more like humans than machines, meaning this vast amount of human curated, high quality data isn’t accessible to this type of AI. By allowing access to Wikidata, LLMs could become more reliable. Ania spoke to Lydia Pintscher, the Portfolio Lead Product Manager at Wikidata Deutschland, to learn more about these developments.“

Rechtsfragen und Rechtsstreit

[Quelltext bearbeiten]

„Ein Foto war bei einer Bildagentur als Stockfotografie hochgeladen worden, deren Nutzungsbedingungen „automated programms“ jedoch eigentlich ausschließt. Das Gericht hat nun geurteilt, dass die Schrankenregelung des § 60d UrhG für wissenschaftliches Text- und Datamining gilt und das Bild für wissenschaftliche Zwecke auch ohne Freigabe für solch einen KI-Datensatz durch den Verein genutzt werden durfte. Es äußerte sich nicht zu nicht-wissenschaftlicher Nutzung wie bspw. bei ChatGPT, hält es aber grundsätzlich für hinreichend, wenn eine Able. hnung der Nutzung in natürlicher Sprache und nicht nur maschinenlesbar vorliegt, da moderne KIs auch natürlich Sprache verstehen sollte.“

„Aktuell hat ein Fotograf den gemeinnützigen Softwareentwickler LAION e. V. verklagt. Er wirft dem Verein die unrechtmäßige Nutzung eines seiner Bilder für KI-Training vor. Der verklagte Verein LAION ist eine gemeinnützige Organisation, die Datensätze, Werkzeuge und Modelle zur Verfügung stellt, um die Forschung im Bereich des maschinellen Lernens zu fördern. Was hier am Ende des Rechtsstreits entschieden wird, wird auch Auswirkungen auf die Arbeit von Wikimedia haben, gerade was unsere Arbeit in der Softwareabteilung mit Open-Source-Communitys betrifft.“

„Die Datenschutzorganisation noyb hat Beschwerden gegen OpenAI, Meta und X (ehemals Twitter) eingereicht. Im Fokus steht die datenschutzkonforme Nutzung und das Training von KI-Systemen. Kritisiert wird, dass ChatGPT falsche Informationen generiert und Meta und X persönliche Daten ohne Nutzerzustimmung für KI-Zwecke verwenden.“

Vorträge und Veranstaltungen

[Quelltext bearbeiten]

Wikipedia/Wikimedia

[Quelltext bearbeiten]

KI und Politik

[Quelltext bearbeiten]

Politischer Missbrauch

[Quelltext bearbeiten]

„Der Unternehmer <Musk> sah in seinem KI-Chatbot Grok ursprünglich ein antiwokes Konkurrenzprodukt zu Chat-GPT. Nun richtet dieser sich mit Deepfakes gegen ihn selbst und die Leute, die er unterstützt.“