1. Zum Inhalt springen
  2. Zur Hauptnavigation springen
  3. Zu weiteren Angeboten der DW springen
TechnikAfrika

Afrikas Entwickler wollen KI-Lücke schließen

Kira Schacht
29. Juli 2023

Für Milliarden von Menschen im globalen Süden, die keine verbreiteten Sprachen sprechen, sind KI-Tools wie ChatGPT und Google Translate nutzlos. Forscher und Startups in Afrika und anderen Erdteilen wollen das ändern.

230728 AI non western languages
Bild: DW

"Selbst maschinelle Übersetzungen sind in meiner Sprache nicht möglich", klagt Mekdes Gebrewold, Gründerin des Beratungsunternehmens Ashagari in Äthiopiens Hauptstadt Addis Abeba. "Tools wie Google Translate sind für Amharisch nicht gut geeignet. Also bezahlen wir stattdessen für professionelle Übersetzer."

Wie Mekdes Gebrewold können Milliarden Menschen auf der Erde KI-gestützte Tools nicht nutzen, weil diese nicht für ihre Sprache eingerichtet sind. Das gilt nicht nur für generative KI wie ChatGPT oder Übersetzungsdienste wie Google Translate. Es trifft auch für eine ganze Reihe anderer Werkzeuge zu: zum Beispiel Autovervollständigung, Transkriptionen, Sprachassistenten und Content-Moderation in sozialen Medien.

Englisch dominiert

Die KI-Tools, die heute zur Verfügung stehen, sind im Wesentlichen nichts anderes als fortschrittliche Autovervollständigungs-Tools, die auf Grundlage der Eingaben, mit denen sie gefüttert wurden, die wahrscheinlichste Antwort vorhersagen. Diese Vorhersagen basieren auf riesigen Mengen an "Trainingsdaten", also digitalen Sammlungen von Inhalten, die die KI-Techniker nutzen, um ihre Modelle zu erstellen.

Viele kleinere Sprachen müssen auf ChatGPT verzichtenBild: Choong Deng Xiang/Unsplash

Eine wichtige Quelle für diese Trainingsdaten ist der sogenannte Common Crawl, ein allgemein zugänglicher Datenbestand, in dem Milliarden von Webseiten aus dem Internet archiviert sind. Etwa 60 Prozent der Informationen, die verwendet wurden, um die Version 3.5 von ChatGPT zu trainieren, stammen aus dieser Datensammlung.

Da für das Training jedoch auf solche Daten zurückgegriffen wird, funktionieren die KI-Tools nicht für Sprachen, in denen kaum Daten vorhanden sind. Das ist ein großes Problem, denn das Internet wird von einigen wenigen Sprachen dominiert. Das gilt insbesondere für Englisch, denn fast die Hälfte aller Seiten, die Common Crawl archiviert, sind in dieser Sprache.

Sprachen ohne digitale Datenbank

Äthiopiens Landessprache Amharisch macht zusammen mit allen anderen afrikanischen, amerikanischen und ozeanischen Sprachen weniger als 0,1 Prozent des Datenbestands von Common Crawl aus. Es wird als "low-resource language", als Sprache mit geringen Ressourcen bezeichnet, für die nur wenige digitale Daten verfügbar sind.

Dennoch werden diese Sprachen von Milliarden von Menschen gesprochen. Selbst Sprachen mit zahllosen Sprechern, wie Hindi, Arabisch und Bengali zählen dazu.

Welche Sprachen durch diese Entwicklung abgehängt werden, ist klar zu erkennen. Europäische Sprachen sind im Vergleich mit den meisten asiatischen und allen afrikanischen Sprachen stark überrepräsentiert.

Indien: Wer füttert die Künstliche Intelligenz?

06:44

This browser does not support the video element.

Niederländisch zum Beispiel ist die Muttersprache von lediglich knapp über 20 Millionen Menschen. Das entspricht in etwa der Anzahl der amharischen Muttersprachler. Trotzdem übersteigen Inhalte auf Niederländisch solche auf Amharisch um fast das Siebenhundertfache. Selbst Inhalte auf Hindi, einer Sprache mit mehr als 300 Millionen Muttersprachlern, sind deutlich seltener vorhanden.

Doch es gibt Wege, diesen Mangel an Daten zu umgehen. Denn neben den Tech-Riesen des Silicon Valley arbeiten Spezialisten für maschinelles Lernen auf der ganzen Welt daran, KI-gestützte Tools für ihre eigenen Sprachen zu entwickeln.

Wie lassen sich KI-Sprachbarrieren überwinden?

Asmelash Teka Hadgu gehört zu den Gründern von Lesan, einem Startup, der maschinelle Übersetzungs- und Sprachtechnologie für die äthiopischen Sprachen Amharisch und Tigrinya entwickelt. Sein Team hat keinen Zugriff auf große Mengen an Online-Ressourcen, sondern arbeitet direkt mit der Gemeinschaft zusammen, um kreative Wege für die Sammlung von Daten zu finden.

"Wir arbeiten hauptsächlich mit Studenten, die ihre Sprache einfach lieben", erklärt er der DW. "Wenn wir ihnen erzählen, dass wir dieses System entwickeln, fühlen sie sich inspiriert und wollen dazu beitragen. Also stellen wir Aufgaben, um Inhalte in unserer Sprache zu sammeln. Wir unterstützen sie und belohnen sie auch finanziell."

Das erfordert eine Menge manueller Arbeit. Zunächst werden hochwertige Datensätze identifiziert, also zum Beispiel vertrauenswürdige Bücher oder Zeitungen. Diese werden dann digitalisiert und in die Zielsprachen übersetzt. Schließlich werden das Original und die Übersetzung für den maschinellen Lernprozess Satz für Satz abgeglichen.

"Situationen, die es sonst nicht gäbe"

01:48

This browser does not support the video element.

Mit den Milliarden Seiten englischer Inhalte können Unternehmen wie Lesan so kaum mithalten, aber das müssen sie vielleicht auch gar nicht. Sowohl für Amharisch als auch für Tigrinja funktioniert Lesan mittlerweile besser als Google Translate.

Globale Sprachdatenbank Ethnologue

"Wir haben gezeigt, dass es möglich ist, mithilfe kleiner, sorgfältig kuratierter Datensätze nützliche Modelle zu erstellen", meint Asmelash Teka Hadgu. "Wir sind uns der Einschränkungen und Möglichkeiten bewusst. Microsoft oder Google erstellen in der Regel ein einziges, riesiges Modell für alle Sprachen, das sich kaum überprüfen lässt."

Der Ansatz von Lesan ist nicht neu. Ähnliche Projekte werden weltweit erfolgreich umgesetzt, auch für Sprachen, die digital wenig präsent sind. Die globale Sprachdatenbank Ethnologue, die von der regierungsunabhängigen christlichen Organisation SIL International betrieben wird, zählt Amharisch zu den Sprachen, für die eine "lebhafte" Unterstützung vorhanden ist.

Mit anderen Worten, es gibt zumindest einige Tools für maschinelle Übersetzungen, Rechtschreibhilfen und die Sprachverarbeitung. Tausende andere Sprachen weltweit, darunter viele Sprachen mit mehr als einer Million Sprecher, verfügen über weniger Inhalte und weniger digitale Tools.

Afrikanische Entwickler machen sich selbst an die ArbeitBild: Isaac Kaledzi/DW

Netzwerk der Pioniere

Asmelash Teka Hadgu ist Teil eines Netzwerks afrikanischer KI-Pioniere. Er ist wissenschaftlicher Mitarbeiter beim Distributed AI Research Institute (DAIR), einer Gruppe von Forschenden aus Afrika, Europa und Nordamerika. Außerdem pflegt er regelmäßigen Kontakt zu Gruppen wie GhanaNLP und dem afrikanischen Graswurzelkollektiv Masakhane.

"Wir ermöglichen es Gründern in Afrika, sich diese Technologien zu eigen zu machen", erklärt er der DW. "Diese Dinge werden von den Menschen in diesen Gemeinschaften erstellt und betrieben. So geht der finanzielle Gewinn auch direkt an sie zurück."

Auch außerhalb Afrikas arbeiten Forscher an der Entwicklung KI-gestützter Tools, zum Beispiel für das jamaikanische Patois, Katalanisch, Sudanesisch oder Maori. Während die Tech-Riesen wie OpenAI von ChatGPT ihre Modelle geheim und undurchschaubar gestalten, teilen Initiativen wie das globale KI-Kollektiv Hugging Face ihre Erfahrungen und KI-Modelle kostenfrei. So fällt es anderen Entwicklern leichter, Lösungen für ihre Sprachen zu erarbeiten.

"Talente gibt es überall, Möglichkeiten jedoch nicht", sagt Asmelash Teka Hadgu. "Wenn jemand zum Beispiel die beste Maschinenübersetzungstechnologie für eine ghanaische Sprache entwickeln will, dann gibt es bestimmt einen Ghanaer, der leidenschaftlich dahinter steht und gut darin ist. Lasst uns ihm die Mittel geben."

Adaptiert aus dem Englischen von Phoenix Hanzo.

Zusätzliche Interviews von Hanna Demissie.

Die Datenquellen, die diesem Artikel zugrunde liegen, finden Sie hier.

Den nächsten Abschnitt Mehr zum Thema überspringen

Mehr zum Thema

Weitere Beiträge anzeigen