Fremdsprachen lernen mit Big Data?

Eine Fremdsprache lernen ist aufwändig. Das Paretoprinzip und Big Data können uns unterstützen.

Frühfranzösisch – Vokabeln büffeln – Mr. und Mme Leroc – Es war nie meine «grand amour» sondern «je ne comprends pas».

Lehrmittel: Die Familie Leroc, Klett-Verlag

Irgendwann entschied ich mich, eine Lehre in einem technischen Bereich zu absolvieren – Französisch ist dafür unnütz. Mit dieser Einstellung wurde mein persönlicher Aufwand für das Fach Französisch auf ein Minimum reduziert. Für eine genügende Note reichte es noch knapp. Nach Lehre, Studium und den ersten Berufsjahren schien meine Strategie bezüglich des Minimalismus gegenüber dieser Sprache aufzugehen.

La Suva – Mieux qu’une assurance

Doch plötzlich arbeitete ich nicht mehr für einen internationaler Brötchengeber, sondern für die Schweizer Unfallversicherungsanstalt Suva – Französisch war gefragt. Ich grub meine spärlichen Kenntnisse aus, rundete dies mit einem Kurs der Klubschule Migros ab. Wie bei solchen Veranstaltungen üblich, sind die Teilnehmer/innen bunt zusammengewürfelt. Der Pensionierte lernt fürs Reisen, die Dame will ihren Freund aus der Elfenbeinküste besser verstehen und ich der Suva Agentur in Lausanne Finessen der Unfallversicherung näherbringen. Eine breite Anforderungspalette an die Lehrerin und an den zu vermittelnden Wortschatz. Am Ende reichte es für ein bisschen Small Talk. Der Erwerb des spezifischen Wortschatzes einer Unfallversicherung blieb verständlicherweise auf der Strecke.

«Eitel ist, etwas mit mehr zu erreichen, was mit weniger erreicht werden kann», Wilhelm von Ockham

Das Anwenden des Paretoprinzips beim Lernen einer Fremdsprache

Im CAS «Big Data Analytics» brachte man uns im Modul «Data Science» auch Natural Language Processing (NLP) näher. «Fasziniert von der Möglichkeit aus einem riesigen Wörterhaufen die Häufigkeit der Wörter zu ermitteln, erinnerte ich mich an eine Idee auf welche ich einmal im Internet gestossen bin: «Das Anwenden des Paretoprinzips beim Lernen einer Fremdsprache». Oder, zuerst diejenigen Wörter lernen, welche man am häufigsten verwendet.

Es gibt im Internet bereits viele Wortlisten, welche auf dem Paretoprinzip basieren. Nachfolgend zwei Beispiele:

Die 600 meist verwendeten Wörter auf Französisch
http://www.encyclopedie-incomplete.com/?Les-600-Mots-Francais-Les-Plus

Einige dieser Wörter sind z.B. bleu, super, drôle, truc oder président.

Liste der rechtschreiblich schwierigen Wörter auf Deutsch
https://www.duden.de/Liste-der-rechtschreiblich-schwierigen-Woerter

In meinem konkreten Fall angewendet heisst dies, den Fokus auf den speziellen französischen Wortschatz meines Arbeitsumfeldes zu legen und diese Wörter prioritär zu lernen.

Als Tarifierungsexperte der Suva bestimme ich u.a. die Prämiensätze der Branchen Mikro- , Medizinaltechnik und Elektrotechnik. Die Unternehmen deklarieren eine Betriebsbeschreibung damit diese von meinen Arbeitskollegen oder mir der richtigen Branche zugeteilt werden. Die Zuteilung der Branche ist ein gewichtiger Faktor für das Festlegen des korrekten Prämiensatzes. Teil der Betriebsbeschreibung ist die Tätigkeitsbeschreibung welche branchenspezifischen Worte beinhaltet.

Solche Tätigkeitsbeschreibungen sind z.B.

«Inbetriebnahme von Leitsystemen (Steuerung), verfassen von Dokumentationen, Schulungen»
«Recherche, développement, fabrication et promotion de systèmes optiques»
«Exploitation d’un établissement pour soins dentaires et travaux de laboratoire»

Den Wortschatz dieser Texte besser zu verstehen ist mein Ziel.

Jetzt die Umsetzung mit R Studio

Für die Umsetzung musste ich das Wissen von Natural Language Processing mit dem Fachknowhow kombinieren und im R Studio ein paar Zeilen Code schreiben. Die Tätigkeitsbeschreibungen organisierte ich mir aus dem Data Warehouse der Suva und schrieb diese in ein CSV-File. Die generierte Wortliste exportierte ich in ein Excel-File zum Weiterbearbeiten.

Folgende französische Wörter werden in den Tätigkeitsbeschreibungen am häufigsten verwendet:

Rang 1 -25	Wort	Häufigkeit	Rang 26 -50	Wort	Häufigkeit
1	fabrication	527	26	électroniques	65
2	bureau	441	27	mouvements	59
3	vente	320	28	production	58
4	montres	233	29	bijoux	56
5	réparation	232	30	montage	56
6	développement	182	31	administration	55
7	appareils	171	32	polissage	54
8	produits	149	33	machines	50
9	horlogerie	140	34	instruments	47
10	assemblage	130	35	installations	43
11	dentaire	110	36	achat	42
12	composants	105	37	pose	42
13	laboratoire	105	38	bijouterie	41
14	horlogers	102	39	recherche	41
15	entretien	92	40	systèmes	41
16	atelier	88	41	création	40
17	commerce	86	42	électronique	39
18	pièces	86	43	boîtes	37
19	commercialisation	85	44	cadrans	37
20	installation	83	45	sertissage	37
21	électriques	77	46	horlogère	34
22	conception	71	47	matériel	34
23	domaine	70	48	réparations	33
24	technique	69	49	bureaux	32
25	service	67	50	sous	32

Die Aussage, «den Fokus beim Lernen auf die am häufigsten verwendeten Wörter zu legen» ist ein Hohn für Linguisten und die meisten Liebhaber/innen der Französischen Sprache. Das Lernen einer Sprache besteht nicht nur aus dem Büffeln von Vokabeln. Oder wie auf der Seite «Les-600-Mots-Francais-Les-Plus» zu lesen ist: Un «érudit» utilise courament quelques 15000 mots différents… Für mich als Ingenieur, eher der pragmatischen Seite zugewandt, ist dies aber eine Option meinen Wortschatz zu erweitern. Damit kann ich mit wenig Lernaufwand meine Aufgabe im Berufsalltag optimal erfüllen.

Für Interessierte die sich in den Code vertiefen möchten

Interessierte finden nachfolgend den Code in R. Ich bin überzeugt, auch diesen Code kann man eleganter schreiben. Aber auch hier lag das Paretoprinzip im Fokus. Vielleicht wäre das Ermitteln der häufigsten R-Befehle ein Thema für einen weiteren Blog? Anstelle von «Fremdsprachen lernen mit Big Data?» wäre es dann «R lernen mit Big Data?»

# Packages installieren
install.packages(„tm“)
install.packages(„tau“)
install.packages(„plyr“)
install.packages(„dplyr“)
install.packages(„textcat“)
install.packages(„readr“)
install.packages(„SnowballC“)
install.packages(„xlsx“)

# Libraries laden
library(tm)
library(tau)
library(plyr)
library(dplyr)
library(textcat)
library(readr)
library(SnowballC)
library(xlsx)

# Stoppwörter entfernen (T für JA / F für Nein)
stop_words <- T

# CSV-File auswählen im Format „UTF-8“
# Basis des CSV-File ist ein Excel-File mit einem Spaltentitel „TAETIGKEIT“
# Jede Zeile dieser Spalte beinhaltet einen Tätigkeitsbeschrieb eines Unternehmens
# Das Excel-File wird als CSV-File (UTF-8) gespeichert
data <- read.csv(file.choose(), header = TRUE, sep = „;“, encoding = „UTF-8“)

# Spalte „TAETIGKEIT“ in den Datentyp „Character“ umwandeln
data$TAETIGKEIT <- as.character(data$TAETIGKEIT)

# Spalte „TAETIGKEIT“ in einen Vector „Sprache“ kopieren
Sprache <- as.vector(data$TAETIGKEIT)

# Sprache des Vectorinhaltes erkennen und in den Vector schreiben
Sprache <- textcat(Sprache)

# Vector „Sprache“ in ein Dataframe ändern und dieses mit dem Dataframe „data“ verbinden
Sprache <- data.frame(Sprache)
data <- data.frame(data, Sprache)

# Filtert das Dataframe nach Text in französischer Sprache
data <- filter(data, Sprache == „french“)

# Die einzelnen Inhalte der Spalte „TAETIGKEIT“ mit einem “ “ trennen.
data <- paste(data$TAETIGKEIT, collapse=“ „)

# Stopwörter in der Spalte „TAETIGKEIT“ entfernen und die Wörter in Einzelwörter zerlegen
data <- tau::textcnt(
if(stop_words==T) {tm::removeWords(tm::scan_tokenizer(data), tm::stopwords(„french“))}
else {
tm::scan_tokenizer(data)
}
, method = „string“, n = 1L, lower = 1L)

# Liste in ein Dataframe ändern
data <- plyr::ldply(data, data.frame)

# Zeilen des Dataframes benennen
colnames(data)<-c(„WORT“, „HAEUFIGKEIT“)

# Spalte „HAEUFIGKEIT“ des Dataframes absteigend sortieren
data <- arrange(data, desc(HAEUFIGKEIT))

# Dataframe in ein Excelfile mit dem Namen „Wortliste.xlsx“ schreiben
write.xlsx(data, „Wortliste.xlsx“)

Beitrag teilen

Eine Fremdsprache lernen ist aufwändig. Das Paretoprinzip und Big Data können uns unterstützen.

La Suva – Mieux qu’une assurance

Das Anwenden des Paretoprinzips beim Lernen einer Fremdsprache

Jetzt die Umsetzung mit R Studio

Für Interessierte die sich in den Code vertiefen möchten

Ivo Sticher

Schreibe einen Kommentar Antworten abbrechen