Heutiger Testraketenstart - Stufe 3

Zwei Versuche


Versuch 1


newstext = readLines('C:/Users/Thorsten/Documents/mtcars-R-Studio/strahlengefahr.txt')
> tagger <- udpipe_download_model("german")
Downloading udpipe model from https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe to C:/Users/Thorsten/Documents/german-gsd-ud-2.4-190531.udpipe
Visit https://github.com/jwijffels/udpipe.models.ud.2.4 for model license details
versuche URL 'https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe'
Content type 'application/octet-stream' length 21301847 bytes (20.3 MB)
downloaded 20.3 MB

> tagger <- udpipe_load_model(tagger$file_model)
> news <- udpipe_annotate(tagger, newstext)
> news <- as.data.frame(news)
> keyw <- textrank_keywords(news$lemma,relevant = news$upos %in% c("NOUN", "VERB", "ADJ"))
> subset(keyw$keywords, ngram > 1 & freq > 1)
[1] keyword ngram   freq   
<0 Zeilen> (oder row.names mit Länge 0)
> news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id"))
> sentences <- unique(news[, c("textrank_id", "sentence")])
> terminology <- subset(news, upos %in% c("NOUN", "ADJ"))
> terminology <- terminology[, c("textrank_id", "lemma")]
> head(terminology)
   textrank_id        lemma
1            9    spiegel.d
10          21       Risiko
12          21    Strahlung
13          21       falsch
18          21 Wissenschaft
26          50       Minute
> tr <- textrank_sentences(data = sentences, terminology = terminology)
> names(tr)
[1] "sentences"      "sentences_dist" "pagerank"      
> news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id"))
> sentences <- unique(news[, c("textrank_id", "sentence")])
> terminology <- subset(news, upos %in% c("NOUN", "ADJ"))
> terminology <- terminology[, c("textrank_id", "lemma")]
> head(terminology)
   textrank_id        lemma
1            9    spiegel.d
10          21       Risiko
12          21    Strahlung
13          21       falsch
18          21 Wissenschaft
26          50       Minute
> ## Textrank for finding the most relevant sentences
> tr <- textrank_sentences(data = sentences, terminology = terminology)
> names(tr)
[1] "sentences"      "sentences_dist" "pagerank"      
> s <- summary(tr, n = 4)
> s <- summary(tr, n = 4, keep.sentence.order = TRUE)
> cat(s, sep = "\n")
Smartphones stehen unter Generalverdacht, auch Kernkraftwerke werden oft als Quelle von gefährlicher Strahlung angesehen.
Fast drei von vier Befragten (73,9 Prozent) gaben demnach an, dass sie Strahlung durch Kernkraftwerke "sehr" oder "eher" beunruhige.
Mehr als jeder zweite (51,4 Prozent) macht sich Sorgen um Strahlung von Mobilfunkmasten, fast ebenso viele (51 Prozent) über Handys und Tablets.
Generell gaben mehr als 35 Prozent an, es mache ihnen Sorgen, dass sie "überall von Strahlung umgeben" seien, fast jeder Dritte glaubt, die Strahlenbelastung sei zu hoch.


Versuch 2

newstext = readLines('C:/Users/Thorsten/Documents/mtcars-R-Studio/kognitive-verzerrungen.txt')
> tagger <- udpipe_download_model("german")
Downloading udpipe model from https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe to C:/Users/Thorsten/Documents/german-gsd-ud-2.4-190531.udpipe
Visit https://github.com/jwijffels/udpipe.models.ud.2.4 for model license details
versuche URL 'https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe'
Content type 'application/octet-stream' length 21301847 bytes (20.3 MB)
downloaded 20.3 MB

> tagger <- udpipe_load_model(tagger$file_model)
> news <- udpipe_annotate(tagger, newstext)
> news <- as.data.frame(news)
> keyw <- textrank_keywords(news$lemma,relevant = news$upos %in% c("NOUN", "VERB", "ADJ"))
> subset(keyw$keywords, ngram > 1 & freq > 1)
               keyword ngram freq
7  kognitiv-Verzerrung     2    4
15   eigen-Wahrnehmung     2    3
37     kritisch-Denken     2    2
> news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id"))
> sentences <- unique(news[, c("textrank_id", "sentence")])
> terminology <- subset(news, upos %in% c("NOUN", "ADJ"))
> terminology <- terminology[, c("textrank_id", "lemma")]
> head(terminology)
   textrank_id           lemma
1           18 karrierebibel.d
6           29        kognitiv
7           29      Verzerrung
12          29 karrierebibel.d
14          44          Minute
16          66          Mensch
> tr <- textrank_sentences(data = sentences, terminology = terminology)
> names(tr)
[1] "sentences"      "sentences_dist" "pagerank"      
> news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id"))
> sentences <- unique(news[, c("textrank_id", "sentence")])
> terminology <- subset(news, upos %in% c("NOUN", "ADJ"))
> terminology <- terminology[, c("textrank_id", "lemma")]
> head(terminology)
   textrank_id           lemma
1           18 karrierebibel.d
6           29        kognitiv
7           29      Verzerrung
12          29 karrierebibel.d
14          44          Minute
16          66          Mensch
> ## Textrank for finding the most relevant sentences
> tr <- textrank_sentences(data = sentences, terminology = terminology)
> names(tr)
[1] "sentences"      "sentences_dist" "pagerank"      
> s <- summary(tr, n = 4)
> s <- summary(tr, n = 4, keep.sentence.order = TRUE)
> cat(s, sep = "\n")
Bias: Diese 7 kognitiven Verzerrungen sollten Sie kennen | karrierebibel.de
Tatsächlich schlägt aber doch häufig die Verzerrung der eigenen Wahrnehmung zu.
Solche Verzerrungen können durch einen systematischen Fehler zustandekommen – beispielsweise war eine Stichprobe nicht repräsentativ.
Diese kognitiven Verzerrungen sind einerseits absolut menschlich.
 
 

Versuchsanordnung

Stammt von hier:
https://cran.r-project.org/web/packages/textrank/vignettes/textrank.html

Die Beispiele dort sind in Englisch, die funzen auch alle (omxfimz-geprüft,02.12.2019,zm).


~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Nein, es ist kein Fehler in der Benennung! Stufe 2 musste ich aus Zeitgründen überspringen, die wird vermutlich morgen nachgereicht.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~




Kommentare

Beliebte Posts aus diesem Blog

·

Es brennt.

Bye, bye Nord Stream 2!