Heutiger Testraketenstart - Stufe 3
Zwei Versuche
Versuch 1
newstext = readLines('C:/Users/Thorsten/Documents/mtcars-R-Studio/strahlengefahr.txt') > tagger <- udpipe_download_model("german") Downloading udpipe model from https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe to C:/Users/Thorsten/Documents/german-gsd-ud-2.4-190531.udpipe Visit https://github.com/jwijffels/udpipe.models.ud.2.4 for model license details versuche URL 'https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe' Content type 'application/octet-stream' length 21301847 bytes (20.3 MB) downloaded 20.3 MB > tagger <- udpipe_load_model(tagger$file_model) > news <- udpipe_annotate(tagger, newstext) > news <- as.data.frame(news) > keyw <- textrank_keywords(news$lemma,relevant = news$upos %in% c("NOUN", "VERB", "ADJ")) > subset(keyw$keywords, ngram > 1 & freq > 1) [1] keyword ngram freq <0 Zeilen> (oder row.names mit Länge 0) > news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id")) > sentences <- unique(news[, c("textrank_id", "sentence")]) > terminology <- subset(news, upos %in% c("NOUN", "ADJ")) > terminology <- terminology[, c("textrank_id", "lemma")] > head(terminology) textrank_id lemma 1 9 spiegel.d 10 21 Risiko 12 21 Strahlung 13 21 falsch 18 21 Wissenschaft 26 50 Minute > tr <- textrank_sentences(data = sentences, terminology = terminology) > names(tr) [1] "sentences" "sentences_dist" "pagerank" > news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id")) > sentences <- unique(news[, c("textrank_id", "sentence")]) > terminology <- subset(news, upos %in% c("NOUN", "ADJ")) > terminology <- terminology[, c("textrank_id", "lemma")] > head(terminology) textrank_id lemma 1 9 spiegel.d 10 21 Risiko 12 21 Strahlung 13 21 falsch 18 21 Wissenschaft 26 50 Minute > ## Textrank for finding the most relevant sentences > tr <- textrank_sentences(data = sentences, terminology = terminology) > names(tr) [1] "sentences" "sentences_dist" "pagerank" > s <- summary(tr, n = 4) > s <- summary(tr, n = 4, keep.sentence.order = TRUE) > cat(s, sep = "\n") Smartphones stehen unter Generalverdacht, auch Kernkraftwerke werden oft als Quelle von gefährlicher Strahlung angesehen. Fast drei von vier Befragten (73,9 Prozent) gaben demnach an, dass sie Strahlung durch Kernkraftwerke "sehr" oder "eher" beunruhige. Mehr als jeder zweite (51,4 Prozent) macht sich Sorgen um Strahlung von Mobilfunkmasten, fast ebenso viele (51 Prozent) über Handys und Tablets. Generell gaben mehr als 35 Prozent an, es mache ihnen Sorgen, dass sie "überall von Strahlung umgeben" seien, fast jeder Dritte glaubt, die Strahlenbelastung sei zu hoch. | |
Versuch 2
newstext = readLines('C:/Users/Thorsten/Documents/mtcars-R-Studio/kognitive-verzerrungen.txt') > tagger <- udpipe_download_model("german") Downloading udpipe model from https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe to C:/Users/Thorsten/Documents/german-gsd-ud-2.4-190531.udpipe Visit https://github.com/jwijffels/udpipe.models.ud.2.4 for model license details versuche URL 'https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.4/master/inst/udpipe-ud-2.4-190531/german-gsd-ud-2.4-190531.udpipe' Content type 'application/octet-stream' length 21301847 bytes (20.3 MB) downloaded 20.3 MB > tagger <- udpipe_load_model(tagger$file_model) > news <- udpipe_annotate(tagger, newstext) > news <- as.data.frame(news) > keyw <- textrank_keywords(news$lemma,relevant = news$upos %in% c("NOUN", "VERB", "ADJ")) > subset(keyw$keywords, ngram > 1 & freq > 1) keyword ngram freq 7 kognitiv-Verzerrung 2 4 15 eigen-Wahrnehmung 2 3 37 kritisch-Denken 2 2 > news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id")) > sentences <- unique(news[, c("textrank_id", "sentence")]) > terminology <- subset(news, upos %in% c("NOUN", "ADJ")) > terminology <- terminology[, c("textrank_id", "lemma")] > head(terminology) textrank_id lemma 1 18 karrierebibel.d 6 29 kognitiv 7 29 Verzerrung 12 29 karrierebibel.d 14 44 Minute 16 66 Mensch > tr <- textrank_sentences(data = sentences, terminology = terminology) > names(tr) [1] "sentences" "sentences_dist" "pagerank" > news$textrank_id <- unique_identifier(news, c("doc_id", "paragraph_id", "sentence_id")) > sentences <- unique(news[, c("textrank_id", "sentence")]) > terminology <- subset(news, upos %in% c("NOUN", "ADJ")) > terminology <- terminology[, c("textrank_id", "lemma")] > head(terminology) textrank_id lemma 1 18 karrierebibel.d 6 29 kognitiv 7 29 Verzerrung 12 29 karrierebibel.d 14 44 Minute 16 66 Mensch > ## Textrank for finding the most relevant sentences > tr <- textrank_sentences(data = sentences, terminology = terminology) > names(tr) [1] "sentences" "sentences_dist" "pagerank" > s <- summary(tr, n = 4) > s <- summary(tr, n = 4, keep.sentence.order = TRUE) > cat(s, sep = "\n") Bias: Diese 7 kognitiven Verzerrungen sollten Sie kennen | karrierebibel.de Tatsächlich schlägt aber doch häufig die Verzerrung der eigenen Wahrnehmung zu. Solche Verzerrungen können durch einen systematischen Fehler zustandekommen – beispielsweise war eine Stichprobe nicht repräsentativ. Diese kognitiven Verzerrungen sind einerseits absolut menschlich.
Versuchsanordnung
Stammt von hier:
https://cran.r-project.org/web/packages/textrank/vignettes/textrank.html
Die Beispiele dort sind in Englisch, die funzen auch alle (omxfimz-geprüft,02.12.2019,zm).~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Nein, es ist kein Fehler in der Benennung! Stufe 2 musste ich aus Zeitgründen überspringen, die wird vermutlich morgen nachgereicht.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Kommentare
Kommentar veröffentlichen