bugfix

chreman · chreman · commit 9fe75be26ff1 · 2023-12-13T02:52:45.000+01:00
diff --git a/server/preprocessing/other-scripts/base.R b/server/preprocessing/other-scripts/base.R
@@ -101,8 +101,6 @@ get_papers <- function(query, params,
     } else {
       custom_clustering_query <- paste("dcsubject:", cc, "*", sep="")
       base_query <- paste(base_query, custom_clustering_query)
-      custom_clustering_query <- paste('"', cc, '"', sep="")
-      base_query <- paste(base_query, custom_clustering_query)
     }
   }
 
diff --git a/server/preprocessing/other-scripts/features.R b/server/preprocessing/other-scripts/features.R
@@ -7,8 +7,6 @@ TypeCountTokenizer <- function(x) {
 
 
 create_corpus <- function(metadata, text, stops) {
-  # log text example content
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "text example content:", text$content[1], collapse="\n"))
   docs <- data.frame(doc_id = text$id, text = text$content)
   corpus <- VCorpus(DataframeSource(docs))
 
@@ -32,15 +30,7 @@ create_corpus <- function(metadata, text, stops) {
 
 
 create_tdm_matrix <- function(corpus, sparsity=1) {
-  # log example content from the corpus object
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "corpus example content:", corpus[[1]]$content, collapse="\n"))
   tdm <- TermDocumentMatrix(corpus)
-  # log all available information about tdm
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "tdm dimensions:", dim(tdm)))
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "tdm sparsity:", sum(tdm == 0) / prod(dim(tdm))))
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "tdm max value:", max(tdm)))
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "tdm min value:", min(tdm)))
-  vflog$info(paste("vis_id:", .GlobalEnv$VIS_ID, "tdm NA values:", sum(is.na(tdm))))
   if(sparsity < 1) {
     tdm <- removeSparseTerms(tdm, sparsity)
   }

Original file line number	Diff line number	Diff line change
`@@ -101,8 +101,6 @@ get_papers <- function(query, params,`
`101`	`101`	`} else {`
`102`	`102`	`custom_clustering_query <- paste("dcsubject:", cc, "*", sep="")`
`103`	`103`	`base_query <- paste(base_query, custom_clustering_query)`
`104`		`- custom_clustering_query <- paste('"', cc, '"', sep="")`
`105`		`- base_query <- paste(base_query, custom_clustering_query)`
`106`	`104`	`}`
`107`	`105`	`}`
`108`	`106`