В продолжение
вчерашних боев. При попытке засунуть коллекцию текстов под mallet выползала ошибка:
> mallet.instances <- mallet.import(text.ids, doc.text, "ru.txt", token.regexp = "[\\p{L}\\p{N}-]*\\p{L}+")
Error in .jcall("RJavaTools", "Ljava/lang/Object;", "invokeMethod", cl, :
java.lang.NoSuchMethodException: No suitable method for the given parameters
Решение
нагуглилось внезапно после нескольких непонятно почему неудачных попыток. Оказалось, что id текстов и сами тексты должны иметь вид character. Каким образом его утрачивают вторые -- не ясно (как впрочем и то, зачем его должны иметь первые).
> mallet.instances <- mallet.import(as.character(text.ids), as.character(doc.text), "ru.txt", token.regexp = "[\\p{L}\\p{N}-]*\\p{L}+")
This entry was originally posted at
http://kouprianov.dreamwidth.org/310352.html Comment wherever you wish.