CoreNLP API,用于带有位置的N-gram

马修葡萄酒

CoreNLP是否具有用于获取带有位置等的ngram的API?

例如,我有一个字符串“我有最好的汽车”。如果我使用的是mingrams = 1和maxgrams = 2。我应该像下面这样得到以下内容。我知道带有ngram函数的stringutil,但如何获得位置。

(I,0)
(I have,0)
(have,1)
(have the,1)
(the,2)
(the best,2) etc etc

基于我传递的字符串。

任何帮助都非常感谢。

谢谢

StanfordNLP帮助

我在公用程序中看不到任何东西。以下是一些示例代码可以帮助您:

import java.io.*;
import java.util.*;
import edu.stanford.nlp.io.*;
import edu.stanford.nlp.ling.*;
import edu.stanford.nlp.pipeline.*;
import edu.stanford.nlp.trees.*;
import edu.stanford.nlp.semgraph.*;
import edu.stanford.nlp.trees.TreeCoreAnnotations.*; 
import edu.stanford.nlp.util.*;


public class NGramPositionExample {


    public static List<List<String>> getNGramsPositions(List<String> items, int minSize, int maxSize) {
        List<List<String>> ngrams = new ArrayList<List<String>>();
    int listSize = items.size();
    for (int i = 0; i < listSize; ++i) {
        for (int ngramSize = minSize; ngramSize <= maxSize; ++ngramSize) {
        if (i + ngramSize <= listSize) {
            List<String> ngram = new ArrayList<String>();
            for (int j = i; j < i + ngramSize; ++j) {
            ngram.add(items.get(j));
            }
                    ngram.add(Integer.toString(i));
            ngrams.add(ngram);
        }
        }
    }
    return ngrams;
    }


        public static void main (String[] args) throws IOException {
            String testString = "I have the best car";
            List<String> tokens = Arrays.asList(testString.split(" "));
            List<List<String>> ngramsAndPositions = getNGramsPositions(tokens,1,2);
            for (List<String> np : ngramsAndPositions) {
                System.out.println(Arrays.toString(np.toArray()));
            }
        }
}

您可以剪切并粘贴该实用程序方法。

这可能是添加的有用功能,因此我将其放在我们要处理的事情清单上。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

什么是 N-gram?

来自分类Dev

带有CollapsedCCProcessedDependenciesAnnotation的CoreNLP ConLL格式

来自分类Dev

加快n-gram处理

来自分类Dev

Stanford CoreNLP:使用部分现有注释

来自分类Dev

快速实现单词的字符n-gram

来自分类Dev

R中的“字符包” n-gram

来自分类Dev

python为n-gram优化count()

来自分类Dev

zip(*)如何生成n-gram?

来自分类Dev

在球拍中用折叠产生n-gram

来自分类Dev

构建用于标记级别文本分类的n-gram

来自分类Dev

从n-gram集合中得出所有可能的序列

来自分类Dev

如何使POS n-gram更有效?

来自分类Dev

CoreNLP SemanticGraph-搜索具有特定引理的边

来自分类Dev

具有Stanford coreNLP的中文句子分割器

来自分类Dev

CoreNLP SemanticGraph-搜索具有特定引理的边

来自分类Dev

CoreNLP Server为所有依赖项分配“ dep”

来自分类Dev

CFG和Google n-gram如何结合以生成句子

来自分类Dev

在python中快速/优化N-gram实现

来自分类Dev

python的TfidfVectorizer中n-gram的令牌模式

来自分类Dev

如何基于大文本提取字符n-gram

来自分类Dev

R如何提取基于n-gram的行

来自分类Dev

比较n-gram以将重复项分组

来自分类Dev

在python中快速/优化N-gram实现

来自分类Dev

如何在arff文件中表示n-gram特征?

来自分类Dev

MySQL 单列 n-gram 拆分和计数

来自分类Dev

为 fastText 设置 char n-gram 的最大长度

来自分类Dev

spring-boot ElasticSearch 中的 n-gram 实现

来自分类Dev

Python - 如何将 n-gram CountVectorizer 转换为带有列提取转换器的管道

来自分类Dev

如何创建具有字符 n-gram 特征的 tf-idf 矩阵?