句法分析工具指南(parser guideline)-USB迷|专注于互联网分享

2024年5月16日发(作者：庚昊焱)

PARSER GUIDELINE

 Stanford parser

一个简易的Stanford parser系统只需要包含四类文件，它们分别是：①java包(最新版本

为)、②模板(英文：

///。中文：

///)、③输入文

件(一般为.txt后缀的分词文件(、④输出文件(一般为.parse后缀的成分句法树文件或是以.dep

后缀的依存句法树文件)

1.英文句法分析

举例：

Java -mx1g -cp lizedParser

-maxLength 100 –outputFormat oneline -sentences newline -outputFormatOptions

removeTopBracket > _Factored_parse

参数解释：

①-mx1g：给java虚拟机分配的最大内存为1g(大小可自行设置)。

②-cp ：为了加载java包。

LexicalizedParser：parser类.

③-maxLength：指定句子单词长度最大为100。

④–outputFormat：指定输出句子的格式。

outputFormat具体选项值如下：

Oneline：成分句法分析输出文件的格式为每行一句的广义表形式的树结构。

Penn：成分句法分析输出文件的格式为层次化树的形式。默认选项为penn。

latexTree：格式类似于penn

Words：只给出分词格式。如：

继续播报详细的新闻内容。

wordsAndTags：给出分词文本和标记。如：

继续/VV 播报/VV 详细/VA 的/DEC 新闻/NN 内容/NN 。/PU

rootSymbolOnly：只给出ROOT结点

typedDependencies：给出依存句法分析结果。

mmod(播报-2, 继续-1)

rcmod(内容-6, 详细-3)

cpm(详细-3, 的-4)

nn(内容-6, 新闻-5)

dobj(播报-2, 内容-6)

conllStyleDependencies、conll2008：conll格式(每行一词，每词十项)如下：

1 继续 _ VV _ _ 2 _ _ _

2 播报 _ VV _ _ 0 _ _ _

3 详细 _ VA _ _ 4 _ _ _

4 的 _ DEC _ _ 6 _ _ _

5 新闻 _ NN _ _ 6 _ _ _

6 内容 _ NN _ _ 2 _ _ _

7 。 _ PU _ _ 2 _ _ _

⑤-escaper：字符的标准化(例如将英文的”(”改成”-LRB-”,默认情况即这样转换)。英文的

escaper为

apingProcessor。中文为：

eEscaper。

举例：

java -mx500m -cp lizedParser -escaper

eEscaper -sentences newline

chinese-onesent >

⑥-sentences：指定句子之间的边界，一般为newline ：输入文件的句子通过换行符分割。

Parser得到的文本是每行一句，一句一句的进行分析。

⑦-encoding：指定输入输出文件的字符集。(中文默认为GB18030)

⑧-outputFormatOptions：进一步控制各种–outputFormat选项的输出行为(可以说是

–outputFormat的附加选项)。

当–outputFormat

为typedDependencies时，

-outputFormatOptions可有如下选项(默认选

项为collapsed dependencyies)：

basicDependencies：基本格式

treeDependencies：以树结构保存的压缩依存关系(去除依存图中一些边构成树)。

collapsedDependencies：压缩依存(不一定为树结构)

cc(makes-11, and-12)

conj(makes-11, distributes-13)

转化为：

Conj_and(makes-11, distributes-13)

CCPropagatedDependencies:带有连词依存传播的压缩依存。

⑨-writeOutputFiles：产生对应于输入文件的输出文件，输出文件名同输入文

件，只是增加了”.stp”的后缀。-outputFilesExtension：指定输出文件扩展名，

默认为”.stp”

⑩-outputFilesDirectory :指定输出文件目录，默认为当前目录。

在这一小节中，我们用到的parser类为lizedParser，这个类既能生成

基于短语结构的成分句法树(指定输出格式为penn或oneline)，又可以生成基于依存结构的依

存句法树(指定输出格式为typedDependencies)。

接下来，我们用到的类名为：

hGrammaticalStructure。我们使用这个类将已经

是成分句法树结构(penn Treebank-style trees)转化为依存句法树结构。这里的成分句法树

来源，既可以是stanford parser生成的，又可以是其他种类的parser(如：berkeley parser、

charniak parser)生成的。

2.依存句法分析

举例：

java -mx1g -cp ";" hGrammaticalStructure

-treeFile -basic -collapsed -extraSep -keepPunct -parserFile

选项解释(与

LexicalizedParser相同的选项省略

)

输出文件的树结构可以通过以下参数直接指定：

-basic：basic dependencies

-conllx ：basic dependencies printed out in CoNLL X (CoNLL 2006) format

-collapsed：collapsed dependencies (not necessarily a tree structure)