2024年5月16日发(作者:庚昊焱)
PARSER GUIDELINE
Stanford parser
一个简易的Stanford parser系统只需要包含四类文件,它们分别是:①java包(最新版本
为)、②模板(英文:
///。中文:
///)、③输入文
件(一般为.txt后缀的分词文件(、④输出文件(一般为.parse后缀的成分句法树文件或是以.dep
后缀的依存句法树文件)
1.英文句法分析
举例:
Java -mx1g -cp lizedParser
-maxLength 100 –outputFormat oneline -sentences newline -outputFormatOptions
removeTopBracket > _Factored_parse
参数解释:
①-mx1g:给java虚拟机分配的最大内存为1g(大小可自行设置)。
②-cp :为了加载java包。
LexicalizedParser:parser类.
③-maxLength:指定句子单词长度最大为100。
④–outputFormat:指定输出句子的格式。
outputFormat具体选项值如下:
Oneline:成分句法分析输出文件的格式为每行一句的广义表形式的树结构。
Penn:成分句法分析输出文件的格式为层次化树的形式。默认选项为penn。
latexTree:格式类似于penn
Words:只给出分词格式。如:
继续 播报 详细 的 新闻 内容 。
wordsAndTags:给出分词文本和标记。如:
继续/VV 播报/VV 详细/VA 的/DEC 新闻/NN 内容/NN 。/PU
rootSymbolOnly:只给出ROOT结点
typedDependencies:给出依存句法分析结果。
mmod(播报-2, 继续-1)
rcmod(内容-6, 详细-3)
cpm(详细-3, 的-4)
nn(内容-6, 新闻-5)
dobj(播报-2, 内容-6)
conllStyleDependencies、conll2008:conll格式(每行一词,每词十项)如下:
1 继续 _ VV _ _ 2 _ _ _
2 播报 _ VV _ _ 0 _ _ _
3 详细 _ VA _ _ 4 _ _ _
4 的 _ DEC _ _ 6 _ _ _
5 新闻 _ NN _ _ 6 _ _ _
6 内容 _ NN _ _ 2 _ _ _
7 。 _ PU _ _ 2 _ _ _
⑤-escaper:字符的标准化(例如将英文的”(”改成”-LRB-”,默认情况即这样转换)。英文的
escaper为
apingProcessor。中文为:
eEscaper。
举例:
java -mx500m -cp lizedParser -escaper
eEscaper -sentences newline
chinese-onesent >
⑥-sentences:指定句子之间的边界,一般为newline :输入文件的句子通过换行符分割。
Parser得到的文本是每行一句,一句一句的进行分析。
⑦-encoding:指定输入输出文件的字符集。(中文默认为GB18030)
⑧-outputFormatOptions:进一步控制各种–outputFormat选项的输出行为(可以说是
–outputFormat的附加选项)。
当–outputFormat
为typedDependencies时,
-outputFormatOptions可有如下选项(默认选
项为collapsed dependencyies):
basicDependencies:基本格式
treeDependencies:以树结构保存的压缩依存关系(去除依存图中一些边构成树)。
collapsedDependencies:压缩依存(不一定为树结构)
cc(makes-11, and-12)
conj(makes-11, distributes-13)
转化为:
Conj_and(makes-11, distributes-13)
CCPropagatedDependencies:带有连词依存传播的压缩依存。
⑨-writeOutputFiles:产生对应于输入文件的输出文件,输出文件名同输入文
件,只是增加了”.stp”的后缀。-outputFilesExtension:指定输出文件扩展名,
默认为”.stp”
⑩-outputFilesDirectory :指定输出文件目录,默认为当前目录。
在这一小节中,我们用到的parser类为lizedParser,这个类既能生成
基于短语结构的成分句法树(指定输出格式为penn或oneline),又可以生成基于依存结构的依
存句法树(指定输出格式为typedDependencies)。
接下来,我们用到的类名为:
hGrammaticalStructure。我们使用这个类将已经
是成分句法树结构(penn Treebank-style trees)转化为依存句法树结构。这里的成分句法树
来源,既可以是stanford parser生成的,又可以是其他种类的parser(如:berkeley parser、
charniak parser)生成的。
2.依存句法分析
举例:
java -mx1g -cp ";" hGrammaticalStructure
-treeFile -basic -collapsed -extraSep -keepPunct -parserFile
>e
选项解释(与
LexicalizedParser相同的选项省略
)
输出文件的树结构可以通过以下参数直接指定:
-basic:basic dependencies
-conllx :basic dependencies printed out in CoNLL X (CoNLL 2006) format
-collapsed:collapsed dependencies (not necessarily a tree structure)
2024年5月16日发(作者:庚昊焱)
PARSER GUIDELINE
Stanford parser
一个简易的Stanford parser系统只需要包含四类文件,它们分别是:①java包(最新版本
为)、②模板(英文:
///。中文:
///)、③输入文
件(一般为.txt后缀的分词文件(、④输出文件(一般为.parse后缀的成分句法树文件或是以.dep
后缀的依存句法树文件)
1.英文句法分析
举例:
Java -mx1g -cp lizedParser
-maxLength 100 –outputFormat oneline -sentences newline -outputFormatOptions
removeTopBracket > _Factored_parse
参数解释:
①-mx1g:给java虚拟机分配的最大内存为1g(大小可自行设置)。
②-cp :为了加载java包。
LexicalizedParser:parser类.
③-maxLength:指定句子单词长度最大为100。
④–outputFormat:指定输出句子的格式。
outputFormat具体选项值如下:
Oneline:成分句法分析输出文件的格式为每行一句的广义表形式的树结构。
Penn:成分句法分析输出文件的格式为层次化树的形式。默认选项为penn。
latexTree:格式类似于penn
Words:只给出分词格式。如:
继续 播报 详细 的 新闻 内容 。
wordsAndTags:给出分词文本和标记。如:
继续/VV 播报/VV 详细/VA 的/DEC 新闻/NN 内容/NN 。/PU
rootSymbolOnly:只给出ROOT结点
typedDependencies:给出依存句法分析结果。
mmod(播报-2, 继续-1)
rcmod(内容-6, 详细-3)
cpm(详细-3, 的-4)
nn(内容-6, 新闻-5)
dobj(播报-2, 内容-6)
conllStyleDependencies、conll2008:conll格式(每行一词,每词十项)如下:
1 继续 _ VV _ _ 2 _ _ _
2 播报 _ VV _ _ 0 _ _ _
3 详细 _ VA _ _ 4 _ _ _
4 的 _ DEC _ _ 6 _ _ _
5 新闻 _ NN _ _ 6 _ _ _
6 内容 _ NN _ _ 2 _ _ _
7 。 _ PU _ _ 2 _ _ _
⑤-escaper:字符的标准化(例如将英文的”(”改成”-LRB-”,默认情况即这样转换)。英文的
escaper为
apingProcessor。中文为:
eEscaper。
举例:
java -mx500m -cp lizedParser -escaper
eEscaper -sentences newline
chinese-onesent >
⑥-sentences:指定句子之间的边界,一般为newline :输入文件的句子通过换行符分割。
Parser得到的文本是每行一句,一句一句的进行分析。
⑦-encoding:指定输入输出文件的字符集。(中文默认为GB18030)
⑧-outputFormatOptions:进一步控制各种–outputFormat选项的输出行为(可以说是
–outputFormat的附加选项)。
当–outputFormat
为typedDependencies时,
-outputFormatOptions可有如下选项(默认选
项为collapsed dependencyies):
basicDependencies:基本格式
treeDependencies:以树结构保存的压缩依存关系(去除依存图中一些边构成树)。
collapsedDependencies:压缩依存(不一定为树结构)
cc(makes-11, and-12)
conj(makes-11, distributes-13)
转化为:
Conj_and(makes-11, distributes-13)
CCPropagatedDependencies:带有连词依存传播的压缩依存。
⑨-writeOutputFiles:产生对应于输入文件的输出文件,输出文件名同输入文
件,只是增加了”.stp”的后缀。-outputFilesExtension:指定输出文件扩展名,
默认为”.stp”
⑩-outputFilesDirectory :指定输出文件目录,默认为当前目录。
在这一小节中,我们用到的parser类为lizedParser,这个类既能生成
基于短语结构的成分句法树(指定输出格式为penn或oneline),又可以生成基于依存结构的依
存句法树(指定输出格式为typedDependencies)。
接下来,我们用到的类名为:
hGrammaticalStructure。我们使用这个类将已经
是成分句法树结构(penn Treebank-style trees)转化为依存句法树结构。这里的成分句法树
来源,既可以是stanford parser生成的,又可以是其他种类的parser(如:berkeley parser、
charniak parser)生成的。
2.依存句法分析
举例:
java -mx1g -cp ";" hGrammaticalStructure
-treeFile -basic -collapsed -extraSep -keepPunct -parserFile
>e
选项解释(与
LexicalizedParser相同的选项省略
)
输出文件的树结构可以通过以下参数直接指定:
-basic:basic dependencies
-conllx :basic dependencies printed out in CoNLL X (CoNLL 2006) format
-collapsed:collapsed dependencies (not necessarily a tree structure)