2018年07月08日

言語処理100本ノックでPython入門 #58 - 主語,述語,目的語の抽出

  

今日は、言語処理100本ノック 2015の第6章・問題58を解きます。

■ 問題
58. タプルの抽出
Stanford Core NLPの係り受け解析の結果(collapsed-dependencies)に基づき,「主語 述語 目的語」の組をタブ区切り形式で出力せよ.ただし,主語,述語,目的語の定義は以下を参考にせよ.
述語: nsubj関係とdobj関係の子(dependant)を持つ単語
主語: 述語からnsubj関係にある子(dependent)
目的語: 述語からdobj関係にある子(dependent)

■ どう解くか


例えば、以下のような2つのタグを見つければよいのだと解釈。

<dep type="nsubj">
  <governor idx="13">enabling</governor>
  <dependent idx="8">understanding</dependent>
</dep>

<dep type="dobj">
  <governor idx="13">enabling</governor>
  <dependent idx="14">computers</dependent>
</dep>

この場合は、

述語: enabling
主語: understanding
目的語: computers

となります。

はじめは、tree構造を作ってそれから求めようとしたのですが...

面倒なので、単純なdepタグ(これをクラスに変換)のリストを作成し、nsubの要素を見つけ、それに対応する、dobjの要素を見つけるというやり方にしました。

そういえば、前回の記事で書き忘れていましたが、メソッドに、@staticmethodをつけると静的メソッドになります。
静的メソッドなので、引数selfは不要です。

このようにメソッドに付加するメタ情報を、C#だと属性と言いますが、デコレーターと言うみたいです。


■ Pythonのコード
from xml.etree import ElementTree

class Dependency:
    def __init__(self, dep):
        self.type = dep.attrib['type']
        self.governor_ix = dep.find('governor').attrib['idx']
        self.governor_text = dep.find('governor').text
        self.dependent_ix = dep.find('dependent').attrib['idx']
        self.dependent_text = dep.find('dependent').text

class CollapsedDependencies:
    def __init__(self, filepath):
        xdoc = ElementTree.parse(filepath)
        root = xdoc.getroot()
        self.sentences = root.find('document/sentences')
        self.coreference = root.find('document/coreference')

    def enumCoreference(self):
        for e in self.coreference:
            yield e

    @staticmethod
    def toDot(deps):
        edges = []
        for dep in deps:
            governor = dep.find('governor')
            dependent = dep.find('dependent')
            if dependent.text != '.' and dependent.text != ',':
                edges.append((governor.text, dependent.text))
        return edges

    def getDependence(self, sentenceId):
        strid = str(sentenceId)
        sentences = self.sentences.find("sentence[@id='" + strid + "']")
        deps = sentences.find('dependencies[@type="collapsed-dependencies"]')
        return deps

    def enumDependencies(self):
        dependencies = self.sentences.findall('sentence/dependencies[@type="collapsed-dependencies"]')
        for deps in dependencies:
            yield deps

    @staticmethod
    def toDependencyList(deps):
        lst = []
        for dep in deps:
            lst.append(Dependency(dep))
        return lst


    def extractSVO(self, lst):
        subjs = self.findSubj(lst)
        for subj in subjs:
            objs = self.finObjs(lst, subj)
            for obj in objs:
                yield (subj.dependent_text, subj.governor_text, obj.dependent_text)

    @staticmethod
    def findSubj(lst):
        # subjの親が述語の可能性があるので、それを列挙
        return filter(lambda x: x.type == 'nsubj', lst)

    @staticmethod
    def finObjs(lst, subj):
        # subjと同じ親を持つノードを探す
        filterd = filter(lambda x: x.governor_ix == subj.governor_ix, lst)
        # その中からtypeが、dobjのものだけを取り出す
        return filter(lambda x: x.type == 'dobj', filterd)

def main():
    cd = CollapsedDependencies('chap06/nlp.txt.xml')
    with open('chap06/result58.txt', 'w', encoding='utf8') as w:
        for deps in cd.enumDependencies():
            nodes = cd.toDependencyList(deps)
            for s, v, o in cd.extractSVO(nodes):
                w.write('{}\t{}\t{}\n'.format(s, v, o))

    # このコメントアウトしてあるコードは、sentenceIdを指定して1文だけを処理するコード
    # sentenceId = 5
    # deps = cd.getDependence(sentenceId)
    # nodes = cd.toNodeList(deps)
    # print(sentenceId)
    # for s, v, o in cd.extractSVO(nodes):
    #     print(s.governor_text, v.governor_text, o.governor_text)
    # sentenceId += 1

if __name__ == '__main__':
    main()

ソースコードはGitHub でも公開しています。

■ 結果
understanding	enabling	computers
others	involve	generation
Turing	published	article
experiment	involved	translation
ELIZA	provided	interaction
patient	exceeded	base
ELIZA	provide	response
which	structured	information
underpinnings	discouraged	sort
that	underlies	approach
Some	produced	systems
which	make	decisions
systems	rely	which
that	contains	errors
implementations	involved	coding
algorithms	take	set
Some	produced	systems
which	make	decisions
models	have	advantage
they	express	certainty
Systems	have	advantages
Automatic	make	use
that	make	decisions