2018年07月29日

言語処理100本ノックでPython入門 #61 - RedisでKVSの検索



今日は、言語処理100本ノック 2015の第7章・問題61を解きます。


■ 問題
61. KVSの検索
60で構築したデータベースを用い,特定の(指定された)アーティストの活動場所を取得せよ.

■ 作成したPythonのコード
import redis

def enumKeys():
    r = redis.StrictRedis(host='localhost', port=6379, db=0)
    v = r.get('The Silhouettes').decode()
    print(v)
    v = r.get('The Wanderers').decode()
    print(v)
    v = r.get('桑田佳祐').decode()
    print(v)


def main():
    enumKeys()

if __name__ == '__main__':
    main()



■ ちょっと解説

r = redis.StrictRedis(host='localhost', port=6379, db=0)
v = r.get('桑田佳祐')
でキーに対応する値を得ることができます。

でも、この結果をデバッグで見て見たら、

b'Japan'

となっていて、はバイト列になっているみたいです。

redisの仕様なのかな?

そのため、バイト列から文字列に変換するには decodeメソッドを使ってみました。
    v = r.get('桑田佳祐').decode()
    print(v)


■ 結果
Netherlands
United States
Japan
  

Posted by gushwell at 22:00Comments(0)Python

2018年07月25日

言語処理100本ノックでPython入門 #60(後編) - RedisでKVSの構築



今日は、言語処理100本ノック 2015の第7章・問題60を解きます。


■ 問題
60. KVSの構築
Key-Value-Store (KVS) を用い,アーティスト名(name)から活動場所(area)を検索するためのデータベースを構築せよ.

■ 入力ファイル

前回、RedisのインストールとPython用Redisモジュールをインストールしたので、コードを書く準備は整いました。
入力ファイルは、以下のようなJSONファイルです。先頭数行分だけを載せます。
{"name": "WIK▲N", "tags": [{"count": 1, "value": "sillyname"}], "sort_name": "WIK▲N", "ended": true, "gid": "8972b1c1-6482-4750-b51f-596d2edea8b1", "id": 805192}
{"name": "Gustav Ruppke", "sort_name": "Gustav Ruppke", "ended": true, "gid": "b4f76788-7e6f-41b7-ac7b-dfb67f66282e", "type": "Person", "id": 578352}
{"name": "Pete Moutso", "sort_name": "Moutso, Pete", "ended": true, "gid": "49add228-eac5-4de8-836c-d75cde7369c3", "type": "Person", "id": 371203}
{"ended": true, "gid": "c112a400-af49-4665-8bba-741531d962a1", "sort_name": "Zachary", "id": 273232, "name": "Zachary"}
{"name": "The High Level Ranters", "sort_name": "High Level Ranters, The", "ended": true, "gid": "c42eed94-e233-44e2-82b8-3ed6dd9bf318", "type": "Group", "id": 153193}
{"begin": {"year": 1956}, "end": {"year": 1993}, "name": "The Silhouettes", "area": "United States", "sort_name": "Silhouettes, The", "ended": true, "gid": "ca3f3ee1-c4a7-4bac-a16a-0b888a396c6b", "type": "Group", "id": 101060, "aliases": [{"name": "Silhouettes", "sort_name": "Silhouettes"}, {"name": "The Sihouettes", "sort_name": "The Sihouettes"}]}
{"ended": true, "gid": "7b4a548e-a01a-49b7-82e7-b49efeb9732c", "sort_name": "Leavitt, Aric", "id": 145773, "name": "Aric Leavitt"}
ここから、"name"と"area"の値を抜き出して、Redisデータベースに登録するという課題です。


■ dbを使う準備

ローカルで動作させているので、以下のようなコードを書いて、Redisに接続します。
import redis
...
r = redis.StrictRedis(host='localhost', port=6379, db=0)
protはデフォルトで6379のようです。Redisを起動した際のメッセージに表示されていました。

db=0 でデータベースの番号を指定するようです。番号指定なんですね。 ちょっと驚きです。名前指定って無いのかしら?


■ dbを初期化

何回もこのコードを実行することを考慮して、以下のコードで、現在選択されているDBのすべてのキーを削除します。
 r.flushdb()

■ dbに値を登録

このプログラムでは、enumKvメソッドを定義して、Key-Valueのペアを列挙しています。 この結果を、setメソッドでDBに登録します。

for k, v in enumKv(): r.set(k, v) 

■ dbの接続を閉じる

やり方がわかりませんでした。もしかして必要無いのかもしれません。


■ 出来上がったPythonのコード

import json
import redis

def enumKv():
    with open('artist.json', 'r', encoding='utf8') as fin:
        for line in fin:
            jsd = json.loads(line)
            if 'area' in jsd:
                yield jsd['name'], jsd['area']

def register():
    r = redis.StrictRedis(host='localhost', port=6379, db=0)
    r.flushdb()
    for k, v in enumKv():
        r.set(k, v)
    r.save()

def main():
    register()

if __name__ == '__main__':
    main()

■ 結果

このプログラムを動かしたら、Macのファンがすごい音をさせて回り始めました。
なかなか終わらないので、席を外して他のことをやって戻ったら、プログラムは終わってました。
すみません、時間は計測してなかったのですが、席を外していたのは10分程度だったように思います。

正しく登録できたかは、次の問題61で確認します。
   
Posted by gushwell at 20:53Comments(0)Python

2018年07月22日

言語処理100本ノックでPython入門 #60(前編) - Redisのインストール



今日から、言語処理100本ノック 2015の第7章に入ります。

第7章はデータベースの問題です。

■ 問題


第7章: データベース

artist.json.gzは,オープンな音楽データベースMusicBrainzの中で,アーティストに関するものをJSON形式に変換し,gzip形式で圧縮したファイルである.このファイルには,1アーティストに関する情報が1行にJSON形式で格納されている.JSON形式の概要は以下の通りである.

... 長くなるので省略 ...

artist.json.gzのデータをKey-Value-Store (KVS) およびドキュメント志向型データベースに格納・検索することを考える.KVSとしては,LevelDB,Redis,KyotoCabinet等を用いよ.ドキュメント志向型データベースとして,MongoDBを採用したが,CouchDBやRethinkDB等を用いてもよい.

60. KVSの構築
Key-Value-Store (KVS) を用い,アーティスト名(name)から活動場所(area)を検索するためのデータベースを構築せよ.

問題60では、KVSを構築せよということで、Redisを利用しようと思います。

Redisは初めて使うDBです。

■ Redisのインストール

Macにインストールするには、homebrewを使えばいいみたいです。
$ brew install redis

で redisをインストール。以下、その処理結果。
$ brew install redis

... 省略

==> Downloading https://homebrew.bintray.com/bottles/redis-4.0.10.high_sierra.bo
######################################################################## 100.0%
==> Pouring redis-4.0.10.high_sierra.bottle.tar.gz
==> Caveats
To have launchd start redis now and restart at login:
  brew services start redis
Or, if you don't want/need a background service you can just run:
  redis-server /usr/local/etc/redis.conf
==> Summary
🍺  /usr/local/Cellar/redis/4.0.10: 13 files, 2.8MB
いちおう成功したみたいです。あっけなくインストール完了。


■ redisの起動

では起動してみます。
インストールした際のメッセージには2つの方法が示してあるけど、2つめの方法で起動してみます。
ただし、パラメータなしで起動してみました。

$ redis-server
23134:C 21 Jul 17:20:18.729 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
23134:C 21 Jul 17:20:18.730 # Redis version=4.0.10, bits=64, commit=00000000, modified=0, pid=23134, just started
23134:C 21 Jul 17:20:18.730 # Warning: no config file specified, using the default config. In order to specify a config file use redis-server /path/to/redis.conf
23134:M 21 Jul 17:20:18.731 * Increased maximum number of open files to 10032 (it was originally set to 8192).
                _._
           _.-``__ ''-._
      _.-``    `.  `_.  ''-._           Redis 4.0.10 (00000000/0) 64 bit
  .-`` .-```.  ```\/    _.,_ ''-._
 (    '      ,       .-`  | `,    )     Running in standalone mode
 |`-._`-...-` __...-.``-._|'` _.-'|     Port: 6379
 |    `-._   `._    /     _.-'    |     PID: 23134
  `-._    `-._  `-./  _.-'    _.-'
 |`-._`-._    `-.__.-'    _.-'_.-'|
 |    `-._`-._        _.-'_.-'    |           http://redis.io
  `-._    `-._`-.__.-'_.-'    _.-'
 |`-._`-._    `-.__.-'    _.-'_.-'|
 |    `-._`-._        _.-'_.-'    |
  `-._    `-._`-.__.-'_.-'    _.-'
      `-._    `-.__.-'    _.-'
          `-._        _.-'
              `-.__.-'

23134:M 21 Jul 17:20:18.736 # Server initialized
23134:M 21 Jul 17:20:18.736 * Ready to accept connections

起動できたみたいです。
メッセージを見ると、
Warning: no config file specified, using the default config.
とあります。

後で、
$ ls /usr/local/etc
ってやってみたら、redis.conf ファイルが存在してました。 たぶん、これが使われているんだと思います。

デフォルト設定がどんなものかは、調べてません。今回は問題を解くことが目的なので、あまり深入りはしないことにします。 

■ Python用Redisパッケージをインストール

次に、Pythonでこのredisを扱いたいので、Python用のパッケージもインストールします。anaconda使ってるので、condaコマンドを使います。
$ conda install redis

これで、redis-4.0.10 がインストールされました。

今日はここまでとします。

----

ところで、Visual Studio Codeのバージョン1.25.1なんですが、メニューが英語表記になってしまいました。 これって日本語に戻すことできないのかな?

「Japanese Language Pack for Visual Studio Code」も入れて、"ja"に設定してるんですけどね...

まあ、英語のままでもいいか。  
Posted by gushwell at 21:35Comments(0)Python

2018年07月16日

言語処理100本ノックでPython入門 #59 - S式を解析して名詞句を取り出す



今日は、言語処理100本ノック 2015の第6章・問題58を解きます。

いよいよ第6章最後の問題です。
今回は、なかなか手強い問題でした。

■ 問題


59. S式の解析
Stanford Core NLPの句構造解析の結果(S式)を読み込み,文中のすべての名詞句(NP)を表示せよ.入れ子になっている名詞句もすべて表示すること.


■ S式を解析する

S式を簡単に解析できる機能はPythonでは標準で用意されていないっぽいので、仕方がないので自分で解析することにします。

ただし、名詞句を取り出すのに特化したものとしています。解析しながら名詞句を組み立てていくという感じ。

今回は、pyrthonのソースファイルを2つに分割します。 まずは、S式を解析し名詞句を取り出す部分である、NPExtractor.pyファイル。 ソースコードを示します。

import copy

# 文字列をTokenに分解し、列挙する
class Tokenizer:
    def __init__(self, exp):
        self.exp = exp.replace('\n', '')
        self.curix = 0
        self.curr = ''
        self.prev = None
        self.gen = self.getTokens()

    def nextChar(self):
        if self.curix < len(self.exp):
            c = self.exp[self.curix]
            self.curix += 1
            return c
        return 0

    def getTokens(self):
        c = self.nextChar()
        token = ''
        while c != 0:
            if c == '(':
                yield c
            elif c == ')':
                if token != '':
                    yield token
                    token = ''
                yield c
            elif c == ' ':
                if token != '':
                    yield token
                    token = ''
            else:
                token += c
            c = self.nextChar()
        if token != '':
            yield token
        yield None

    def moveNext(self):
        if self.prev != None:
            r = copy.copy(self.prev)
            self.prev = None
            return r
        if self.curr != None:
            self.curr = next(self.gen)
        return self.curr

    # 一つ前に戻す (ただし連続しては呼び出せない)
    def movePrev(self):
        self.prev = self.curr

# Node.parseで利用するコンテキスストクラス
class Context:
    def __init__(self, exp):
        self.tokenizer = Tokenizer(exp)
        self.nplist = []

#<SExpression> :: ( <part>T <sentence> )
#<sentence> :: <word> | { ( <part> <sentence> ) }
#<part> :: ROOT | S | NP | VP | PP | ....

# <SExpression>を表すクラス
class NPExtractor:
    def parse(self, context):
        curr = context.tokenizer.moveNext()
        if curr == '(':
            # <part>を取り出す 取り出したpartは使わない
            context.tokenizer.moveNext()
            # <sentense>のパース
            node = Sentence()
            node.parse(context, False)
            # ) を取り出す
            curr = context.tokenizer.moveNext()
            if curr != ')':
                raise Exception
        else:
            raise Exception
        return ''

# <sentence>を表すクラス
class Sentence:
    def parse(self, context, isNp):
        phrase = []
        # 先読みする
        curr = context.tokenizer.moveNext()
        if curr != '(':
            # <word>の処理 読み取った単語を返す
            return curr
        # { ( <part> <sentence> )  の処理
        while curr == '(':
            # <part>を取り出す
            part = context.tokenizer.moveNext()
            # <sentense>のパース
            node = Sentence()
            w = node.parse(context, part == 'NP')
            # 現在の () の中の句はphraseに追加
            # ∵ (NP (JJ Many) (NNS challenges)) の Many challenges を記録する必要があるから
            phrase.append(w)
            if part == 'NP' and w != '':
                # 名詞句ならば、nplistにも記憶する
                # このpart が  (NP (JJ Many) (NNS challenges)) の NPならば、
                # w には、'Many challenges' が入っている
                context.nplist.append(w)
            # ) の処理
            curr = context.tokenizer.moveNext()
            if curr != ')':
                raise Exception
            # 次を取り出す
            curr = context.tokenizer.moveNext()
        # 先読みした分を戻す
        context.tokenizer.movePrev()
        if isNp:
            # parseが呼び出された時点で処理しているものがNPならば、phraseにある単語を連結し文字列化する
            # 先頭と最後の不要なものを取り除く かなり使わ伎だが...
            while phrase and (phrase[-1] == ',' or phrase[-1] == '' or phrase[-1] == '.'):
                phrase.pop()
            while phrase and (phrase[0] == ',' or phrase[0] == '' or phrase[0] == '.'):
                phrase.pop(0)
            return ' '.join(phrase)
        return ''

このソースファイルには、4つのクラス(Tokenizer、Context、NPExtractor、Sentence)が定義されています。

はじめは、NPExtractor、Sentenceの親クラスであるNode抽象クラスを定義したのですが、よくよく考えたら不要なので削除しました。

何をやっているクラスなのかはコメントを読んでください。 Tokenizer、Sentence の2つのクラスは、NPExtractorの下請けクラスと思ってもらって構いません。

NPExtractorクラスのparseメソッドを呼び出すと、contextで示した一つのS式を解析し、contextオブジェクトのnplistに名詞句のリストを設定していきます。


■ 取り出した名詞句をファイルに出力する

このNPExtractorクラスを呼び出すメインのソースが以下のコードです。
import re
from xml.etree import ElementTree
from NPExtractor import NPExtractor, Context

class NounPhrases:
    def __init__(self, filepath):
        xdoc = ElementTree.parse(filepath)
        root = xdoc.getroot()
        self.parses = root.findall('document/sentences/sentence/parse')

    def extract(self):
        with open('result59.txt', 'w', encoding='utf8') as w:
            for parse in self.parses:
                ctx = Context(parse.text)
                exp = NPExtractor()
                exp.parse(ctx)
                for p in ctx.nplist:
                    s = re.sub('-LRB-', '(', p)
                    s = re.sub('-RRB-',')', s)
                    w.write(s + '\n')

def main():
    nps = NounPhrases('nlp.txt.xml')
    nps.extract()

if __name__ == '__main__':
    main()
こちらでは、XMLファイルからS式(複数)を抜き出し、それをひとつづつNPExtractor.parseを利用して名詞句を取り出しています。 取り出した結果はファイルに出力しています。

今回初めてソースファイルを分割したのですが、
from NPExtractor import NPExtractor, Context
で、同一フォルダのNPExtractor.pyからNPExtractor, Contextをimportして利用できるようにしています。


■結果


結果の一部を掲載します。
Natural language
processing
Natural language processing
Wikipedia
the free encyclopedia
Natural language processing
NLP
Natural language processing
a field
computer science
a field
artificial intelligence
linguistics
the interactions
computers
human ( natural ) languages
computers and human ( natural ) languages
the interactions
linguistics
a field , artificial intelligence , and linguistics
such
NLP
the area

S式解析して名詞句を組み立てる部分ですが、一部、以下のような表示になってしまうので、もうすこし工夫が必要かもしれません。
Moore 's Law

the `` patient ''

general learning algorithms -


余談ですが、2つ目の、``って、大元の英文のテキストファイル「nlp.txt」には無い文字です。
それが、Stanford Core NLPで、nlp.txt.xmlを作成すると、なぜか、ダブルクォーテーションの「”」が「``」に置き換わってしまうんですよね。

たぶん、開始と終了のクォーテーションを明確に分けるためだとは思うんですが...  元のテキストに戻すような処理を書かないといけない時はちょっと面倒です。
   
Posted by gushwell at 22:10Comments(0)Python

2018年07月08日

言語処理100本ノックでPython入門 #58 - 主語,述語,目的語の抽出



今日は、言語処理100本ノック 2015の第6章・問題58を解きます。

■ 問題
58. タプルの抽出
Stanford Core NLPの係り受け解析の結果(collapsed-dependencies)に基づき,「主語 述語 目的語」の組をタブ区切り形式で出力せよ.ただし,主語,述語,目的語の定義は以下を参考にせよ.
述語: nsubj関係とdobj関係の子(dependant)を持つ単語
主語: 述語からnsubj関係にある子(dependent)
目的語: 述語からdobj関係にある子(dependent)

■ どう解くか


例えば、以下のような2つのタグを見つければよいのだと解釈。

<dep type="nsubj">
  <governor idx="13">enabling</governor>
  <dependent idx="8">understanding</dependent>
</dep>

<dep type="dobj">
  <governor idx="13">enabling</governor>
  <dependent idx="14">computers</dependent>
</dep>

この場合は、

述語: enabling
主語: understanding
目的語: computers

となります。

はじめは、tree構造を作ってそれから求めようとしたのですが...

面倒なので、単純なdepタグ(これをクラスに変換)のリストを作成し、nsubの要素を見つけ、それに対応する、dobjの要素を見つけるというやり方にしました。

そういえば、前回の記事で書き忘れていましたが、メソッドに、@staticmethodをつけると静的メソッドになります。
静的メソッドなので、引数selfは不要です。

このようにメソッドに付加するメタ情報を、C#だと属性と言いますが、デコレーターと言うみたいです。


■ Pythonのコード
from xml.etree import ElementTree

class Dependency:
    def __init__(self, dep):
        self.type = dep.attrib['type']
        self.governor_ix = dep.find('governor').attrib['idx']
        self.governor_text = dep.find('governor').text
        self.dependent_ix = dep.find('dependent').attrib['idx']
        self.dependent_text = dep.find('dependent').text

class CollapsedDependencies:
    def __init__(self, filepath):
        xdoc = ElementTree.parse(filepath)
        root = xdoc.getroot()
        self.sentences = root.find('document/sentences')
        self.coreference = root.find('document/coreference')

    def enumCoreference(self):
        for e in self.coreference:
            yield e

    @staticmethod
    def toDot(deps):
        edges = []
        for dep in deps:
            governor = dep.find('governor')
            dependent = dep.find('dependent')
            if dependent.text != '.' and dependent.text != ',':
                edges.append((governor.text, dependent.text))
        return edges

    def getDependence(self, sentenceId):
        strid = str(sentenceId)
        sentences = self.sentences.find("sentence[@id='" + strid + "']")
        deps = sentences.find('dependencies[@type="collapsed-dependencies"]')
        return deps

    def enumDependencies(self):
        dependencies = self.sentences.findall('sentence/dependencies[@type="collapsed-dependencies"]')
        for deps in dependencies:
            yield deps

    @staticmethod
    def toDependencyList(deps):
        lst = []
        for dep in deps:
            lst.append(Dependency(dep))
        return lst


    def extractSVO(self, lst):
        subjs = self.findSubj(lst)
        for subj in subjs:
            objs = self.finObjs(lst, subj)
            for obj in objs:
                yield (subj.dependent_text, subj.governor_text, obj.dependent_text)

    @staticmethod
    def findSubj(lst):
        # subjの親が述語の可能性があるので、それを列挙
        return filter(lambda x: x.type == 'nsubj', lst)

    @staticmethod
    def finObjs(lst, subj):
        # subjと同じ親を持つノードを探す
        filterd = filter(lambda x: x.governor_ix == subj.governor_ix, lst)
        # その中からtypeが、dobjのものだけを取り出す
        return filter(lambda x: x.type == 'dobj', filterd)

def main():
    cd = CollapsedDependencies('chap06/nlp.txt.xml')
    with open('chap06/result58.txt', 'w', encoding='utf8') as w:
        for deps in cd.enumDependencies():
            nodes = cd.toDependencyList(deps)
            for s, v, o in cd.extractSVO(nodes):
                w.write('{}\t{}\t{}\n'.format(s, v, o))

    # このコメントアウトしてあるコードは、sentenceIdを指定して1文だけを処理するコード
    # sentenceId = 5
    # deps = cd.getDependence(sentenceId)
    # nodes = cd.toNodeList(deps)
    # print(sentenceId)
    # for s, v, o in cd.extractSVO(nodes):
    #     print(s.governor_text, v.governor_text, o.governor_text)
    # sentenceId += 1

if __name__ == '__main__':
    main()

ソースコードはGitHub でも公開しています。

■ 結果
understanding	enabling	computers
others	involve	generation
Turing	published	article
experiment	involved	translation
ELIZA	provided	interaction
patient	exceeded	base
ELIZA	provide	response
which	structured	information
underpinnings	discouraged	sort
that	underlies	approach
Some	produced	systems
which	make	decisions
systems	rely	which
that	contains	errors
implementations	involved	coding
algorithms	take	set
Some	produced	systems
which	make	decisions
models	have	advantage
they	express	certainty
Systems	have	advantages
Automatic	make	use
that	make	decisions
  
Posted by gushwell at 22:30Comments(0)Python

2018年07月05日

言語処理100本ノックでPython入門 #57 - pydot_ngで係り受け解析を可視化する



今日は、言語処理100本ノック 2015の第6章・問題57です。

■ 問題

57. 係り受け解析
Stanford Core NLPの係り受け解析の結果(collapsed-dependencies)を有向グラフとして可視化せよ.可視化には,係り受け木をDOT言語に変換し,Graphvizを用いるとよい.また,Pythonから有向グラフを直接的に可視化するには,pydotを使うとよい.


■ どうやって解くか考える

Stanford Core NLPの係り受け解析の結果のXMLファイルを見てみると、各sentenceタグの中に以下のような記述があります。
 <dependencies type="collapsed-dependencies">
  <dep type="root">
    <governor idx="0">ROOT</governor>
    <dependent idx="2">language</dependent>
  </dep>
  <dep type="amod">
    <governor idx="2">language</governor>
    <dependent idx="1">Natural</dependent>
  </dep>
  <dep type="dep">
    <governor idx="2">language</governor>
    <dependent idx="3">processing</dependent>
  </dep>
  <dep type="punct">
    <governor idx="2">language</governor>
    <dependent idx="4">.</dependent>
  </dep>
</dependencies>
governorが親ノード、dependentが子ノードを示しているようです。 

これを読み込み、Graphvizを使って有向グラフを可視化します。

dependencies要素の type属性の値は、"basic-dependencies", "enhanced-dependencies"など他の値もありますが、ここでは、問題にあるように "collapsed-dependencies" だけを対象としました。

可視化には、No.44でもやったように、pydot_ngを使います。

なお、ドットとカンマは可視化から除外しています。



■ Pythonのコード
from xml.etree import ElementTree
import os
import pydot_ng as pydot

class CollapsedDependencies:
    def __init__(self, filepath):
        xdoc = ElementTree.parse(filepath)
        root = xdoc.getroot()
        self.sentences = root.find('document/sentences')
        self.coreference = root.find('document/coreference')

    def enumCoreference(self):
        for e in self.coreference:
            yield e

    @staticmethod
    def toDot(deps):
        edges = []
        for dep in deps:
            governor = dep.find('governor')
            dependent = dep.find('dependent')
            if dependent.text != '.' and dependent.text != ',':
                edges.append((governor.text, dependent.text))
        return edges

    def getDependence(self, sentenceId):
        strid = str(sentenceId)
        sentences = self.sentences.find("sentence[@id='" + strid + "']")
        deps = sentences.find('dependencies[@type="collapsed-dependencies"]')
        return self.toDot(deps)

    def enumDependencies(self):
        dependencies = self.sentences.findall('sentence/dependencies[@type="collapsed-dependencies"]')
        for deps in dependencies:
            yield self.toDot(deps)

    @staticmethod
    def toGraph(dot, filepath):
        os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'

        graph = pydot.Dot(graph_type='digraph')
        graph.set_node_defaults(fontname='Meiryo UI', fontsize='10')

        for s, t in dot:
            graph.add_edge(pydot.Edge(s, t))
        graph.write_png(filepath)

def main():
    cd = CollapsedDependencies('chap06/nlp.txt.xml')
    # sentenceId = 1
    # for dot in cd.enumDependencies():
    #     cd.toGraph(dot, "g57_{}.png".format(sentenceId))
    #     sentenceId += 1

    # ここでは、sentenceIdを指定して1文だけを処理するコードを実行
    sentenceId = 7
    dot = cd.getDependence(sentenceId)
    cd.toGraph(dot, "ag57_{}.png".format(sentenceId))

if __name__ == '__main__':
    main()

■ 結果

sentenceId = 7を処理した時の結果です。


ag57_7
   
Posted by gushwell at 22:30Comments(0)Python