テキストマイニングによるトラブル事例情報の有効活用

公開日:
カテゴリ: 第1回
1. 背景
量の事例をデータベース化することは困難であ 近年のシステムの大規模化に伴い、故障やトラ る。本研究グループでは、過去の事例から故障生 ブルの影響も甚大なものになりつつある。このよ 起に関する汎用的知識を導出する研究(11や、導出 うな背景からシステムにはより一層の信頼性が された知識のデータベース化に関する研究を行 要求されている。大規模システムの高信頼性化に ってきた。本研究では、近年大量に蓄積された文 関しては、設計・施工における信頼性の向上も重 書データから構造化された知識を抽出する手法 要な要素ではあるが、現実問題としては長い供用 として注目されているテキストマイニングの手 期間中における保全活動が中心的役割を果たす。 法13,41の適用を試みた。テキストマイニングの適 保全に関しては、状態をより詳細に監視しながら 用により、異常事例に関する知識を抽出し、事例 状況に応じた保全を行うという「状態監視保全」 のその共通性、特異性を把握することが可能であ の考え方が積極的に導入されつつあるが、別の方 ると考えられる。 向からの考え方として過去の故障事例を有効に 活用する考え方の重要性が近年指摘されている。2.目的 通常、原子力プラントに代表される高度な信頼性 1.本研究では原子力プラントにおける異常事例 が要求されるシステムにおいて異常が発見され に対しテキストマイニング技術を適用し、原子炉 た場合、水平展開という形で故障を起こした機器 プラントにおける異常事例からの知識抽出、故障 と同様の機器を利用している他のプラントで再生起知識の構造化の2点を行い、その有効性を確 点検が行われる。このような事例を活用した保全認することを目的とする。 活動の場合、蓄積されている事例をどのように有 効に活用するかが重要なポイントとなる。計算機 3.手法 技術の発展により、文書情報として故障事例を蓄 本研究では、故障事例から知識を抽出するための手 積することは容易になってはいるが、問題は蓄積 法として以下の方法を適用した。 された情報をどのように有効活用するかという 点である。原子力プラントに関しては、異常事例 3.1. 前処理とキーワード抽出 を記述した報告書は、大量の電子データとして蓄 文書からキーワードを取得するため、処理の第一段 積され一般に公開されているが、表現形式や詳細 階として形態素解析を行った。形態素解析は、文章を 度の違いなどで統一的に整理されているとは言 文法的に解析することで、品詞分解を行う技術であり、 い難いのが現状である。他の産業分野においても、本研究では、形態素解析ソフトウェア「茶筅」を使 社内や業界内で独自の故障事例データベースを 用する。 持つ場合もあるが、それらも同様に表現形式や詳 細度は統一されていない。3.2. 単語の重み判別 このような現状に対して、表現形式を統一した 本研究では文書中における有意な単語を選択 データベースを作成する方向での対処法も考えするために、以下の二つの観点から単語の重要度、 られるが、現実問題としてこれまで蓄積された大すなわち重みを決定した。
_A)単語の頻度による重み付け - 単語を文章集合における頻度を尺度として重 み付けをする手法であり、基本的に頻度が高いも のが優先される。 B)確率的見地による重み付け文書中の単語は文章の意味を決定づける内容 語とそれ以外の一般語に分類され、一般語はその 文章中での出現がポアソン分布に従い、内容語は 従わないと仮定し、その違いから重みを決定する 手法。以上の二つである。3.2.1.単語の頻度による重み付け重み付けの手法には様々な提案がなされてい るが、以下に述べる重み付けを考慮し単語頻度に よる重みを決定する。 (1)文書内頻度に基づく重み li 文書 D, における単語 w; の出現頻度 f」に基づいて 計算され、以下の式で示す。 れ、以下の式で示す。RIDF - log - - log(1 - p<0,,)-8 - wei-oo-!)(fy > 0)fjs = {maxt,-1( =3.2.3.総合指標 本研究では、以下述べた、単語頻度によ(2)大域重み gi 文書集合に対する単語 w; の頻度に基づいて計算 され、以下の式で示す。 以下リハ 小り。RIDI““max djmax RIDF :g; = log ^この総合指標を用いて牽引語の選択を行法を tf.idf 法と言う。この指標は立建山 ただし、N は総文章数、n は単語 w; を含む文書数 (3)文書正規化係数 n; 文書が長ければそれだけ単語の数も増加し、重み が大きくなってしまう。そこで文書の長さによる 影響を排除することを目的とし、以下の式で計算 される。- 50g)-3これら三つの指標に基づく単語頻度による重み 付けは以下の式で表すことができる。三つの指標に基づく単語頻度による重み 以下の式で表すことができる。con, won-low to ““-1““ (and, >0WID +2D) *cowl, w2) %3D-8(Jun, down = 0)d = '98-3.4-1063.2.2.ポアソン分布を利用した重み付け - ポアソン分布は一定の時間や範囲において、ラ ンダムな事象の発生回数を確率的に表現するモ デルであり、以下の式で表される。 (5)P(x;2) = exp(-2)-511 そこで、ある文書における単語の出現頻度分布を ポアソン分布として近似する。ここで入は単語 w; が1文書中に出現する回数の期待値となり、文書 集合の総数をN、単語 w; の大域頻度をF; とすると、 __ = F/N となる。これより、単語 w; が文書中に 出現する確率は P(x;入)となる。よって、実際の 大域重みによる単語の出現頻度と上の式から計 算された出現確率の差を用いた重み RIDF (Residual inverse document frequency)を計 算することによって、ある単語における頻度分布 の偏りが把握できる(6,71。以下にその式を示す。RIDE, - log - - log(1 - P(0; 2; )- 8. - loa(op(-)3.2.3.総合指標 1. 本研究では、以下述べた、単語頻度による重み 付けとポアソン分布を利用した重み付けを組み 合わせた総合指標を利用する。その式を以下に示す。Wijdi RIDF max d. max RIDF :この総合指標を用いて牽引語の選択を行う手 法を tf.idf 法と言う。この指標は文書中の単語 出現頻度のランダム性と文書に依存した偏りを 総合的に取り入れた指標であると考えることが できる。3.3. 共起度 - 共起度とは文書中における単語間の結びつき の強さを表すもので、情報検索分野において一般 的な概念である。本研究では単語間距離と前節で 示した総合指標に注目した式を使用する。単語間 距離を 1.1.2とし、文書 D, における全体の長さを L; とすると、共起度は以下の式で計算される。Table 1 対象事例51プラント名 件名発生日時 ジェットポンプA系流量変動に 平成6年 福島第二原子力発電所3号機 伴う原子炉手動停止について 5月29日シュラウド中間部リングひびに 平成6年 21 福島第一原子力発電所2号機 ついて6月29日 蒸気発生器伝熱管の損傷につい 平成7年 伊方発電所1号機5月29日 タービン制御油漏えいに伴う原 平成7年 柏崎刈羽原子力発電所5号機 子炉手動停止について7月13日 格納容器サンプ水位上昇に伴う 平成7年 美浜発電所3号機 原子炉手動停止について10月13日 第6A高圧給水加熱器細管漏えい 平成8年 6| 高浜発電所2号機」 について1月14日 湿分分離加熱器逃し弁の損傷に 平成8年 伊方発電所3号機 ついて1月6日 B-主給水制御弁点検に伴う原子 平成8年 高浜発電所1号機 炉手動停止について2019/11/26ジョットポンプ入り口配管のひ 平成8年 19 | 福島第一原子力発電所1号機 | びについて12月24日 化学体積制御系配管からの漏えいに伴う原子炉手動停止につい 平成9年) 敦賀発電所2号機10月13日 中性子計測ハウジングのひびに 平成9年 福島第一原子力発電所4号機 ついて10月13日 昇圧変圧器保護継電装置の動作 平成8年 高浜発電所2号機による原子炉自動停止について | 3月15日以上より、各事例における共起度を要素とした文 書行列を作成した。次に文書行列群からの知識抽 出について述べる。行列表現された事例群から同 じ行をそれぞれ抜き出し新たな行列を作成し、そ の行列に対して主成分分析を用いて知識抽出(知 識ベクトルと呼ぶ)を各行ごとに行った。そして、 知識ベクトルを足し合わせた知識行列を用いて 復元行列を求める。復元行列は以下の分散・共分 散行列の主成分分析の性質を利用し作成した。あ る文書行列Dにおける、ランクRの1行目を DRi 、 i行目に対する知識ベクトルを D'p; とするとき、 その内積 S には次の関係が存在する。DRi Sri D'R これによって知識ベクトルから文書行列を復元 することができる。このとき複数の固有ベクトル を求める基準として、累積寄与率を 80%としてい る。3.4. 構造化手法ここでは得られた知識をどのように構造化し、 提示するかについて述べる。ある文書行列 D の復 元行列 D' を用いて、自分自身との内積を求め最 上位にある行を選択し、その中で値の大きい上位 3つのキーワード(wow.W.) を選択する。 さらに、(wowowp)以外でwとの共起度 が上位3つのキーワード(ws、Wtnws)を選 択する。(WoWoWr、WS、Wt、W5)以外 でw。との共起度が上位3つのキーワード(Wx、 ww.wy)を選択した。4. 適用結果 4. 1. 異常事例文書からの知識抽出 - 3.述べた知識抽出方法の有効性を確認するた めに、適用事例として以下の原子力プラントトラ ブル事例 12 事例を用いた。このとき既存事例を No1-No10 まで、新規事例 を No11,12 とした。No11 は既存事例の中に類似事 例が存在しておらず、No12 は類似事例が存在して いる。このとき知識行列の有効性の確認方法とし て、文書行列と復元行列とのコサイン尺度(情報 の損失なく知識ベクトルを作成しているかどう か)、知識ベクトルと新規事例の文書行列とのコ サイン尺度(これまで得られた知識で新規事例を どの程度説明できるかどうか)を用いた。表 4.2 に適用結果を示す。 - 10 事例を既存事例とした場合、10 事例中に類 似事例が存在しない No.11 のコサイン尺度が小さ くなっており、これはこの事例がこれまでの事例 とは異なる新規事例であることを示している。Table 2 抽出知識の有効性検証結果既存事例の コサイン尺度事例 No11の コサイン尺度事例 No12の コサイン尺度既存事例総数0.920.180.4110事例 12 事例 (No11,12 を含む)0.930.940.9410 事例を既存事例とした場合、10 事例中に類 似事例が存在しない No.11 のコサイン尺度が小さ くなっており、これはこの事例がこれまでの事例 とは異なる新規事例であることを示している。こ れに対して、No.12 のコサイン尺度は No.11 に比 べると高いことから、既存事例中に類似の事例が 存在していること示唆している。12 事例を既存事 例とした場合は、No.11,No12 に対するコサイン尺 度はともに高くこれらが既存事例中に含まれる ことを明確に示している。この結果から、提唱手 法は事例の意味的な類似度を良好に判別してい ることを示している。4.2. 故障知識の構造化 - 次に、故障生起知識構造化の有効性を検証する ため、提唱手法を表 4.1 の事例群に適用した。例 として事例 No.1 への適用結果を以下に示す。No.1 はジェットポンプビーム部の折損事故である。事 故の原因はジェットポンプビーム取り付け時に わずかな位置ずれを生じ、応力腐食割れを起こし たためである。図1より、「ビーム」、「小片」107などの現象面での構造化されており、「ビーム」 から「応力」「割れ」など異常事例がどのように 起こったか、その原因の関係が構造化されている ことが示されている。[ビーム][小片][ジェット]ジェット応力割れ腐食ずれ据付応力腐食割れ「南 「感謝れ) 「南南7. 参考文献ずれ据付応力腐食割れFig.1Cause-Consequence Relationship of Failure Event No.1[1]高橋信,“ 識処理技術の [2]尾暮拓也, 暗本的データ」5. 考察 . 本研究では、キーワードの重要度を2つの相反 する統計的手法を用いることにより表現するこ とで、特異性と一般性の間でのバランスのとれた 重み付けが可能となった。また、本研究において 異常事例をキーワード間の関連度である共起度 を用いて行列化することを提案しているが、これ により異常文書を共通の次元で評価でき、コサイ ン尺度による文書間の意味的比較も可能となる 手法であることを確認した。知識抽出によって得られる知識は人間によっ て理解・把握されるべき知識であり、この知識を どうやって人間に伝えるかが重要な問題として 挙げられる。人間にとって理解しやすいように、 故障生起知識の構造化においては、キーワードを 9個に制限しているが、人間が見過ごしているよ うな因果関係を見いだすためには、更に広範囲に 表現を行う必要があると考えられる。6. 結論 * 大規模複雑システムの保全活動における既存 知識の有効活用のため、蓄積された異常事例文書 に対してテキストマイニング技術を適用し、以下 の知見を得た。・原子炉プラントにおける異常事例からの知識獲得本研究で提案した知識抽出手法は事例間の類 似度・特異度の判定、新事例からの新知識の 発見などの点において、有効であることを確 認した。・故障生起知識の構造化本研究で示した構造化手法は、異常事例から 少数のキーワードだけで故障知識を構造化し うる可能性を示した。今後は、より広範囲の事例に対して本手法を適 用しその有効性を更に検討する予定である。最終」 的には、多くの産業分野の事例を集積しそこから 構造化された故障生起に関する知識を統合的に 抽出し、広範囲に異常発生の可能性を検討する方 策に結びつけていく予定である。[1]高橋信,“原子炉運転員支援高度化のための知 識処理技術の開発”(1991) [2]尾暮拓也,“プラント診断知識導出のための故 障事例データベース構築の基礎研究”, (1997) [3]砂山渉, 大津幸生,谷内田正彦, “KeyGraph キ ーワノード抽出ツールから発見ツールへの展開”, 発見科学とデータマイニング,共立出版, 2000, pp.45-pp.53 14]豊田正,芝山悦哉, “ズーミング技術を用いた 対話的情報検索インタフェース““, 発見科学とデ ータマイニング,共立出版, 2000, pp.262-pp.271 15]茶筅,““http://chasen.aistOnara.ac.jp/index.html.Ja”16]北研二,津田和彦,獅々堀正幹著,“情報検索 アルゴリズム”, 共立出版(2002) [7]松倉健志,“文書の話題構造と文書間の意味的 関連の発見にもとづく Web 検索に関する研究”, (2001) -108“ “テキストマイニングによるトラブル事例情報の有効活用“ “高橋 信,Makoto TAKAHASHI,内松 洋輔,Yousuke UTIMATU,加須屋 秀彰,Hideaki KASUYA,北村 正晴,Masaharu KITAMURA“ “テキストマイニングによるトラブル事例情報の有効活用“ “高橋 信,Makoto TAKAHASHI,内松 洋輔,Yousuke UTIMATU,加須屋 秀彰,Hideaki KASUYA,北村 正晴,Masaharu KITAMURA
著者検索
ボリューム検索
論文 (1)
解説記事 (0)
論文 (1)
解説記事 (0)
論文 (0)
解説記事 (0)
論文 (1)
解説記事 (0)
論文 (2)
解説記事 (0)
論文 (2)
解説記事 (0)
論文 (1)
解説記事 (0)
論文 (2)
解説記事 (0)
論文 (0)
解説記事 (0)
論文 (5)
解説記事 (0)
論文 (5)
解説記事 (0)
論文 (0)
解説記事 (0)
論文 (0)
解説記事 (0)