| EP-Cluster Suite |
|
EP-Cluster Suite は,プロジェクトデータの定性的分析補助のために,自然語で記述された文書のクラスタリングを行うツール集です.EPM によって収集されるメールやバグレポートなどは膨大な数に上るため,これを短期間で解析するためには,あらかじめ機械的に分類されている必要があります.EP-Cluster Suite はこの機械的な分類を実現するツール集です.EP-Cluster Suite は階層型クラスタリングツールとSOM クラスタリングツールから構成されます. 両ツールとも, メールやバグレポートなどの開発文書群への参照情報を記述したファイルと,各文書のベクトル表現を記録したファイルをツールの入力として与えることで,文書の内容に基づいたクラスタリング結果を出力として得ることができます.以下に各ツールの概要を示します.
階層型クラスタリングツール
階層型クラスタリングツールは,一般的によく用いられる幾つかの階層型クラスタリングアルゴリズムから一つを選択して実行することができます. また,ベクトル間の距離尺度の関数についても,各種文献で論じられている一般的な尺度が用意されており,そのなかから選択されたアルゴリズムと矛盾しない尺度が選択できます.また,分析対象が膨大であっても分析を可能にするために,高速・省メモリなアルゴリズムであるK-means 法によって大まかなクラスタリングを行ったのちに,任意のクラスタリングアルゴリズムを適用するという手法で処理時間を短縮させることも可能となっています.
SOM クラスタリングツール
SOM クラスタリングツールは,SOM(自己組織化マップ)を用いて文書分類を行うツールです.SOM は固定長のセルにベクトルを順に入力させることで類似度の高いベクトルを凝集させていくアルゴリズムであり, 可視性に優れた出力を得ることができます. 本ツールでは2 次元マップによる表示が可能であり,セルの数や近傍の定義,初期値の決定方法等の詳細な学習ルールを設定することができます.
|
|
主な関連文献
|
|
Kimiharu Ohkura, Keita Goto, Noriko Hanakawa, Shinji Kawaguchi, and Hajimu Iida, “Project Replayer with email analysis - revealing contexts in software development,” Proc. 13th Asia Pacific Software Engineering Conference (APSEC'06), pp.453-460, Bangalore, India, December 2006.
|
|
|
Kimiharu Ohkura, Paul. S. Grisham, Hajimu Iida, and Dewayne E. Perry, “Context Analysis of Historical Process Data with the Project Replayer,” Proc. Workshop on Accountability and Traceability in Global Software Engineering (ATGSE 2007), pp.41-42, Nagoya, Japan, December 2007.
|
|
|
Kimiharu Ohkura, Shinji Kawaguchi, Noriko Hanakawa and Hajimu Iida, “Email and Trouble Report Analysis for Revealing Context with the Project Replayer,”Proc. 14th Asia-Pacific Software Engineering Conference (APSEC 2007), pp.569, Nagoya, Japan, December 2007 (Research Poster).
|
|
|
大蔵 君治,後藤 慶多,川口 真司,花川 典子,飯田 元,“ソフトウェア開発における知識還元のためのプロジェクト再現ツール,” ソフトウェアエンジニアリングシンポジウム2006論文集,pp.75-78,October 2006.
|
|
|
大蔵 君治,大西 洋司,川口 真司,大平 雅雄,飯田 元,松本 健一,“メールスレッドのクラスター分析によるOSSプロジェクトのアクティビティ予測手法,” 電子情報通信学会技術研究報告,SS2007-37,Vol.107,No.275,pp.41-46,October 2007.
|
|
|