| NEEDLE |
|
NEEDLE は相関ルールマイニングツールであり,エンピリカルデータに含まれる数値を扱いやすくするための機能を持ちます.相関ルールマイニングは,データマイニング手法の基本的なものの一つであり,大量のデータの中から「A ならばB」というルール(相関ルール)を抽出する技術です.よく知られている適用例としては, 小売店POS システムの販売履歴データなどから,顧客の購買傾向やパターンを洗
い出し,販売戦術に活用しています.
NEEDLE は「項目定義作成機能」「前処理機能」「ルール抽出機能」「例外ルール抽出機能」「ルールフィルタ機能」から構成されます.項目定義作成機能は,対象データを量的(数値),質的(カテゴリ)に自動的に判断する機能,前処理機能では,量的データを離散化する機能を持ちます.ルール抽出機能は,前処理済の元データに含まれる規則性を「A → B(A ならばB)」の形式で, 与えられた出現頻度以上のものを全て列挙します.例外ルール抽出機能は,常識ルール(出現頻度の高いルール)を少し変形することで得られる滅多に起こらないルールを抽出する機能です.
抽出したルールはエンピリカルデータに含まれる規則性や傾向を表しています.この中から,開発担当者やエキスパートの実感にあうルールを探し出せば,ソフトウェア開発の知識として役立てることができます.特に例外ルールは,ほとんどの場合にあてはまる経験則や規則があてはまらないという例外であり,チェックリスト作成等に役立てることができます.
分析対象をソフトウェアエンジニアリングリポジトリ全般とし,民間8 社のデータに適用しました. そのうち,不具合管理票,プロジェクトデータ,ソースコードメトリクスと品質データ, 障害対応データ,品質データ(4 つの試験工程それぞれでの不具合検出密度,チェックリスト指摘密度,開発規模)について外部発表しました.
ここでは, 情報処理学会論文誌,Vol. 48, No. 8, pp. 2725-2734 に掲載された”Mining Quantitative Rules in a Software Project Data Set” の例を述べます.プロジェクト対象は日本ユニシス株式会社で実施された 37 のプロジェクトの特性(プロファイル)に関する21 種類のデータです.適用の結果,出現頻度が0.5%以上の相関ルールが約4,000 個得られたが,ここではそのいくつかを紹介します.
ルール1:
(顧客=既存顧客)and(業種=開発実績あり)→ 外部委託比率(平均: 0.37, 標準偏差 0.11)
ルール2:
( 開発種別=新規)and(ピーク要員数=最小)→ 外部委託率(平均: 0.12, 標準偏差 0.06)
|
|
ルール1と2は,それぞれ,分析対象組織において外部委託率が最大になる場合と最小になる場合の条件(プロジェクト特性)を教えてくれています.つまり,その組織では,開発実績のある業種の既存顧客向け開発で,外部委託比率は平均37%で最大となり, 逆に, 新規開発でピーク時でも開発メンバの増加が最小限にとどめられるような場合に, 外部委託率は12%で最小となります.
こうした事実を知っていれば,プロジェクト計画立案/ 見積り時に外部委託比率の妥当性の議論や確認が可能になります.また,もし,その組織が,外部委託率を組織全体として上げたい,あるいは,下げたいと考えているならば,どのような特性を持つプロジェクト向けに対策を取るべきかがはっきりします.
|
|
主な関連文献
|
|
森崎 修司, “エンピリカルデータを対象とした相関ルール分析ツール NEEDLE,” 第10回エンピリカルソフトウェア工学研究会発表資料, October 2006.
|
|
|
森崎 修司, “相関ルール分析ツールNEEDLE - バグ票とプロジェクトデータへの適用事例-,” 第14回エンピリカルソフトウェア工学研究会発表資料, October 2007.
|
|
|
森崎 修司, “NEEDLE説明資料,” NEEDLE 利用説明会発表資料.
|
|
|
Shuji Morisaki, Akito Monden, Haruaki Tamada, Tomoko Matsumura, and Ken-ichi Matsumoto, “Mining Quantitative Rules in a Software Project Data Set,” IPSJ Journal, Vol.48, No.8, pp.2725-2734, August 2007.
|
|
|
Shuji Morisaki, Akito Monden, Tomoko Matsumura, Haruaki Tamada, and Ken-ichi Matsumoto, “Defect Data Analysis Based on Extended Association Rule Mining,” Proc. 4th International Workshop on Mining Software Repository (MSR 2007), pp.17-24, Minneapolis, MN, May 2007.
|
|
|
十九川 博幸,森崎 修司,松村 知子,門田 暁人,松本 健一,“相関ルールを用いたシステム障害対応データの傾向分析,” 情報処理学会第70回全国大会,March 2008.(掲載予定)
|
|
|