ソースコードを対象にしたデータマイニング

ソースコードを対象にしたデータマイニングってないかな。
コードの重複や、同じパターンが頻出するのを自動的に調べてくれるようなの。

これが出来ると、初心者でもリファクタリングしやすくなるよね。
あるいは、例えばこのパターンは Rails で何件、tDiary で何件、Hiki で何件あります、これだけ使われているからこのパターンは Ruby 本体でメソッドとして定義しましょう、みたいなことに使えたり。

どちらかというと、バイオインフォマチックスでいう塩基配列の類似性を検索するのに近いのかな。塩基配列を検索するかわりに、バイトコードで類似性検索する。ちょっと違うか。