bayon

bayonは汎用的に利用できるデータクラスタリングツールで、現在は Repeated Bisection法とk平均法(k-means)に対応している。シンプルな構成で、かつ大規模なデータに対しても高速に実行できるところが特徴。大量のデータを俯瞰したいときに、似た者同士のグループにサクッと分けて確認する、といったときに使えるツール。

bayonが採用しているクラスタリング手法は、所属するクラスタが1つのみになるハードクラスタリングの手法ですが、別途各クラスタとドキュメントとの類似度を測定することで、所属度を持ちつつ複数のクラスタに所属するソフトクラスタリングと同等の結果を得ることもできる。

bayonのインストール方法

bayonに関する参考資料

関連