Kuromojiは何で研究にあまり使われないのか?

今回は(現在の所は)日本語形態素解析器であるKuromojiについて気になったことに関しまして少し独り言みたいに考察します。Kuromojiは中の人を知っているので少し贔屓目に見ている部分もあると思いますが、一応ステマではないつもりです。

今回ふと思った疑問:何故Kuromojiが研究で使用されている場面が少ないのでしょうか?

Kuromojiは僕が前にお世話になっておりましたアティリカ社の開発したプロダクトの内の一つです。SolrやElastic SearchといったJavaベースの検索システムの形態素解析器として広く使われております。

この形態素解析器はNLPでも多くの研究がなされ、研究コミュニティにおいてはJUMAN、Cabocha、MeCab、Kyteaといった形態素解析器が多く発表されています。これらとKuromojiとの違いは「Research-drivenかEngineer(Business?)-driven」かが大きく影響していると思います。

形態素解析器そのもの解説と歴史は

等の別の資料に譲ります。

このKuromoji、僕がざっと検索した限りではNLPのトップカンファレンスの一つであるEMNLP2013に出たGender Inference of Twitter Users in Non-English Contextsぐらいしか有名所会議の論文では使用されていませんでした。(僕のサーベイ不足でしたら申し訳ございません。あとはIJCNLP2013のワークショップに出た論文がありますが、、、)

MeCabのページに各種日本語形態素解析器の比較表ありますが、この表に沿いましてKuromojiを評価されている方がいらっしゃいましたのでリンクを貼らせて頂きます。
Kuromojiを調べてみた | @johtani の日記
ただ2011年と少し古い記事ですので更新されている部分もあるかと思います。

そこでもう少し検索し、LuceneにおけるKuromojiのIssueを見てみますと、「Kyotoコーパスを学習に使っているよー」といった趣旨のコメントがありました。ということはコスト推定においてきちんと機械学習でコストを学習しているように思えます。

ただGithubで公開されているレポジトリに学習方法のコードが付属していません(MeCab0.996ではLBFGS法のコードが付属しています)。おそらくデモで公開されているのは何らかの学習方法を用いて学習し公開されたものなのでしょうが少なくともわかりやすい形でオープンになっていないみたいです。

数時間ググってコード以外で中身の情報が出てきたのはこんな感じでした。あとはコードが公開されているのですが、一人でハックするのには結構時間がかかると思います。。。ここから自分が感じた結果、「中身具体的にどうなっているかはコードをハックするか、開発者に聞かないとわからないじゃん!」ということです。

これはやはりリサーチコミュニティとしては「具体的な中身や背景までわかって、既存手法との比較がないと比較も考察もできない」ということに対し、オープンソースコミュニティでは「性能が良さそうで、SolrやElastic Searchとの親和性が高いからいいじゃん!わからなければ開発者に聞けばいいしね!」という意識の差もしくは作られた目的が違うが故の差なのでしょうか?もしくはビジネスの関係で評価データを公開しないことでしょうか?

僕自身、研究コミュニティにおいてもオープンソースコミュニティにおいても、大きな流れをつかめていないので結論ははっきりとだせないのですが、文化の違いなのかな、というのが漠然とした自分の中での今の結論です。どうなんでしょうか?