論文誌のPersonalized PageRankであるEigenfactorというものを見つけてしまった

今回はEigenfactorのことを調べた。あとそのまえにWordPressのアップデートとか、WordPressに載せるの忘れてた前の2回分の作業ログを載せたりとかした。

「Eigenfactor」というのは、前回の出勤のときに、トムソンのインパクトファクターを実際みたことがなかったので、東大図書館でJournal Citation Reportというものを出して実際のIFを見てみよう！として、そのときうかつにもはじめて知った。
正確には、うかつにも、とか寡聞にして、じゃなく、単に怠惰なためにこのときにはじめて知ったのですが。トムソンのいうことには「学術界で広く受け入れられている」指標ということ。
JCRに載っている指標にはIFとか5年IFとか以外にも、いくつかあるのでした。

それにしてもEigenfactorというのは嫌な予感しかしない、そのまんまなお名前である。
なので、それが今回どういう手法なのか調べて、嫌な予感が的中したっぽいことを確認した次第である。

Eigenfactorは、おおざっぱにいうと雑誌間のPageRank *1みたいなもので、名前通りいわゆる

"the first principal component(the eigenvector with the largest eigenvalue)"
主固有ベクトル(絶対値最大の固有値に対する固有ベクトル)

な感じである。

まずかんたんに、top 10だけ見てみましょうか。

http://www.eigenfactor.org/top10.htm

一方、おれがやってた論文PageRankスコアを平均してみた場合だと、ふつうにやるとうまいこと結果が出ないので、掲載数1万件以上という条件をつけてみる

http://g86.dbcls.jp/~flashingwind/pagerankedmedline/index.php/toparts/journalavg/10000

…それでもこの差！

ううむ…。MEDLINEとJCRのデータセットの差もあろうが…。
あと5年間で計算していることと…。

Eigenfactorアルゴリズム

We also compute an article vector a, where a_i is the number of articles published by journal i over the five-year target window, divided by the total number of articles published by all source journals over the same five-year window.
Some of the journals listed in the H matrix will be dangling nodes ? journals that do not cite any other journals. Any column of the H matrix that has all 0 entries is a dangling node; we replace all such columns in H with the α vector to produce a new modified matrix H'. This is a stochastic matrix by construction. H corresponds to a random walk on the scientific literature as described above in "A Model of Research." From this, we construct a new stochastic matrix, P:
$\rm{P}=\alpha \rm{H}'+(1-\alpha )\bf{a}\mathbf{e}^T$

…あ。っていうか、これ Personalized PageRank じゃんか。どうりで見覚えがある数式ばっかりなわけだ…。
右辺の定数項のとこが、

(Original) PageRankだと $\bf{ee}^T$
Personalized PageRankでは $\bf{ae}^T$ 、 $\bf{a}$ は必要な要素数をもった任意のベクトル

となります。
ちなみに「Like Google, we use α=.85」だそうです。α=.85なのはおれも同じ値にしてる。

この「 $a_i$ が雑誌 $i$ に5年以内に掲載された論文数( $a_i$ is the number of articles published by journal $i$ over the five-year target window)」である、ベクトル $\bf{a}$ によって調整(Personalized)しているあたりがEigenfactorの特徴。
ちなみに、おそらく掲載論文数が多い方がおおむね有利。なぜならループ( $\rm{H’}$ の対角成分)の割合が大きくなるから。
この辺がおれの計算した単純な(Originalの、Personalizedでない)PageRankとの違いだと思う。
そして、たしかに(感覚的にIFに近い思想でもってランキングするならば)、おれみたいに「掲載論文数1万件以上」で後から直接絞り込んだりするよりもPersonalized Vector: $\bf{a}$ を導入する方が、スマートというか、エレガントである。

しかし、もちろん、そもそもグラフが、おれは論文単位、あっちは雑誌単位。それを比較したとき一致するのはほぼ不可能なことであって、だからランキングが違うのは、あたりまえであまり理論的意味はない。といえなくもない。
とはいえ、そういう問題ではなく、論文誌をランクづけするという意味では、やはり現実的には、IFに対するのと同じかそれ以上に関連があるだろう。

というようなことを、このあと夜道を歩きながら考えていたら、ふと、なんか、そもそも平均じゃなくて合計でもいいような気がしてきて、実際、eigenfactorで見られている指標は合計スコアの方が近い値になるんじゃないかとか思えてきた。平均はあくまでも平均として、なんらかの指標として使えるかもしれないけども。
このように論文誌同士を比較したいならば(全論文がDBにあるなら)合計の方が「正当」な感じがしてきたというか。

まあ、それも含めて、おれのやることの今後の方針について、何らかの再検討が必要なのは明らかなのであって、ああどうしよう…。

*1:ただし、ハイパーリンクではなく引用による