論文ハイパーリンク・データベース(案)

一躍脚光を浴びたSTAP細胞論文に様々な疑義が出ている。現在問題になっているのは主に(1)論文の追試で結果が出ない(2)論文の画像に不審な加工痕が見られる(3)著者の博士論文に他所からの丸々コピーな部分が認められた、といった辺りだ。
今回の論文「書き方の問題」なのか、それとも「そもそも捏造」なのかは結論が出ていないが、それ以前に論文の/著者の信頼性が揺らいでいる。
まあ個別の事件について何か言いたいわけではない。私の関心はむしろ論文のチェック体勢の方にある。

博士というのは「人類の知識に新たな発見を付け加えた」人に対する号であり、博士論文はなによりも新規性が求められる。その博士論文で「研究の背景」についての説明が丸々コピーであることが今まで発覚しなかったというのは、「新規性のチェック」自体についても問われてしまうことになるだろう。
その意味で、事は既に著者個人の、あるいは今回の論文ひとつに留まらず、むしろ日本の科学界自体の信頼性が問われている──と言ったら言い過ぎだろうか。

ところで論文というのは常に公開されるもので、なおかつ過去の類似/先行研究により得られた知見を引用して成り立つものだ。
適切な引用であれば必ず「内容の引き写し」と「引用元の提示」がある。そして論文の価値は、いわば「他の論文でどれだけ引用されたか」で決まる、という面がある。
ならば、引用の仕組みをハイパーリンク化するのはどうか。論文を書くにあたり参照先論文と引用部分を示すと論文内に自動展開されるようにする。参照元が自動的に明示されるし、論文の被参照数も動的に計測される。
また適切な引用ではないコピーが行なわれた場合でも、論文内の全文が統計的にチェックされ類似性の高いものを洗い出し、閾値を越えて同一表現が登場するものが炙り出される。チェック機能は文字だけでなく画像などのデータについても適用され、同一画像からの加工や画像の剽窃なども指摘される。
ついでにこの機能は先行研究との比較にも使えるので新規性を確認しやすくなる。

もちろん、こんな機能を実現するにはあらゆる論文を網羅したデータベースが必要になるし、現状は引用処理が上記のようにはなっていないので単純な全文比較では大量に類似指摘が出てしまうが、こういうやり方が浸透すれば、少なくとも安易なコピーは抑えられるのではないだろうか。


……まあ素人の思い付きに過ぎないので、そうそう上手く行くかどうかは怪しいものではあるけども。