SSブログ

Excel「お節介機能」のせいで遺伝子名を変更(20/08/30) [ニュース]

 マイクロソフト製表計算ソフトExcelに搭載されたオートコレクト機能のせいで遺伝子の論文にエラーが多発したため、ついに科学者側が折れて遺伝子名を変更することになった。
 このエラーは、主に遺伝子の略称を日付に変換するというもの。例えば、ヒトのタンパク質Septin2をコードする遺伝子「SEPT2」は「2-Sep(9月2日)」に、Membrane associated ring-CH-type finger 1の遺伝子「MARCH1」は「1-Mar(3月1日)」に勝手に変えられてしまう。こうした誤変換は2004年に最初に指摘されており、それ以降、件数は増加の一途をたどっているとのこと。マーク・ジーマンの調査(2016)によると、学術論文3597件のうち、704件でExcelによる遺伝子名エラーが発生していた。遺伝子のデータを入手するために「SEPT2」のような略号で検索をかけた場合、誤った結果を得ることになりかねない。
 オートコレクト機能はマニュアルで解除可能だが、デフォルトでオンになっているため、多くの科学者がそのまま使用しており、誤訂正の多発につながったようだ。結局、ヒトゲノム命名法委員会は、今年8月3日にデータの扱いや検索に影響を与える略号を変更することを決定、これにより、「SEPT2」は「SEPTIN2」、「MARCH1」は「MARCHF1」と表記されることになった。今後略号を決める場合も、「ソフトウェアがミスを犯さないように配慮すべし」というガイドラインが示された。
 今回問題となった日付のケースは、これまで地域によって略し方が異なり混乱の元になっていた。「11/12/13」は、アメリカでは2013年11月12日、イギリスでは2013年12月11日になる。日本人がよく使う「13-12-11」は、国際的には通用しない。マイクロソフトが日付を強制的に変更する仕様にした意図は、わからなくもない。
 ただし、アプリが自動的な訂正を行う際には、必ず守るべき大原則がある。それは、訂正した箇所を明示し、人間がそれは誤った訂正だと判断したときには、元に戻せるようにすることである。論文中に遺伝子の略号と日付が混在していて、それらが全て「2-Sep」に変換されてしまった場合、簡単な操作で遺伝子か日付のいずれかに正しく戻せなければならない。アプリによっては、オートコレクトが上書きとなっており、誤訂正の訂正が不可能な場合もあるので、注意が必要となる。

【補記】筆者(吉田)も、各種アプリに搭載されたオートコレクト機能に悩まされてきた。多くのワープロには、行頭の数字を連番に変更する機能があるが、うっかりこれをオンにしたまま執筆していたとき、「第×章を参照」という文言が行頭に来たため、章番号が勝手に変わっていたことがある(元に戻せなかったため、どの章か改めて検索しなければならなかった)。
 日本語入力システムでは、AI学習のせいで奇妙なかな漢字変換が生じることがある。宇宙論の記事で「てんたい」がいきなり「転貸」と変換されたときには、びっくりして何を書こうとしていたか忘れてしまった(直前の文章に経済と関連する用語が含まれていたらしい)。最近では、アプリの使用を開始する段階で、メニュー-オプションを隅から隅まで調べ、オートコレクトとかアシストといった機能(特に、AIなどという怪しげなものを持ち出す場合)はほぼ全てオフにしている。


//////////////////////////////////////////////////////////////////////////////////////////////////// 姉妹ページに「科学と技術の諸相 -Q&A-」があります。


この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。