シェークスピア作品を探し当てるには?
Tiffany Trader

シェークスピアの文例データベースのなかでは、”all”がもっとも少ないということをご存知だろうか?あるいは、”you”や”there”のような共通用語が、多めに使われているのか、少なめなのかが、個々の書き手のスタイルを特徴づける印しになるのだろうか?
書くプロセスには、雪の結晶や指紋のように一人一人に特有の語彙の一覧や特長が歴然と現れるものである。十分な量のデータと分析するにふさわしい定量的な方法論さえあれば、記述スタイルの微妙な違いによる、言語的な傾向や心理学的な状況、原作者の特定でさえも、明らかにできる。
非営利の科学雑誌PLOS ONEに掲載された記事では、この話題がより詳しく調査されている。著者らは16世紀から17世紀に書かれた168の脚本から55,055の特長的な語を含むテキスト文例データベースに、ランキング法を適用したのである。
研究者たちは、John Fletcher、Ben Jonson、Thomas MiddletonとWilliam Shakespeareの言語リストと、この分析リストを相互チェックし、20の最も使われる頻度の多いリストと少ないリストを作成したのである。
「この新たな方法を用いた結果は、鼓舞するのに十分なものだった。」と、研究者たちは、彼らの仕事について、振り返っている。「シェイクスピアのように、何人かの著者には、特定の語を使う頻度が少ないという特徴があり、頻度の多い語よりも、マーカーの役割を果たすのです。」
シェイクスピアのもっとも使用頻度の少ない語は、all、to (不定詞), now, とyeであった。 彼の最も頻度の多い語としてランクされたのは、thee、you とdidであった。最も頻度の多い語は、will(名刺)、thee、you、didであった。Jonson とMiddletonは、”ye”を使うことはまずないが、Fletcherには当てはまらない。彼は、同世代の著作者たちに比べて、この語を好んでいる。
雑誌記事の著者たちは、こういった語の統計的な違いを、“作家の創造的な知性を明確に測定するために定量化可能なマーカーとして活用している。”
興味深いのは、記述のスタイルは、思考よりも素早く無意識なプロセスに結びついていて、"頻度の多さや特定の共通用語や言い回しが使われないの傾向”に、集約されることです。用語頻度のような定量的な手法を使って、テキスト本体に潜む知的情報を見つけ出すことは、計算的文体論として知られています。
計算機による言語研究で用いられているのと同じ方法が、実は、癌や他の病気と闘うのに役に立つ生物医学データの分析に使われているのである。言語的なスタイルが一意的なマーカーになっているのと同様に、医学研究における生物学的なマーカーになっている。研究者たちによると、これははすべて、“大量のデータに内在する特性の繊細な変動の定量化”に帰着している。“