カテゴリー

  • 日記・コラム・つぶやき
  • 経済・政治・国際

« 小学生の風船の手紙、校長先生に拍手--心理、教育、社会性の発達(43) | トップページ | ユーザを待たせないアルゴリズムへ「世界初MMLシステム-その2」--アルゴリズム戦記(18) »

「テキスト類似度・飯箸法」がアピール、第16回次世代大学教育研究会「知の発掘」(東京)--感性的研究生活(25)

2007/08/07
「テキスト類似度・飯箸法」がアピール、第16回次世代大学教育研究会「知の発掘」(東京)--感性的研究生活(25)

第16回次世代大学教育研究会「知の発掘」(東京)が明治大学12号館で開催された。
松木俊之氏(ジャストシステム法人ビジネス部)によるチュートリアル「体感するテキストマイニング」がメインの研究会であるが、テキストマイニングと言えば、テキスト類似度の汎用的尺度「飯箸法」の開発者にも発表させないわけには行かない、というわけで、プログラムの最後に申し訳程度の時間が加えられていた。

第16回次世代大学教育研究会「知の発掘」(東京)
--------------------------------------------------
【主催】
 次世代大学教育研究会 http://groups.yahoo.co.jp/group/next-edu/
 明治大学情報基盤本部 http://www.meiji.ac.jp/isc/
【日時】2007年8月7日(火) 13:30-18:30
【場所】明治大学駿河台校舎12号館★9階メディア教室1★
 会場へは、JR御茶ノ水駅か地下鉄神保町からが便利です。
 駿河台校舎までの地図は下記をご覧ください。
 http://www.meiji.ac.jp/koho/campus_guide/suruga/access.html
 会場の12号館というのは、大学会館の隣になります。
 http://www.meiji.ac.jp/koho/campus_guide/suruga/campus.html
■タイムスケジュール
 ・13:30-13:50「未定」
   家本修(大阪経済大学経営情報学部)
 ・13:50-15:00 チュートリアル「テキストマイニングの概要」
   松木俊之(ジャストシステム法人ビジネス部)
  (休憩)
 ・15:15-16:45 チュートリアル「体感するテキストマイニング」
   松木俊之(ジャストシステム法人ビジネス部)
  (休憩)
 ・17:00-17:50「未定」
   田村恭久(上智大学理工学部)
 ・18:00-18:20「テキスト類似度」
   飯箸泰宏(明治大学法学部)
  (移動)
 ・18:30-20:30 アミにて懇親会
--------------------------------------------------

まず、会長の家本先生の概説があり、家本先生が、若いころ林先生らの数量化理論のパッケージを大阪大学に持ち込み、そのお守りをされたというお話があった。
当然のことだが、松木俊之氏のお話は、ジャストシステムの製品売り込み営業が半分含まれていた。この部分を差し引いても、十分面白い内容で、最後まで、眠くならずに参加者は付いてゆくことができた。
「テキスト類似度」についても、参加者の多くは関心があり、たとえばグーグルと富士通が提携してすでに製品化しているシステムやこれから製品化するものなどについて、雑談や質問の中で語られていた。飯箸氏の発表もこれらと同等のものであろうとの推測の上で、内容はたいしたことはあるまいという雰囲気が流れてリラックスした軽口発言が交わされていた。
飯箸氏は、壇上で話し始めると、家本先生と同時代を同じようにたどってきたことに触れて、大学を卒業する直前、東海村の原子力研究所の中性子線照射実験のスケジュールの都合上、半年のブランクが生まれて、学費と生活費稼ぎのために、当時の有名技術系システムハウスの研究員の肩書きを持つ名刺をもらって、日本経済新聞社に数量化ⅠⅡⅢ類や主成分分析のプログラムをパッケージ化して納品するアルバイトをした経験を語った。数値計算には十分すぎる実績である。聴衆の視線は熱くなり、会場は少し静かになった。
飯箸氏はその後10年間の出版編集の仕事にかかわって、著作権問題に関心を深めた。著作権違反事案は、意味論的類似性と外形的類似性を争うものである。意味論的類似性があっても外形的類似性がなかったり軽微な場合は著作権法違反とはならないのが通例であり、外形的類似性を客観的に算出できる方法がほしいと願っていたことが語られた。27年ほど前からは、専門学校で教壇に立ち、途中からは大学の教壇に立つようになった飯箸氏は、ここで学生らのコピーレポートに常に悩まされ続けた。この問題も是非クリアにしたいと願っていたのだと述べると、会場は笑いと共感を示すざわめきが起こった。
しかし、公に知られている外形的類似度を計算する方法は、古典的なlevenstein法しかなく、この方法には致命的な欠陥のあることが示された。これを克服するものとして、飯箸法が発案されたということが良くわかるように解説された。
1993-4年ころ、(社)パーソナルコンピュータソフトウエア協会(現(社)コンピュータソフトウェア協会)の研究員の肩書きの名刺で、ジャストシステムの中心メンバーにテキスト類似度に関する解説をしたことや、1996年には、すでにカオス研究会(阪井明治大学教授主催)で飯箸氏はテキスト類似度に関する研究発表をしていることなどが次々に語られた。
2005年の情報コミュニケーション学会全国大会で、飯箸法第1類の発表を行い2006年の情報コミュニケーション学会全国大会では飯箸法第1類の発表を行っていることに言及がされ、その違いが解説された。
飯箸法第1類は、ランダムテキストを前提として文字列のオリジナル度や類似度を計算するもので、計算式は指数関数と対数関数のかたまりになっていることが示された。ランダムテキストとは、いわば おサルのタイプライターがランダムにキーをたたいたときにできる文字の羅列のことである。すなわち、ランダムテキストを前提にするとは、文字の出現確率がどの文字種でも同一という仮定しているということである。
飯箸法第2類は、文字種の出現確率は対象となる文字列空間ごとに決まっているという前提でなされるのである。第2類の前提に関連して、シャーロックホームズの暗号解読の話が持ち出された。シャーロックホームズの推理小説の中で、暗号解読に取り組むホームズが、ロンドンタイムスの記事を解析して、もっとも多用されている活字は「e」であることを突き止め、暗号文中にもっとも多く出現する文字種「g」は、実は「e」を意味しているなどとワトソンに説明したくだりがある。これを例に説明たので聴衆にはわかりやすくて納得がいった。文字種によって出現確率が異なることを考慮して作成された類似度計算式(飯箸法第2類)も開示されたが、やはり指数関数と対数関数のてんこ盛りだった。
続いて、これらの式を使って実際の文字列を比較した結果もいくつか示された。その最後は、和歌の世界では有名な「本歌取り」の例である。飯箸氏は、「えーと、これって、盗作じゃないんですよね。本歌取りというんですね」などととぼけて見せて、会場からは笑いを取っていた。
  「田子の浦ゆ うち出でて見れば 真白にそ 富士の高嶺に 雪は降りける」(万葉集)
  「田子の浦に うち出でて見れば 白妙の 富士の高嶺に 雪は降りつつ」(新古今集)
両者についての類似度とLevenshtein距離(参考)は次のようになることが示された。
 飯箸法第一類類似度 飯箸法第二類類似度 Levenshtein距離
 71%            78%            7
二つの歌の「意味の違い」は100%という人も、違いはわずかという人もいるだろう。「意味の差異」に関する判断は優れて主観的である。解釈にもよるが、前者は田子の浦から小舟に乗って海に乗り出し、揺れ動くであろう小舟の中から雪の降り積もった白い富士の高嶺を仰ぎ見て、富士の威容に感動している様を歌っているもので、素朴な躍動感あふれる内容である。後者は、田子の海岸線に出てきたもののその浜にとどまって(船には乗っていない)、美しい白に染まるかすかな富士を背景に目前を雪が降りてくるという絵画的な美しさを解説する歌で、知性は感じさせるが野性的躍動感はない。野性的躍動感の有無を捉えて100%の意味の違いを説く人もいるだろうし、「田子の浦」「白い富士」「雪」などのモチーフの共通性から、意味の差異は少ないと説く人もいるだろう。そもそも、意味の差異に大小や程度を一次元尺度を当てることさえ、無理があり、やるべきではないと思う人も少ないないはずである。意味は、おそらく多次元(無限次元)に置かれているものだからである。
一方の外形的類似度には、ある種の客観性があり、人々の判断に大きな違いはない。外形的類似度に限れば、上記の二つの歌の例では7-8割の類似度と言って異論ある人は少ないだろう。フューリスティックな計算法が想定されるのである。その方法を数式化したものが飯箸法の利点である。
その飯箸法の結果の数値については、狙い通り、会場にいた人々の人間感性的類似度と大きな齟齬はなかったようだ。異論を唱える人はいなかった。
Levenshtein距離については、この数字が類似性が高いのか否か、まったくわからない代物であることも実感できたに違いない。
話が終わるころには、会場の皆さんは、飯箸法がそれぞれに予想していた仕事とは全く異なるものであることが、はっきりしてきたようだった。
まとめとして発表者は、「この方法は、お金稼ぎには全く関係がありません。アルゴリズムが公開されていないグーグルによる文書類似度、形態素解析をベースとするジャストシステムの類似度検出システム、その他の「意味の類似性」をいくらかでも取り入れようとされているさまざまなシステムはそれぞれの利便性があるでしょう。それぞれに大いに発展させご商売にまい進されることを期待するものであります。私のこの方法は、意味論的類似性を一切排除していますので、外形的な類似度を客観的汎用的にはっきりと示すはずです。皆さんのそれぞれの方法が示す値がある方法では81%の類似度、別の方法では74%というケースは大いにありことです。一方、外形的類似性に限れば、たとえば、アルゴリズムも公開されている飯箸法第2類では79%であるというような共通の認識にいたることができます。すなわち、私の目指してきたことは、テキスト類似度の汎用的尺度を提供しようということに尽きるのです。これは皆さんのご商売とは抵触しないで、むしろご支援する研究なのです」と述べた。飯箸氏のこの日の発表はこれで終わりである。
司会の阪井教授が会場に向かって「質問は?」と呼びかけると、会場は発表直前と空気が一変していた。会場は圧倒されて押し黙っていた。しばらくの沈黙の後、家本会長が手を上げて「えっと、たとえば文章の前後を入れ替えただけの2つの文章はどの程度の類似度になりますか」と質問した。飯箸氏は即座に「100%の類似度になります」と述べた。続いて、「学生のレポートではその手のもの、つまり友人のレポートを丸写しにして前後を入れ替えたようなもの、が良くありますが、すべてアウトと判定されます」と述べたので、会場はどっと笑って、急に和やかな雰囲気に包まれた。さぁ、皆さんが楽しみにされている懇親会場への移動である。ルンルン気分で私も移動をはじめた。

△次の記事: 感性的研究生活(26)
http://shyosei.cocolog-nifty.com/shyoseilog/2007/12/121753sh26_01be.html
▽前の記事: 感性的研究生活(24)
http://shyosei.cocolog-nifty.com/shyoseilog/2007/07/24_b8ce.html

琵琶

(補1)「鐘の声 ブログ」はリンクフリーです。ただし、「鐘の声 ブログ」の記事の一部または全部を引用または翻案して、公的に発言または発表される場合は、事前にメール等でお知らせください。[→連絡先]
(補2)この記事が含まれるシリーズの記事の一覧は下記(別サイト)のとおりです。
  感性的研究生活シリーズの記事一覧 (GO!)
(補3)ブログ「鐘の声」には、10個ほどのシリーズとシリーズ以外の一般記事があります。シリーズの全体構成やシリーズ別の記事一覧は下記(別サイト)にあります。
  ☆「鐘の声」の全体構成(「鐘の声 ブログ」記事マップ)☆ (GO!)

« 小学生の風船の手紙、校長先生に拍手--心理、教育、社会性の発達(43) | トップページ | ユーザを待たせないアルゴリズムへ「世界初MMLシステム-その2」--アルゴリズム戦記(18) »

「日記・コラム・つぶやき」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/73834/16067065

この記事へのトラックバック一覧です: 「テキスト類似度・飯箸法」がアピール、第16回次世代大学教育研究会「知の発掘」(東京)--感性的研究生活(25):

« 小学生の風船の手紙、校長先生に拍手--心理、教育、社会性の発達(43) | トップページ | ユーザを待たせないアルゴリズムへ「世界初MMLシステム-その2」--アルゴリズム戦記(18) »

2017年4月
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            
無料ブログはココログ