カテゴリー

  • 日記・コラム・つぶやき
  • 経済・政治・国際

« MOLDAの吉田弘氏のご逝去--交友の記録(5) | トップページ | 問題発見ゼミ、決意のスタート--その他、シリーズ外の記事 »

久しぶりの学会発表-文字列類似度の汎用的尺度--感性的研究生活(2)

2005/03/31
久しぶりの学会発表-文字列類似度の汎用的尺度--感性的研究生活(2)

3月31日、久しぶりに学会発表を行った。今回は情報コミュニケーション学会第2回大会である。場所は千代田区駿河台の明治大学のリバティタワーであった。会場は見晴らしが良くて設備も申し分ないところである。会長の阪井和男教授からお誘いを受けて急遽発表することにした。もとより、自分の勉強のためと後進たちの発奮を促すためには自分の研究発表の数を増やすべきだと考えていたところなので、ありがたくお受けした。
http://www.sonoda-u.ac.jp/cis/
http://arch.cside.com/f-meidai.html
タイトルは「文字列類似度の汎用的尺度」とした。公正な情報コミュニケーションのためには、盗用を防ぐために公正な類似度測定が欠かせない。いろいろな分野で多様な尺度が用いられているがこれらの尺度を較定するためのグランドスケールがまだないことに私は剛を煮やしている。10年以上前から、警鐘をならして、小さなSH情報文化研究会等ではある種の計算方法を発表していた。今回は、日本では私の提案よりも後で使われるようになったLevenshteinの距離という尺度との違いを実例で示すことにした。以前の発表では、「前代未聞」の見解なので、多くの聴衆は同評価してよいかわからないようだった。
この「創造的提案への判断停止」という社会的心理現象は、一般に広く見られることであり、行政やビジネスの分野でも始終ぶつかるのである。しばしば、私たちの渾身の提案があっさりと補助金の審査で落ちるということがままあるのだが、多くの場合、審査員が評価不能だったということのようである。まぁ、独創的発案を評価できるほどの自信はなくとも評価不能なものを推奨するほど無能ではないという人はいる。それはそれでたいへん結構なことである。
今回は、一般に知られている「尺度(Levenshteinの距離)」と「私の尺度」の比較である。「尺度というものの有用性」については、Levenshteinの距離が曲がりなりにもいろいろな場面で使用されているのだから、説明が難しくない。聴衆が判断停止に陥る心配はない。比較してみれば、長所と短所は互いに明快である。用途によって使用に適する尺度が異なるのは認めても、グランドスケールとしては私の提案する尺度のほうがはるかにまさっている、と私は思う。
http://www.sciencehouse.jp/research/kenkyu.html
発表が進むにつれて、聴衆の顔が生き生きとしてくるのが見えた。私が話し始めるまでは、うつむき加減で堅い表情だった皆さんの顔が、納得と興味で上目遣いになりやや紅潮さえして見えてくる。発表者冥利というものがあるとすれば、こういうものだろう。
会場からは、私が発表したセッションの中では最多の3名の質問があった。質問とそれに対する私の回答の概略を示す。次のステップへの栄養となる良い質疑応答だった。

1-1)Aさんの質問
2つ質問します。
1つ目、「中国語と日本語などのような異なる言語間で比較は可能か」
2つ目。「韓国と日本では、語彙に類似性は少ないのに文法は似ている。文法の類似性は測れるか」
1-2)Aさんの質問に対する私の回答
1つ目について、アルファベットなどで、表音表記すればこの尺度が使用できるが、言語の類似性を見るためには、各民族ごとに歴史的な転音(日本の古代のoeが後のoとeに分化したり、pa->fa->haのような変化したりする。ラテン語のeが英語ではsに変化するなど)を経ているので、言語学的な類似性を測るとすれば、転音シソーラスを用意するなどの工夫が必要と思われます。この方面の研究を希望される方にはご協力します。
2つ目について、朝鮮半島と日本列島は、古代のある時期、朝鮮海峡をはさんで作られた海洋貿易国家(連合国家)を形成したと推定されます。この連合国家の支配階級は、もともと朝鮮半島にした先住民族(先韓民族)と日本列島にいた先住民族(縄文人)を征服して国家連合を形成した異民族であったと推定されます。支配者となった民族の文法は半島と列島にそれぞれ引き継がれ、語彙は半島と列島それぞれの被征服民族(先韓民族と縄文人)のものが使用されるようになったと言う事情を考慮すれば、文法は似ていて語彙が異なるという事実をよく説明します。私の尺度は文字面の類似性に着目しているので、文法の類似性を図ることができません。出来るのはいわば語彙の類似性または独立性を測るだけです。A先生にアイディアがありましたら、この方面にも研究を広げたいと思います。

2-1)Bさんの質問
「ホームページのスクリーニングやスパムの防御には使えないか」
2-2)Bさんの質問にたいする回答
よく考えたことはありませんので、断定はできませんが、発信人のアドレスやドメイン名がいろいろに変えられていても、文面はほとんど同じものがありますから、これを検出する可能性はあります。よく考えてみたいと思います。

3-1)Cさんの質問
「スピードはどうでしょうか」
3-2)Cさんの質問にたいする回答
現在は手計算ですから、トテモ遅いです。(爆笑) プログラム化して速くなるかといえば、それでも遅いでしょう。(笑) テキストサーチの高速アルゴリズムはいろいろな提案があり、かなり速いものがありますが、荒くても速く一致する文字列(100%類似の文字列だけ)を見つけるというような、いわば近似解を求めるのがこの研究の目的ではありません。100%未満のわずかな類似性までをも含めて数値化して計測値を一意に導くような、社会的コンセンサスが取れる「グランドスケール」を確立することを目的にしていますので処理速度は目的ではありません。

△次の記事: 感性的研究生活(3)
http://shyosei.cocolog-nifty.com/shyoseilog/2005/06/post_ffd8.html
▽前の記事: 感性的研究生活(1)

http://shyosei.cocolog-nifty.com/shyoseilog/2005/03/post_3.html

琵琶

(補1)「鐘の声 ブログ」はリンクフリーです。ただし、「鐘の声 ブログ」の記事の一部または全部を引用または翻案して、公的に発言または発表される場合は、事前にメール等でお知らせください。[→連絡先]
(補2)この記事が含まれるシリーズの記事の一覧は下記(別サイト)のとおりです。
  感性的研究生活シリーズの記事一覧 (GO!)
(補3)ブログ「鐘の声」には、10個ほどのシリーズとシリーズ以外の一般記事があります。シリーズの全体構成やシリーズ別の記事一覧は下記(別サイト)にあります。
  ☆「鐘の声」の全体構成(「鐘の声 ブログ」記事マップ)☆ (GO!)

« MOLDAの吉田弘氏のご逝去--交友の記録(5) | トップページ | 問題発見ゼミ、決意のスタート--その他、シリーズ外の記事 »

「日記・コラム・つぶやき」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/73834/3519625

この記事へのトラックバック一覧です: 久しぶりの学会発表-文字列類似度の汎用的尺度--感性的研究生活(2) :

« MOLDAの吉田弘氏のご逝去--交友の記録(5) | トップページ | 問題発見ゼミ、決意のスタート--その他、シリーズ外の記事 »

2017年4月
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            
無料ブログはココログ