識別・分類技術:検閲に使うかヘイトスピーチの抑制に使うか

日本文学研究における引用についていろいろ知ることができる。勉強になる。
hibi.hatenadiary.jp

本文でなく、終わりの余談のところにちょっと補足したい。

最後にいいたいのは、この立命館大の研究は、フィルタリングの自動化の研究ですよね?(読めていないので、間違っていたら、指摘してください)
これは、言い方を変えると、機械による自動検閲(につながる)装置の開発です。

「有害」な情報から未成年者を守るというような目的があるのはわかります。

しかし、検閲による情報の規制が、私たちの社会の風通しを悪くしたり、知りたいことを知れなくなったり、議論の分かれる問題について、その問題となる原因の資料そのものへのアクセスを遮断することにつながる、という自覚を、この手の研究開発をしている人々には持ってほしいと思います。

技術として可能性を追求するのはいいけれど、それを社会に適応したとき、社会の中で振るってしまう力、効果などについて、思いをいたしてほしい。
【pixiv論文】日本文学研究者が引用について語ってみる - 日比嘉高研究室より)

フィルタリングをするためには、ある文書がある性質を満たすことをプログラムで識別しないといけない(今回の事例の場合は「性的表現」を含む文書かそうじゃないかを識別しようとしている)。この識別した上で、ある特定の性質を満たす文書を閲覧者に見せないようにするのがフィルタリングと呼ばれる技術。

一方で、5/24のTBSラジオ Session 22のメインセッション「ヘイトスピーチ対策法の成立から1年。その効果と影響、そして課題とは?」にて、パーソナリティの荻上チキ氏が、ネット上のヘイトスピーチを防ぐために、文書中のヘイトスピーチによく使われる言葉が含まれていたらメールを送る際やSNSに投稿する際に「それはヘイトスピーチになってしまいますが本当に送ってよいですか」という確認メッセージをだせばよいというような主旨の発言をしていた。
www.tbsradio.jp

このようなヘイトスピーチをしてしまうことを思いとどめる仕組みをつくるためには、その文書が「ヘイトスピーチになり得る文書」であるという性質を識別しないといけない。この識別した上で警告文を出すようにすると当該の仕組みを構築することができる。

検閲に使うフィルタリングとヘイトスピーチをしてしまうことを思いとどめる仕組みは、本質的に同じ文書の識別・分類技術を使っており、文書の識別・分類技術の精度を上げると、検閲およびヘイトスピーチ思いとどめ機能の性能が上がる。この二つの使い方は同じ技術の悪い使い方と良い使い方になっている。

技術についての「あるある」なのだけど、ある技術はある観点から見た良い使い方と悪い使い方の両方に使える場合が多い。自分が取り扱っている技術がある観点から見て、悪い使い方をすることができ、それによってある程度の被害が発生するということを考え、可能な限りそれを防ぐように取り組むのは技術者倫理の一つであり、技術者は技術者倫理を守るように努力しなければならない。

ある技術を社会に適用したとき、社会の中で振るってしまう力、効果などについて考えるのは技術者の責任だとしても、それを実際に社会に適用するかどうかという点については、技術者だけでなく非技術者も一緒になって取り組むべきというのが、東日本大震災による福島第一原発事故後で注目を浴びたトランスサイエンス(この場合はトランステクノロジーというべきかも)の話だと思っている。

合理的配慮を学校に求めて少し状況を楽にするという選択肢も視野に入れてほしい

発達障害当事者の方が同じく発達障害で悩んでいる方へのアドバイス。
syakkin-dama.hatenablog.com

上のアドバイスは当事者の視点からいろいろと選択肢を提示されているので大変役に立つものだろうと思うのですが(私は当事者ではないので推測しかできないので)、もう一つ、学科に合理的配慮を求めて、いろいろと過ごしやすくするというのも選択肢に入れてほしいと思います。

合理的配慮とはなんぞやという点については以下を読んでいただければと。もし、文字を読むのが得意でないならばGoogleで「合理的配慮 Session22」と検索すればYouTubeに当該回が上がっています(TBS radio Cloudでは当該放送がなかったので)。
synodos.jp

こちらは小学生の親御さん向けですが合理的配慮の説明とどういう風に相談をすすめていけばよいのかがまとめてあります。
junior.litalico.jp

たとえば提出物を忘れてしまうとか、締め切りが守れないという部分については合理的配慮の対象にできるとと思います。以下の千葉県のページには小中学校における多くの合理的配慮の事例があります。
www.pref.chiba.lg.jp

こちらでも事例を検索できます。
inclusive.nise.go.jp

こちらは発達障害に注目した事例です。
icedd.nise.go.jp

私も大学で数名の学生に対して合理的配慮申請の手助けをしましたが、以下のような申請を授業担当者にお願いしました(何人かの学生の事例を混ぜています)。

  • 出欠席を単位認定の基準から外す(症状などにより登校できない時があるため)
  • 提出物の締め切りの配慮(登校できなかった日の締め切りを伸ばす。メールなどの電子的提出を認める)
  • 欠席時の配布物の後日配布する
  • 教室の出入りを許可する(症状によりいったん教室を出たくなるときがあるため)
  • 授業中の飲み物摂取を許可する(症状がでたときに薬を飲んだり、気持ちを落ち着かせるため)
  • 別室受験をする
  • 授業中の発表を免除する(発言や板書での回答が求められる授業において)
  • 音声の録音するのを許可する
  • 板書の撮影を許可する

お願いした授業担当者に完全拒否をされたことはないです(何人かは「しょうがないなぁ」という感じだったのは事実ですが)。

社会は障害のある方にまだまだ厳しいですが、一方で、ちょっとずつ変わってきてもいます。今、中学生の方が大学を卒業して働くようになるころには、今よりももっと合理的配慮が通りやすくなっていると思います(実際、企業の方から障害者差別解消法が出たので発達障害や精神障害の方への対応を考え始めていると聞きました)。

結局、道は二つしかありません。苦痛を抱えたまま学校教育のレールに乗っていくか、苦痛から解き放たれる代わりにそこから得られるメリットも放棄して、自分自身の足で歩くか。
学校が辛いあなたのためのお話 - 発達障害就労日誌より)

学校教育のレールに乗っていく際に苦痛が少しでも緩和されることを祈って、合理的配慮をご紹介いたしました。

メモ: 2017年人工知能学会全国大会でのpixiv作品を用いた研究発表

いろいろ学ぶことある。

立命館大学の研究者による「pixiv論文」の論点とは──“晒し上げ”批判はどれほど妥当なのか(松谷創一郎) - 個人 - Yahoo!ニュースで紹介されている日本社会学会が以下の規程を作った経緯を明らかにしてもらえると他の学会の参考になるのでありがいたなぁありがたいなぁと思う次第。この規程は少なくとも19001990年代後半以降じゃないと必要でなかったはずなので、規程の更新の際に検討すべき事例がなにかあったのだと思う。

(1) 作成者の意思の尊重

インターネット上に存在する電子情報は万人の閲覧に開かれてはいるが,調査が回答者の協力を必要とするのと同様に,作成者が拒否する場合に論文で使用することはできない.「無断引用不可」「無断転載不可」の意思表示があるウェブサイトや,加入手続きが必要となるインターネット上のコミュニティでのやりとりを論文で使用する場合は,使用許可を得た旨を明記するなどの注意が必要となることに留意する.

日本社会学会より)

追記(2017/5/28):コメント欄で日本社会学会でのガイドラインの経緯をご説明いただいています。

追記:くだんの論文を読んで

本来行いたい「隠語を用いた性的表現の検出」を行うための予備実験という位置づけの内容。ただ、表現の自由の観点からせめぎあいがある「未成年に対して有害な情報」や「猥褻」という言葉をかなり雑に扱っているので、そのあたりの議論に関心のある人や懸念を持つ人からすると批判されて当然の文書構成だと思う。そして、この背景の下でpixivのR-18ジャンルの小説持ってくるのは理屈がわからない。このデータを使った理由は推測できる。 1) 性的表現を暗喩を使って表現している文書が多い。 2) すでにR-18というタグ付けがされており、性的表現や暴力表現などの「未成年に見せることは好ましくない」表現が含んでいることが明らかである(著者自身がそういう作品だと認めている)。3) 簡単に電子的なテキストデータを入手できる(たぶん、一番大きいのがこれ)。ただし、この論文の背景では売春(援助交際)などの犯罪行為も例にあげて「有害情報」と述べているので、著者自身がゾーニングに配慮して公開している無害なテキストを対象にするのは不適切に感じる。

表1のURLと作者名を墨消しし、第3節のテキスト例も墨消しした上(二次創作作品なので一次作品のキャラ名が出ているのは、この論文の文脈だと風評被害に思えるので。キャラ名を太朗、次郎やAlice, Bobで置き換えてもよし)でPDFを再公開し、存分にいろいろと批判してもらったらよいのではないかと思う。

追記2:研究倫理の話

以下を読んだ感想。
d.hatena.ne.jp

問題とされたのは、二次創作の小説について、その著者に説明や許諾がなく、研究にサンプルとして小説が使われた「らしい」ことに関する、研究倫理的な点だと思われます。
続・「文章フィルタリング研究」案件に関する私的メモ~情報学の研究に文化人類学的な調査手続きは必要か Part2~ - 仲見満月の研究室より)

これが「ヘイトスピーチとなっているSNSの書き込みや、講演、配布された文書について、その著者に説明や許諾がなく、研究にサンプルとしてそれらの文書が使われた」「国会議員のSNSの書き込みや、講演、配布された文書について、その著者に説明や許諾がなく、研究にサンプルとしてそれらの文書が使われた」という場合でも、上記の例と同様に整合性がとれる研究倫理を用意しないといけないと感じる次第。

メモ:加計学園問題

Session 22ネタだけど、違法性はないが政策決定プロセスに問題がある事例(将来の立法事例)ではないかとのこと。確かに経緯を聞くと、もうちょっと何とかならんのかと思う。全国的な見地から獣医学部の定員管理をしていたのが急に変わった理由が説明されていないのがアレ。これに関しても安倍首相が関わっていたら云々と明言しなければ、役所が勝手に忖度してけしからんので今後そういうことが起きないように制度変更しましょうで幕引きできたと思うのだけど。
www.tbsradio.jp

上の放送の後に文科大臣に「確認できなかった」とされた文書の出所について。
www.nikkan-gendai.com

さらに、ある官邸幹部は番記者にオフレコで「Xが流しやがった」と実名を挙げて非難。いま、文書をリークした犯人として名前が挙がっているのが、大物の文科官僚だ。この大物官僚は加計疑獄の詳細を知っているとみられている。

「官邸がビビっているのはXがどういう思惑で行動に出て、どれほどの具体的資料を抱え込んでいるか読み切れていないためです。安倍首相に〈非常にしつこい〉と冷たく切り捨てられ、反撃に出た森友学園の籠池泰典前理事長の例もある。次から次へと資料を出されるような事態になったら最悪。そうなる前に報道を抑え込み、幕引きを図ろうと焦っているようです」(文科省担当記者)

突然の辞任した前次官のスキャンダル。藪蛇じゃない?
www.yomiuri.co.jp

文部科学省による再就職あっせん問題で引責辞任した同省の前川喜平・前次官(62)が在職中、売春や援助交際の交渉の場になっている東京都新宿区歌舞伎町の出会い系バーに、頻繁に出入りしていたことが関係者への取材でわかった。

Session 22で紹介されている国会答弁の音声聞くと、財務省系や法務局系の答弁と引き換え、文科省系の答弁の素直なことに驚く。

デジタルアーカイブ化の恩恵:サザエに学名がついた

大変面白い研究のプレスリリース
www.okayama-u.ac.jp

この研究の背景になる話も面白い。

ダヴィラとライトフットの本はともに、日本には所蔵されていない希少本で、現在のようにインターネットのデジタルアーカイヴが発達する以前は、閲覧事態が困難でした。

驚愕の新種! その名は「サザエ」 〜 250年にわたる壮大な伝言ゲーム 〜(PDF)より

この本かな?
www.biodiversitylibrary.org

アクセスできるようにしておくことで、新たな研究成果が生まれる良い例だと思う。