決断は強化学習とともに これまでとこれから

こんばんは。

仕事も始まってからしばらくが経ち、

色々な決断が必要となる場面も増えてきました。

 

いろいろとご縁があって、

判断、決断、意思といったことを

考えたり、議論したりする機会も

最近多くありました。

 

そんな中で振り返ってみると、 

これまでは、人生を分かつような決断、

院進、恋愛、就職いずれも、

 

人がふつう選ばないようなとっぴな

(選択肢というより)選択の方法論で、

上手く納得できるように

進めてきました。

 

因果関係はさておき、

ともあれ結果的には今、

かなり充実した日々を過ごしています。

 

いっぽうで、

今も躓きが完全になくなるわけでもなく、

 

そしてこれまでも、

やはり様々な苦労や失敗がありました。

 

人に迷惑をかけてきたことや、

反省される点も多々あります。

 

これらを踏まえて、

判断や意思決定における

役に立つ手法やその理論化、

 

うまく行かないことの振り返り、

 

そして理論化していく上で

抑えなければいけない知識の

課題感、

 

そして最後にこれらを顧みて

今後の過ごし方について

考えてみようと思います。

 

以下のような構成で進めていきます:

 

・うまくいった自由な決断

・強化学習と意思決定

・これからさあ、どうしよう?

 

うまくいった自由な決断

 

どちらかと言えば友達も少なく、

非モテで、

目立った特徴も無く、

しかしそれをさほど気にしていなかった

自分ですが、

 

何かと難所を切り抜け、

不満の少ない日々に至っています。

 

勿論、

実家は勉強を後押しする環境であったり、

出会った人に恵まれたりと、

環境要因のおかげがなかったと言えば

嘘になります。

 

とはいえ、

そうした機会をふいにせず、

選択の中で活かしてこれたという自負も、

ある程度あります。

 

その中心にあるのが、

選択の自由だと考えています。

 

具体的には・・・

人間の認識の虚を突くことこそが、

自分の性格とうまくソリが合って

抜け道を見つけてきたのかな、と。

 

さて、この

「人間の認識の虚」とは何か。

詳しく書いていきます。

 

特に就職対象の人気を考えたとき、

それがべき則に従っているものと

仮定しましょう。

 

このとき、我々は

そのヘッド(人気)の就職対象と、

テール(不人気)の就職対象、

どちらに挑むのが好ましいでしょうか?

 

実は上の問の時点で、

既に罠があるということに

お気づきでしょうか。

 

べき則、つまり、ヘッドとテールの間は

グラデーションになっており、

当然中程度の就職対象が

それなりのボリュームをもって

存在しているはずです。

 

ふと気を抜くと、

つい両極端こそが目につきますが、

その二元論に陥ってしまう必要はないのです。

 

これはまた、

フリーさ・アウトローさという軸においても

言えるのではないでしょうか。

 

普通の企業への就職を、秩序の極に置き、

その反対の極として例えば

フリーランスやブロガー、お店の開業などを

考えるとしましょう。

 

さて、この軸においても、

その間を取るような

無数の選択肢が転がっているのでは

ないでしょうか?

 

一応補足すると、

能力的あるいは身体的に、

ヘッドの企業、あるいはフリーの活動に

充分な適性があれば、

その道を阻む理由はないと言えましょう。

 

しかし、自分、あるいは

自分とにたタイプの人間の場合はどうか。

 

そのように考えていったとき、

 

羨ましがられるような名企業ではなくても

自分に合っており、

楽しく誇りを持ってできる

業務内容のところや、

 

フリーではないけれども

半ば社内ベンチャーのようにできるところが、

 

少なくとも自分の場合・・・

開けてきました。

 

これはその手法にも言えることでしょう。

就活サイトを使うでもなく、

かといって SNS 上で知名度を上げるでもない、

さまざまな中間的な(もしくは別次元の)

選択肢があるというのが、

自分の場合やはり見えてきたのです。

 

もちろん、

両極の象徴的な選択に適性があれば、

それをやめる理由はないという点は

変わりありません。

 

さて、

ここまでを一括りにして考えると、

「行動には常に一定のランダムさを持たせる」

とまとめることができるのでは、と

考えています。

 

ヘッドのものや、

何としてもなりたいもの、

あるいは王道の方法論を中心に、

ほんの少しブラしてやるのです。

 

何としてもなりたいものが独立なのであれば、

 これをヘッドとして一般の企業をテールとする、

 という見方もできますね。

 同様に、何としてもなりたいものが研究者である場合にも、

 研究者と非研究者の中庸の選択肢が存在しているという点で

 概ね同じようにこの議論が適用できると思います。

 私にとっては研究者もまた象徴的な憧れでありました。

 

 また、少し脱線しますが、

 このような二元論になりやすい構図には美点もあって、

 皆がそのように考えやすいからこそ

 虚を突けば倍率の低い所を狙い、

 成功率を高める可能性が高い、と言えると思います。

 また、別の観点から、

 実は成功率が高いんだけれども

 みんながやろうとしないがゆえにみんながやりたがらない、

 そういう自己循環になっている選択肢も

 案外多数転がっているように思います。

 そういうところこそ穴場ではないでしょうか?

 

このような選択肢の持ち方を

私が支持している理由は、

複数あります。

 

便利な強化学習の活かし方

 

 まだまだ勉強は途上ですが、

強化学習を学ぶようになってから事後的に、

自分の選択のやり方がこれに似ている点を

痛感し始めました。

 

一定のランダムさを加えながら、

就職先空間を探索し、

その結果の良しあし(合う合わない)を

都度フィードバックする。

 

これによって、下記の5つのトラップを

回避できると思います。

①期待と内実のギャップ

②望んだとおりにいかない挫折

③小高い丘に留まってしまう

登ったはずの丘が段々沈降してしまう

⑤似た失敗をする 

 

①期待と内実のギャップ。

 

高難易度にも関わらず果敢に挑み、

仮に思い通りにいったとしましょう。 

しかしそれが期待に添わないものであったら。

 

あるいは②望んだとおりに

それを手に入れることができないなら。

 

そのときに次の一手を失わない、というのが

強化学習の醍醐味という訳です。

 

高難度のそれを目指したという行動について、

その見返りの小ささあでれ、

その成功率の小ささであれ、

失敗に基づき低い評価に更新します。

 

そしてその低くなった評価よりも

まだ幾分マシな残った選択肢、

なければランダムに次の選択をあげる。

というわけです。

 

手に入ったもの≒環境を変化させるように

 働きかけるという探索もあり得ますが、

 これも強化学習の枠組みに近い対応と言えるでしょう。

 

③小高い丘に留まってしまう

④登ったはずの丘が段々沈降してしまう

 さて、こちらの2つは、

一度選んだ選択をランダムに破棄する場合、

現実では一定の時間的・社会的コストがかかるため、

直接あてはめられないところがあるため

やや慎重に議論する必要があります。

 

極端な例で、少なくとも言えるのは・・・

この選択を破棄するのに 10 のダメージがあるが、

今のままでは毎年 6 のダメージがある。

という場合は2年後を考え、

新しい選択肢を(例えランダムにでも)

生成する形が良いと言えるでしょう。

 

ところで、世の中には無数の選択肢があるため

1つ1つを評価し、そのつど破棄していくのでは

時間も足りないし身も持ちません。

 

そこで使える手法が「一般化」ですね。

要素の組み合わせが類似しているものは、

まとめて評価を上げ下げするのです。

これにより⑤似た失敗 を予防できます。


ただしその粒度をどの程度にするか?は

人類全体に残された課題、と

いったところですね。

 

ところで、

こうした「ほんの少しのランダムが適切だ」

という議論を支持する話題は、

もうちょっと色々あります。

 

1つは複雑性。

複雑性を測る指標はさまざまで、

統一的で唯一の指標があるわけでないことは

Wikipedia を見るだけでも明瞭なのですが・・・

https://ja.wikipedia.org/wiki/%E8%A4%87%E9%9B%91%E6%80%A7

 

秩序 vs. 無秩序 の間、

すなわちランダムさが中程度のときに

複雑さが最も高まる、という見解が

(自分の観測範囲では)

普遍的に見られるように思います。

 

例えば人間の社会や建造物。

これは完全に規則的な結晶でもなければ、

完全にランダムな砂の模様のようでも

ありませんね。

 

もう1つは自由意志。

「どうしてもやりたい」ことだけをやる。

これって自由のようでいて、

その1つの選択肢に束縛されており、

実は不自由ではないでしょうか。

 

特にそれが本能による先天的な欲望の場合や、

反射的な欲望の場合、

(その人の歴史に基づく場合は後天的ですが、

 それが根深すぎて常に一択をとってしまうなら

 これもまた不自由の源と言えるでしょう)

ほとんど自分の意思が介在されていないような

状況になってしまいますね。

 

もちろん完全なランダムもまた

自由意志とは言えないでしょう。

 

もっとも、やりたいことに一意専心するためには、

 恐らくそのプロセスには様々な工夫、

 あるいは環境作りが求められるため、

 一つの目標を遂行すること自体は、

 全体的なプロセスとしてみれば

 多くの自由意志が介在されるように思われます。

 この辺の境界線を見極めるには

 かなりの文献が必要になりそうですので

 深入りしないようにしますが、

 少なくとも、このようなプロセス全体への専念が

 反射的な不自由でないことは明らかでしょう。

 

さて、こうした自由意志の議論については

古くからかなり多くの研究があるようです。

 

ここで上で述べてきたように、

こうした自由意志についての人文科学の議論が、

どうも複雑性といった定量的な議論と

近しい部分を持つように感じられます。

 

これこそかなりの文献や論文に基づき

追求していきたい1つの課題ですが、

今回はいかにも伏線、という雰囲気を残し

このあたりで留めることにします。

 

また、ランダムさの中庸とは無関係ですが、

心理学の議論も抑えたいところです。

 

不安などのネガティブな感情は

判断を冷静にし、分析的にするという

適応上の効果があるようです。

 

が、どの選択をしたから失敗したのか

理由が分からない状態に、

学習性無力感が生じやすいようです。

 

これはやや解釈を一般化すると・・・

適切なフィードバックを得られる選択がなく

学習自体ができなくなってきたときに

生じる、と言えないでしょうか。

 

 

この仮定を受け入れるなら、

精神衛生を健康に保つために、

(ランダムさはともあれ)

次の選択肢が無くなってしまわぬよう

常に手を打っていくのが

良いのかもしれません。

 

これからさあ、どうしよう?

さて、ここ最近はうまく力を出せるよう

所属、自分自身、そして接し方を

工夫してきたと思います。

 

それとの正の相関は明らかではないですが、

少なくとも公私充実しており、

これまでの中で今が一番いい、

という状態が続いてきてはいます。

 

しかし、この荒れ行く時代、

安寧秩序を破るような影は

いつでも忍び寄ってきます。

 

仕事の経験も多少積もる中、

年齢とともに新たな難題も

それなりに群生しだし、

今を脅かし始めています。

 

永遠にお湯というお風呂は無く、

何かを変えなければ

居場所と言うのは沈みゆく、

そういうものなのでしょう。

 

これからいったいどうすれば。

 

見出しで引用している

映画のワンシーンのように、

 

大きな発展を感じるような

前向きな驚きと拡大ならいいのですが、

 

しかし実際急速に拡大するのは

実力に比して求められる量・質や

それについて考えふける自分、

そんなものばかりですね。

 

さてこれを受けて、

打てる手としては。

 

やはり選択を広くとらえ、

さらにこれまでよりはもう少し

広い観点から見てみる。

 

目指すべき(良いと思われる)状態の

再定義。

「得意」「不得意」とラベルしている

カテゴリの仕方の再編。

 

そういったところでしょうか。

 

このように学習の枠組みをより広くすることは、

 元来の強化学習のでは未対応かと思います。

 そういう意味では機械学習を考えるうえでも

 興味深い点になりますね。

 

自分は勿論、環境も、

変え続けることが必要と思われます。

 

環境を移ることも選択肢だし、

移らないなら移らないで、

今の居場所を変化させる。

 

環境を何も変えない、という手は

あまりないでしょう。

 

外部環境から受信するだけでなく、

自分に合うように外部環境を調整する、

それがシステムだ、

といったところでしょうか。

 

しかし一方で、

常に自分や環境を変える努力が必要なことは

嬉しいこととも思います。

 

勉強や自己鍛錬が単なる趣味で終わらず、

それを役立てる機会にあふれており、

言い換えれば勉強もまた

それが故に一層はかどる構造です。

 

そして不安定な環境であるからこそ

創意工夫の意義も高まります。

 

それに、極限状態であるからこそ、

通常では繋がることのなかったような

コミュニティ、

目的、

そして新たな自分の在り方が

生まれる。

というのが、

様々な物語が示唆するところであります。

 

直近では例えば・・・

tojinomiko.jp

yorimoi.com

 

言ってみれば時代そのものが

不安定であることが、

常に成長に意義を与え続けており、

いい機会とも言えそうです。

 

また誤解を恐れずに言えば、

こういう状況こそ、

自分のような・・・定型的でない人間が

より力を発揮しやすいように思います。

 

不得手な題目が突如増えることもあり、

時として自信を失いかけることも

ありますが、

今となってはそれが一過性のものであると

もうわかっているため、

いい機会だと思って受け入れるだけです。

 

このように、

メタな意味での環境を大事にしつつ

やっていこうということで。

 

今回はここまでにしようと思います。

 

こうして自伝的にすること自体に

メタな意義があるという狙いもありますし、

またこのように解釈し直す

「認知的再体制化」の効果も

知られているところではありますが、

これらはまた別の機会に。

 

実用性のあることを考えると

学術からは離れていると思えるし、

バランスが難しい所ですが・・・

少しでも面白い話になっていれば

幸いです。

 

それでは、

ここまでありがとうございました。

 

 

参考文献

 

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る
 

出版社ページ

 

自己組織化-自然界の法則に学ぶ未来のエンジニアリング-

自己組織化-自然界の法則に学ぶ未来のエンジニアリング-

 

出版社ページ

 

中動態の世界 意志と責任の考古学 (シリーズ ケアをひらく)
 

 出版社ページ

 

しかめっ面にさせるゲームは成功する 悔しさをモチベーションに変えるゲームデザイン

しかめっ面にさせるゲームは成功する 悔しさをモチベーションに変えるゲームデザイン

 

出版社ページ

 

ルーマン 社会システム理論 [「知」の扉をひらく]

ルーマン 社会システム理論 [「知」の扉をひらく]

  • 作者: ゲオルククニール,アルミンナセヒ,舘野受男,野崎和義,池田貞夫
  • 出版社/メーカー: 新泉社
  • 発売日: 1995/12/01
  • メディア: 単行本
  • 購入: 4人 クリック: 67回
  • この商品を含むブログ (42件) を見る
 

 出版社ページ

 

感情心理学・入門 (有斐閣アルマ)

感情心理学・入門 (有斐閣アルマ)

 

 出版社ページ

 

 レーベルページ