2020年10月31日土曜日

外食より自炊のほうが良い

 10月31日、10月が終わり明日からは11月、早い。
今年は目標としていることは何もできず、月日が過ぎ去る。
11月からは心を入れ替えて頑張ります~

今朝は一桁の気温で寒かった、陽ざしが出ていると、朝から猫たちはベランダに出てしまい、飼い主は窓を開けざるを得ないのでとても寒い(^_^;)

10月は自炊製品などの買い替え、炊飯器などが壊れてしまい、買い替え
自炊をしているほうが節約になるし、健康的でしかもバランスの良い食事になる

2週間前に注文したかけ布団が到着、従来のかけ布団が内部の綿がバラバラになり、しかも臭い
カビが繁殖し、花粉症がひどくなったので買い替え。
今日からは気持ちよく寝れそう

10月1か月で運動不足がかなり解消される。でもまた、2月以前の半分ほどの体力ぐらいになっただけ。年内で1日1万歩に行くようにこれも頑張ろう。


芸能人のひき逃げ事件、ドラマなどで目立った活躍していたのに・・・
ひき逃げを起こすとは、芸能人は自ら運転すべきではない。
もっと自分を大切をしてほしかった。ニュースを観て、とても残念な気持ちになりました。

毛布を干せば猫も日向ぼっこ。



2020年10月29日木曜日

秋の月はとてもきれいです

日中は秋晴れで気持ちよく歩ける。
陽射しが暑すぎることもありますが・・・
カラッとしていると気持ちが良いし、室内の空気が新鮮だ。
でも新型コロナウィルスには乾燥が良くない。。。

家にいるのなら自炊生活、バランスの良い食事はいいが、
便秘気味。何か良い消化剤がないかいろいろと探しています。

家にいればいろいろなことをしているとあっという間に時間が過ぎ去る。
昨日と今日は10年を超える書類関係の破棄、大きな段ボールで1箱。
紙は重い。
昔破棄したような心境でしたが、昨夜、箱を開けると・・・😅
大量の書類がある。
断捨離を確実に行わなくてはいけない。


時間があるときはセキュリティ関係とWebはDjangoで開発中。
AdminATE、Django、Angular、CakePHPなどで利用できるので、同じような仕組みでWeb開発ができるので便利です。

猫の日向ぼっこ









10月29日の十三夜、秋の月はきれいです。

2020年10月28日水曜日

世の中の変わり目

2月以来の散歩などを行っているので、今週は一度寝ると朝まで目が覚めない。
ふくらはぎを活発に動かすと、第2の心臓としての機能が復活?
身体の調子も良いです。

人はよく歩き、ストレッチを行うのがよさそう。
もともと日本人は文明の利器がない時はよく歩いていた。
昭和の初めまでは~
5㎞以上を早歩きができると、よさそう。
※早歩き:1分間に100m近く

アメリカの大統領選、悩めるアメリカが反映されている。
やがては中国が世界の覇権を握るのがよくわかる。
欧米を見ていると、個人の自由の解釈が東アジアと違う。これでは新型コロナウィルスで壊滅的になりそう。

日本では政治がどうなるかが問題だ。
将来性を考えると、さらに日本が世界の中で埋没しそうだ。

貪欲に学び、ビジネスをすべきなのだろう。
新型コロナウィルス終息後の世界はどうなるか、かなり変わりそうだ。

秋はコスモスです。



2020年10月25日日曜日

久々の長距離散歩

 24日に、通常バスで往復する東京湾を目指して往復徒歩。
長距離でしかも早歩き、今年の2月以来の長距離、お尻回りには筋肉痛となる。
気持ちが良い、また、フォームローラを購入し、利用している。
首から足にかけて、フォームローラで筋肉をほぐしています。
良い運動して、筋肉をほぐす。メタボになった身体にはよい。

ただ、毎日、良い運動をするのは難しい、距離は短くとも早歩きでよい汗をかきたい

最近はどこに行っても、人出が増えすぎ、マスクはしているが消毒をしない人が増えている。
このような些細なことですが、油断していると、クラスター発生の要因になっている。
乾燥と気温の低下となる11月以降が怖い。
油断はするべきではない。

良い散歩とは、

  • 早歩きで20分ほどで汗が出ること
  • ダラダラ歩きはしないこと
  • 休憩するときは休憩し、早歩きとゆっくり歩きを繰り返す
今日もよく歩こう

東京湾、10月以降は遠景が良く見える。









東京ゲートブリッジ、千葉かでも撮影ができます。
陽射しが当たると、輝きます~



2020年10月21日水曜日

情報セキュリティの脅威21

 先日、宮崎美子さんの40年ぶりのビキニ姿が公開された。
御年61歳、40年前の「いまのキミはピカピカに光って~」を初めて見たとき以来の衝撃が走る
美魔女というのはこのことを言うのであろう(^_^;)


情報セキュリティの脅威について

2.1.1 脅威の分類

脅威とは情報セキュリティを脅かし損失を発生させる直接の原因となるものがある。情報資産が存在すれば、そこには常に何らかの脅威が存在する。情報セキュリティにおける脅威は次のように分類できる。

脅威の種類

具体例

環境

災害

地震、落雷、風害、水害

障害

機器の故障、ソフトウェア障害、ネットワーク障害

人間

意図的

不正アクセス、盗聴、情報の改ざん

偶発的

操作ミス、書類や PC の紛失、物理的な事故

  2.1.2 災害の脅威

災害の脅威

地震、火災、風害、水害などが災害の脅威の代表的なものといえる。

多くの場合は自然災害だがたばこの不始末による火災のように人為的な原因によって引き起こされる災害もある。

人為的な要因による災害を軽減させることは可能だが、自然災害を軽減させることが非常に難しい。

災害が情報資産に及ぼす影響

軽微な地震などの自然災害であれば、情報資産(主に情報システム)が災害を受けることは少ないが、大地震などの広域災害が発生した場合には設備からデータにいたるまで、情報システム全体に致命的な被害を起こすことがある。

災害への対策

  • 耐震設備・防火設備・防水設備などによって災害発生時の被害を最小限に抑える、

  • 設備・回線・機器データなどのバックアップを確保しておく、

  • 災害発生時の復旧作業手順を明確にして訓練を実施する、

といった対策が考えられる。

また、情報システムの重要度によっては遠隔地にバックアップセンターを確保し、設備や回線、機器などの必要なリソースをホットスタンバイの状態で待機させておくことも必要になる。

しかし、一般企業がこうした設備を自社内で確保維持するのは大変であるため、必要な環境が完備された外部の IDC やクラウドサービスを活用するのが主流になっている。

2.1.3 障害の脅威

障害の脅威

障害には、設備障害、ハードウェア障害、ソフトウェア障害、ネットワーク障害などがある。

障害の種類

障害の種類

具体例

設備障害

停電、瞬断、空調機の故障、入退室管理装置の故障、監視カメラの故障

ハードウェア障害

メモリー障害、ディスク障害、 CPU 障害、電源装置障害、ケーブル劣化、メモリやディスクの容量オーバー

ソフトウェア障害

OS やアプリケーションプログラムの潜在的なバグや過負荷などによる異常終了・処理異常

ネットワーク障害

回線障害(専用回線、公衆回線の障害)、通信事業者(接続局、 ISP NOC iDC )内での障害、通信機器障害、構内配線の障害


障害が情報資産に及ぼす影響

障害の発生場所や規模、システム構成などにより、影響は大きく異なる。設備障害は災害による脅威と同様に、情報システム全体に障害を及ぼすことが考えられる。ファイアウォールや基幹業務用サーバー、インターネット接続回線など、システムを構成する重要な機器やネットワークの障害も、業務の遂行やサービスの提供に多大な影響を及ぼすことになる

障害への対策

障害は、災害と同様にシステムダウンやデータの破壊を引き起こし、情報システムの可用性や完全性を低下させる大きな原因となる。しかも、入退室管理システムやアクセス制御、認証システム、暗号化といったセキュリティシステムを構成するハードウェアやソフトウェアで障害が発生した場合には、機密性を低下させることも考える。


障害に対する具体的な対策例

対策の種類

対策例

設備障害への対策

設備保守の実施バックアップ設備、 CVCF UPS などの確保

ハードウェア障害への対策

ハードウェア保守の実施、バックアップ機器・交換部品(メモリー、ディスクケーブルなど)の確保

ソフトウェア障害への対策

バージョンの最新化、パッチの適用、過負荷や異常値などのによるテストの実施、脆弱性検査の実施、プログラムやデータなどのバックアップの確保

ネットワーク障害への対策

回線通信機器保守の実施バックアップ回線の確保


この他にも障害に対する共通の対策として、システム資源のキャンパスシティ管理、稼動状況や障害発生状況の常時監視、障害発生時の切り替えシステムの構築、障害発生後の復旧手順・体制の設備、訓練の実施などがある。


2.1.4 人の脅威

人の脅威には大きくわけて「偶発的に引き起こされるもの」と「意図的に引き起こされるもの」がある。具体的には、次のような例が考えられる。

偶発的な脅威の例

  • コンピューターの操作ミスやプログラミングミスによって異常処理やデータの破壊などが発生する

  • 電子メールの送信ミスから機密情報が外部に漏洩する

  • 社員が持ち込んだ個人所有のモバイル機器や USB メモリーから社内システムにマルウェアが侵入しデータの破壊を引き起こしたり機密情報を外部に漏洩させたりしてしまう

  • 社員が公開セグメントに設置した無防備なサーバーがサイバー攻撃を受けデータの破壊や機密情報の漏洩などが発生する

意図的な脅威の例

  • 社員が金銭目的で社内の機密情報を持ち出す

  • 退職した社員や過去にシステム構築に拘った SI ベンダーの社員がシステム構成や設定に関する機器の情報を利用して社内システムに侵入し機密情報を盗み出す

  • 会社に恨みを持つ者は嫌がらせ目的でその会社のオンラインショッピングサイトに侵入して改ざんしたりサービス不能攻撃を仕掛けたりする

  • セキュリティホールを持つ Web アプリケーションが攻撃を受け個人情報が漏えいする



不正のトライアングル理論によれば不正行為は動機・機会・正当化の三つが揃った時に発生すると考えられている。

動機

過剰なノルマ、金銭トラブル、不正行為のきっかけとなるもの

機会

ずさんなルール、対策の不備など、不正行為を可能、または容易にする環境の存在

正当化

「良心の呵責」を乗り越え、不正行為を納得させるための都合のよい解釈や責任転嫁


人が情報資産に及ぼす影響

人間の脅威には多くの種類があるため、その影響をも軽微なものから企業の存続をも脅かしかねない重大なものまで様々である。偶発的な脅威はある程度想定できるが、意図的な脅威は何通でも考えられる上に、その発生頻度や発生箇所を予測する事もこんな非常に困難である。

人の脅威への対策

人は、情報の漏えい、改ざん、破壊、システムダウンなどありとあらゆる損害を引き起こすため、情報資産の機密性や完全性、可用性を低下させる原因となる。特に機密性については、人が最大の脅威であることは明らかであるので、アクセス制御や暗号化による対策が必要となる。


人の脅威に対する具体的な対策例

驚異の種類

対策例

偶発的な脅威

情報システムの使用方法やセキュリティに関する規定やマニュアル類の整備、教育訓練の実施、罰則の適用

意図的な脅威

外部の人的脅威への対策

入退室管理の徹底、アクセス制御、ホストの要塞化、通信データの暗号化監視システム(入退室、サーバー、ネットワークなど)の導入、アカウントやパスワード管理の徹底

内部要因への対策

権限やルールの明確化とそれに基づいたアクセス制御の実施、教育の実施、監査の実施



2.1.5 サイバーセキュリティ情報を共有する取り組み

サイバー情報共有イニシアティブ(J-CSIPInitiative for Cyber Security Information sharing Partnership of Japan )は、公的機関であるIPAを情報ハブ(集約点)の役割として、参加組織間で情報共有を行い、高度なサイバー攻撃対策に繋げていく取り組みです。


具体的には、IPAと各参加組織(あるいは参加組織を束ねる業界団体)間で締結した秘密保持契約(NDA)のもと、参加組織およびそのグループ企業において検知されたサイバー攻撃等の情報をIPAに集約。情報提供元に関する情報や機微情報の匿名化を行い、IPAによる分析情報を付加した上で、情報提供元の承認を得て共有可能な情報とし、参加組織間での情報共有を行っています。


2020年10月19日月曜日

自分のルールは自分勝手ではないか吟味しよう

お天気が悪い日が続く、時たま陽ざしが出るが、雲一つない青空は観なくなっている。
お天気の良い秋晴れはどこに行ったのだろうか?

個人の感想に対して、意見を云々言っているものがSNSに多い。
感想に対して意見を言ったら、どうなるのだろう。何も言えないのではなかろうか?
このような馬鹿なものもいる。
このようなものは必ず同類です。
自分の正義感という馬鹿ぶりを発揮している。

他人を認めず、自分の考えを押し付けようとする独裁者タイプがいると困ります。
現在は、このようなものは私の周りから排除、付き合いなどは一切しません。
世の中には自分に合わないものも多い。そのような時はそのような場から離れましょう。
そうでないと、パワハラやセクハラの要因になります。
特にパワハラなどを行う人は、自分の価値観が優秀だと錯覚している。

今までに10名近くのものがいるが、同じ考えであった。愚かで哀れである(笑)
このようなものは同情しない。

では何が必要なのだろうか
どんな人でも自分なりのルールを持っている。それが自分勝手なものになっていないか、絶えず吟味しつつ行動することが必要です。
 カントの「実践理性批判」より

ついつい経験や立場、人気などに基づく正義感の名において他人を批判する人がいるが、果たして自分勝手になっていないかを吟味する必要がある。
私はこの考え方で行動を考えています。
それが人格者の行動です。



2020年10月18日日曜日

気温が下がり、晩秋?

気温が下がり、夜は冬仕様です。17日土曜日は1日中雨で外気は12度台・・・
寒すぎます。猫達も人も、ぬくぬく生活。
夕方には買い物ついでに散歩。寒いので温かいものがおいしい。

日曜日は雲は多いが時々陽射しがさすので寒さを感じない。陽ざしがあればやはり暖かさを感じ、猫もベランダで日向ぼっこをしている。
当家は陽ざしが良く入るので外気が低くとも陽ざしがあるので温かさを感じる。
 夏はとても暑いですが・・・(^_^;)


時間があるのでDjango版と、Angular版のWebサービスを作成中。
同時進行で作っています(笑)

Django版はスクレイピングとデータ解析及びAI用に利用

Angular版は上記のAI版の公開などに利用

色々なビジネスが今、スタートをするので準備中です。


ミケは毎日、ぬくぬく生活をしております





2020年10月17日土曜日

何事にも準備は早めが良い

17日は冷たい雨、日中は12度台で外はひんやりしすぎ。
前から冬仕様にしていたので、影響なし。
情報は早めに集めて対策を打つことが重要です~
今年は急激に寒気が南下をするという予報があったのでそのため、10月初めに早く対策。
ちょっと早いかなと思いましたが、今では大正解。
準備は早めが良い。

GOTOについては、利用はしていない、そのほかはよく利用しましたが、
旅行に行きたい気分でもないし、食事も今一つ・・・
今後利用するかもしれませんが、今は利用する予定はないです。

マスクなどは在庫は十分にして、対策は万全です。
といっても感染しない保証はないけど・・・
気温が下がり乾燥すると、どうなるのか不安ですが、不安ばかりためても無駄なので、新生活様式で過ごします。

準備を怠りなくすれば今の世の中は良い方向になる。
油断大敵の世の中。

徐々に生活様式が変わり、企業でも発展していくものが少なくない。
今まで通りに行っている企業は衰退気味だ。
これからのビジネスは大きく変わる転換期が今冬に思える。
どのような企業が発展するのか楽しみだ。

猫の開き





2020年10月16日金曜日

健康診断が終わるが、便秘

 16日は曇り空、
昨日は健康診断、従来だと、待ち時間が多いのだが、感染対策で待ち時間が減るし、検査を受ける人数が少ないのでスムーズ。
久々にバリウムを飲んで検査をすると、バリウムがなかなか体外に出ない(^_^;)
検便を終わるとまた、便秘。
胃の消化が遅い・・・
もたれ感はないが、胃が重い。
断食を半日以上設けたほうが良さそう。
毎日思っているのは、空腹感がないのはおかしい。これが体重が増えているので緊張感のある生活感を送ろう。

感染者が増えているが重症者が少ない。
乾燥していないからだろうか、11月末までは注意をして過ごさなくてはいけない。

乾燥しているし、秋花粉でせき込むことが多い(^_^;)
嫌な季節です。

線路わきはススキがきれいです~



2020年10月15日木曜日

健康診断です

 15日は健康診断。今年は春先の新型コロナウィルスの影響で運動不足がたたり、体重が増えすぎ。もっと体重を減らしていきたいが、寒くなると何が起きるかわからないので10月に行くことにした。

便秘気味なので腹囲は6センチ、体重は6㎏は増えているような気がする(^_^;)
散歩が活発になれば、体重が徐々に減りそう。
運動不足は体調に良くない~

天気予報では今日から秋が深まりそう。
今年は暑すぎて、気温の変化で身体が堪える。
体調管理には気を付けましょう

猫は陽ざしがあれば喜びます~



2020年10月14日水曜日

気持ちは都内散歩だ

 10月14日時々青空が出るが雲が多い日が続く。
気温が下がると窓を開けると、一気に気温が下がり、猫たちは冷たい風だとよく鳴く。
きっと寒いといっているのだろう。
7歳を過ぎると、寒がりだ・・・

感染者が微増であるが、世の中が落ち着いてきているが、誰でもそうだろうが心が落ち着かない。やはり警戒心が強く出ている人や、警戒心のない人など。
従来アルコール消毒をしてスーパーなどに入る人が多かったが、今は2分の1ぐらいに減る。
警戒感が緩い人が増えている。
油断大敵だ。

経済は落ち込みすぎ。来年の春まで、まだまだ行き詰まる人が多そう。
贅沢をせず、何事にも質素が良い。
GO TOもよいが貯蓄に回しておかないと、年末年始がどうなるか不気味だ。
警戒感を緩められないです(^_^;)

でも、はとバスに乗って都内などおいしいものを食べに行きたい気持ちもある。
美味しいものを食べたいと欲求が日々強くなる。

先日行った上野公園



ディープラーニング その7

第7章 強化学習と生成モデル

ランダムに操作を繰り返し、正解に近い操作を行った時に高い報酬を与えることで学習させていく方法を強化学習とよぶ。代表的な例としては囲碁の AI であるAlphaGoなどがある


強化学習では行動の最終的な報酬の期待値をQ値と呼びます。また Q 値を求める関係をQ関数と呼び、学習方法によってはQ関数が異なります


最初に計算された Q 値と、実際に行動して得られるQ 値の期待値との差をQ 値に反映させるQ関数を使用する学習方法をQ 学習と呼ぶ。 Q 学習が次のQ 値を期待値で計算するのに対して、 SARSA では実際にもう一度行動させてQ 値を更新する。

またモンテカルロ法では報酬を得られるまではQ 値を更新せず、報酬を得たタイミングで今までを行った行動のQ 値を一気に更新する。AlphaGoはモンテカルロ法を取り入れている


Q 学習にディープラーニングを取り入れたものをDQN(Deep Q Network) と呼びます。

状態を入力値、Q 値を出力として学習を行います


GAN は ジェネレータとディスクリミネータという二つのニューラルネットワークで構成される。画像を生成する場合、ジェネレータはノイズから画像を生成し、ディスクリミネータは実際の画像とジェネレータが生成した画像の真偽を判定します。ジェネレータはディスクリミネータをだませるように学習し実際の画像に近づけるという手法をとります。

2020年10月13日火曜日

ストレス発散は長距離の散歩です。



13日火曜日、昨日から時々、陽ざしが目立ち、買い物兼散歩をする。
気温が程よいので歩きやすい。
出も忘れたころに雨が降るときもあるので、傘が必須だ~

曇り空であっても、歩きやすい秋、ようやく3000歩、
1日5000歩以上歩きたいがなかなか距離が増えない。
大きな公園などに行かないと距離が増やせない。

室内は冬ものにしているので、気温が24度を超えると、暑さを感じる。
サーキュレーターで涼しくしているし、窓を少し開けて換気をすると、猫たちは気持ちよく寝ている。人も疲れたときは寝てしまうが(笑)
気持ちの良い10月中旬だ。

感染者が増えているが、そろそろ、都内などに散歩に出かける予定。
広い公園を歩き回るのは気持ちが良いし、良い気分転換になりそう。

ストレス発散は、よく歩くことです~
1時間以上、早歩きをすると、気持ちが晴れます。



ディープラーニング その6

第6章 ディープラーニングの仕組み

6.1 活性化関数

ニューラルネットワークの隠れ層のユニットでは以下の流れで計算を行う

①前の層から渡される複数の入力に、ニューロン間の結合の強さを表す重みを乗じて足し合わせる

②①にニューロンの反応性の偏りを表すバイアスを加算する

③②の結果に対し活性化関数によって次の層にどのように値を伝播させるか調整する


tanh 関数のグラフはシグモイド関数のグラフに似た S 字の形状になります

シグモイド関数の出力値が0から1の範囲に収まるのに対し、tanh関数の出力値は-1から1の範囲に収まります


ReLU 関数は入力が0以下の場合は0を出力し、0を超える場合はそのまま出力します


ReLU 関数のグラフは0以下の領域を見て水平ですが、 leaky ReLU 関数のグラフは0以下の領域では穏やかな傾斜になります


全結合ニューラルネットワークにおける隠れ層の活性化関数として、 ReLU 関数が主流となっている。

 ReLU 関数はシグモイド関数と比べて勾配消失問題が起きにくい


一般にニューラルネットワークネットワークの出力層の活性化関数として、回帰問題の場合は恒等関数、二値分類問題の場合はシグモイド関数、多クラス分類問題の場合はソフトマックス関数が用いられる


6.2 最適化法

ディープラーニングにおける学習とは、大量のデータによる試行によって重みやバイアスなどのパラメーターを自動で調整することである。

これに対し分析者が調整しなければならないパラメータをハイパーパラメータと呼ぶ。

ハイパーパラメータの例として学習でパラメーターを更新する量を調整する学習率や隠れ層のユニット数があげられる。

またハイパーパラメーターを自動で調整する手法もいくつか存在する。例えばランダムにハイパーパラメータを試していくランダムサーチや、ハイパーパラメータの全ての組み合わせを試すグリッドサーチなどがある


ニューラルネットワークにおける最適化では、いくつかの問題が考えられる。

例えばある限られた空間において誤差が最小となる局所最適解にとらわれ、真の解である大域最適解にたどり着けない場合が考えられる。

また、パラメーター空間においてある次元から見た場合は最小値であるが、別の次元から見た場合は最大値となる鞍点の存在もあげられる。鞍点の周辺では勾配が殆どなくなり、学習が停滞するプラトーと呼ばれる状態に陥りやすい


ディープランニングでは勾配降下法を用いて最適化する。

勾配降下法は誤差関数の偏微分に基づいてパラメータを調整する手法である。まず基本的な方法としては偏微分の値に学習率を掛けた値を用いてパラメータを更新する。


この更新をランダムに選択したデータを用いて行う場合、確率的勾配降下法(SGD)と呼ぶ。

より発展的な手法として、毎回の更新量の慣性として利用するモーメンタム、学習率を自動で調整する  AdaGrad 、 AdaGrad の改良版でより最近のパラメータ更新を重視して学習率を調整する RMSprop やAdaDelta 、 AdaGrad や  RMSprop 、  RMSprop の長所を取り入れた Adam などが挙げられる


前の層のユニット数を考慮した重みの初期値で、活性化関数が ReLU 関数の場合て有効とされるのは He の初期値である


6.3 テクニック

機械学習では入力データの値の範囲を揃える正規化を行うことで学習がうまく進む場合がある。

中でもデータの分布の平均が0、分散が1になるように変換する標準化がよく使用される


過学習とは学習を進める結果、訓練誤差が小さくなったが、汎化誤差が大きくなってしまった状態を指す


ドロップアウトはニューラルネットワークの一部のノードを無視しながら学習を行う手法で過学習抑える効果があります


ドロップアウト は毎回ネットワークの経路が異なるので、アンサンブル学習を行っているとみなすことができる。

ドロップアウト率はハイパーパラメータとして設定する。


過学習に陥る前に学習を打ち切る手法はearly stopping(早期終了)です。

チェックポイントを利用してearly stoppingを実装することがありますが、学習を打ち切る手法そのものの名前ではありません


過学習を抑える手法の一つには正則化がある。

 L 1正則化は不要な入力に対する重みが0になるように働く。

 L 2正則化は重みが大きくなりすぎないようにすることで滑らかなモデルを作る。

また、L 1正則化と L 2正則化を組み合わせて特に線形回帰に適用した場合に Elastic net という


ニューラルネットワークでは、入力層に近づくほど誤差が小さくなる傾向があるため、層が深いネットワークでは勾配消失問題が起こりやすくなります。

活性化関数としてReLU関数を用いることで勾配消失を低減することができます


ミニバッチ学習では、訓練データをバッチサイズごとに分割して学習する。バッチサイズが決まると訓練データ全体を学習に使うのに必要なイテレーション数が決まる。訓練データ全体を1周分使って学習した時、1エポック学習したという


6.4 CNN

画像認識でよく使われる CNN は畳み込み層とプーリング層を持つニューラルネットワークである。畳み込み層ではフィルターによる処理を行い、画像の特徴を抽出した特徴マップを得る。

プーリング層では畳み込み層で得た特徴マップを縮小することで、対象物の位置のずれに対し頑健にすることができる


CNN 畳み込み層では入力データにフィルタ(カーネル)を重ね積和計算を行っている。

この時フィルターをずらしていく幅をストライドという。

また、フィルターを適用する前に入力データの周囲を0などで埋めてサイズを広げることをパディングとよぶ

出力される特徴マップのサイズは入力データのサイズやフィルターのサイズにストライドやパディングの幅によって決まる


GoogleNetの特徴であるinceptionモジュールは異なるサイズの畳み込み層を並列につないだものである.

表現力を落とさずパラメータ数を削減する効果がある。

また、ネットワークの途中で分岐して分類を行う AuxiliaryLoss も GoogleNetの特徴であるAuxiliaryLoss により誤差を効率よく伝えることができる。

さらに全結合層の代わりに Global Average Pooling (GAP) を導入していることにも注目したい。 GAP の導入もパラメータ数の削減に貢献している。


ResNet は畳み込み層と Shortcut connection を組み合わせた残差ブロックを導入したところで飛躍的に層の深いネットワークを構築することができるようになった。


6.5 RNN

RNN では時系列データに対し過去の情報を考慮した推論ができる


実際の時系列タスクでは、 RNN を拡張した LSTM(Long Short Term Memory) がよく用いられる 。

LSTM ブロックは長期の情報を保持するためのセル(CEC)と、入力ゲート・出力ゲート・忘却ゲートの三つのゲートを持つ。

 LSTM ではこれらの仕組みによって勾配消失問題や、時系列のを扱う上で問題となる入力重み衝突および出力重み衝突に対処することができる。

ほかにも LSTM をよりシンプルにした GRU という手法が用いられることもある。 GRU ブロックは更新ゲートとリセットゲートという二つのゲートを持つ。


単純な RNNを LSTM などに拡張しても、それだけでは勾配爆発を防ぐことは出来ません。

勾配クリッピングは勾配が閾値よりも大きくならないように制限することで勾配爆発をしていきます


時系列データの予測する予測をする時に未来の情報を入力して良い場合は BiRNN は使用することで精度の向上が更新できる


6.6 学習済みモデルの利用

あるタスクのために訓練した学習済みモデルを別のタスクに適用する手法を転移学習という


学習済みモデル(教師モデル)に入力したデータと予測された出力を学習データとして新しいモデル(生徒モデル)を訓練する手法を蒸留という。

蒸留によって予測精度を保ったまま、よりシンプルで軽量なモデルを作成できる。

シンプルなモデルでも精度を保つことができるのは生徒モデルがクラス間の類似度を学習するも学習するからだと言われている


教師モデルから生成したラベルにはそれぞれのクラスである確率が出力されているため、生徒モデルはクラス間の類似度も学習することができる

2020年10月12日月曜日

曇り空ですが、気持ちは前向き

 台風14号の影響に雨、連日よく降りましたが、昨日から曇り空、今朝も曇り空です。
換気をすると、気持ちが良い。ひんやりした空気で気持ちが引き締まる。

今週は健康診断があるので、体重を幾分か落としたいのですがなかなか、体重が減らない。
増えるのは早いですがやせるのは難しい。

春先は71㎏だったものが、今では77㎏近辺、運動不足が大きな要因。
食べすぎもですが・・・

今週もお天気が悪いようですが、気持ちを引き締めて過ごしましょう。
世の中は変わり目、油断せず、前を見て進みましょう。

東京湾




ディープラーニング その5

第5章 ディープラーニングの概要

5.1 ディープラーニングとは

入力層と出力層で構成される単純パーセプトロンでは線形分類しか行うことができないが、入力層と出力層の間に隠れ層を追加した多層パーセプトロンを用いることで非線形分類を行うことができる。

多層パーセプトロンでは多くの隠れ層を追加することによって勾配消失問題が発生し学習がうまくいかなくなることがある。


ニューラルネットワークの隠れ層を増やすことによって隠れ層を遡ることに伝播していく誤差がどんどん小さくなりゼロに近づく勾配消失問題が発生します。また隠れ数を増やすことにより計算コストが高くなるため計算処理に優れた演算処理が必要となりました。


ニューラルネットワークの隠れ層を増やすことで、より複雑な関数を表現することができる。しかしを増やすだけでは誤差逆伝播法で勾配が消失してしまう。そこで事前学習やファインチューニングの手法を用いることで、深層でも誤差が適切に逆伝播されるようになった


多層パーセプトロンを用いたニューラルネットワークに置いて、隠れ層が深いニューラルネットワークをディープニューラルネットワーク(DNN) と呼びます。

 DNN は人間や動物の脳神経回路をモデルとしたアルゴリズムを多層構造化したもので大規模で高次元なデータを処理することができます。 DNN はハードウェアの問題だけではなく勾配消失などといった問題点を抱えています。


5.2 ディープラーニングの手法

5.2.1 自己符号化器について

オートエンコーダを多層化すると勾配消失問題が生じるため複雑な問題を解決することは困難だった。ジェフリー・ヒントンは各層を単層のオートエンコーダに分割し入力層から繰り返し学習する積層オートエンコーダを提唱し、汎用的な オートエンコーダの利用可能にした。


オートエンコーダとは入力層と出力層からなる可視層と隠れ層の2層からなるニュートラルネットワークです。

入力層と出力層に同じデータを用いることで隠れ層には入力の情報が圧縮された情報が反映される。


積層オートエンコーダに線形回帰素を追加すれば回帰を行うニューラルネットワークになり、ロジスティック回帰層を追加すれば分類を行うニューラルネットワークとなる。

オートエンコーダを積み重ねるだけでは特徴を抽出することができない教師なし学習であるため、ロジスティック回帰層を足し、最後にネットワーク全体で学習を行い教師あり学習を実現します。積層オートエンコーダは事前学習とファインチューニングを行うことで構成されます。


ジェフリー・ヒントンは事前学習の手段として積層オートエンコーダを提唱した同年、制限付きボルツマンマシンを積み重ねた深層信念ネットワークも提唱している。

制限付きボルツマンマシンは可視層と隠れ層の2層からなり、ユニット同士は違う層のユニットのみを接続することができるという制限がある。層同士の関係を確率モデルとして表すことができ入力データを再現できる。

オートエンコーダを追加されたものを積層エンコーダといい、ジェフリー・ヒントンが入力層に近い層から順番に学習させる逐次的な方法として提唱した。各層を順番に学習していくことでそれぞれの隠れ層の重みが調整されるため、全体的に見ても重みが調整されたネットワークが出来上がる。このオートエンコーダを順番に学習することを事前学習と呼ぶ

事前学習は有用な手法であったが各層の重みを最適化するため全体の学習に必要な計算コストが高いという欠点がある。ディープラーニングの研究が発展するにつれ事前学習を使用する機会が少なくなった。勾配消失問題の原因である活性化関数を工夫することで事前学習を行わなくともよい手法が見つかった。

深層信念ネットワークは2006年にジェフリー・ヒントンによって提唱された。それ自体は教師ラベルを必要としない教師なしの手法である。多層のネットワークである深層信念ネットワークの各層を制限付きボルツマンマシン都市とみなして、層ごとに学習することで深層信念ネットワークを学習することができる


5.3 ディープラーニングの計算デバイスとデータ量

GPU は映像や3DOG などの同一画面に同じ演算を一挙に行う。大規模な並列演算処理を行うことができる。画像処理以外にも、テンソルによる計算が主になるディープランニングの計算に最適された GPU のことを GPGPUと呼ぶ。ディープラーニングの実装用のライブラリーのほぼ全てが NVIDIA社製のGPU上で

計算をサポートされている。 Google 社はテンソル計算処理に最適化された演算処理装置である TPU(Tensor Processing Unit) を開発している


ディープラーニングを利用する上で、 GPU は重要な計算資源である。 GPU は CPU と比較した時、同じ演算を一挙に行うという点で優れており、ディープランニングのように幾度とないループ処理を高速に行うことに優れている。一方 のCPU は様々な種類のタスクを順番に処理という処理をするという点で優れている。


GPU は画像処理などの演算を行う役割を狙っています。大規模な並列演算処理を行う点で優れています。

ディープランニングでは、行列計算やベクトルの計算(テンソル)が主になり、大規模な並行演算処理が必要となります。そこで画像処理以外に使用し、ディープランニングの計算に特化した GPGPU が開発されました。

第三次 AI ブームにおいて大規模な行列計算を並列で行うことができる GPGPU の演算処理の向上がディープランニングの急速な盛り上がりを支えました。


ディープランニングの学習の目的は、モデルが持つパラメーターを最適化することです。そのためディープニューラルネットワークではネットワークが深くなればなるほどその最適化すべきパラメーター数も増えるので必要な計算量も増加します。

データ量の目安となる経験則が存在し、「バーニーおじさんのルール」という経験則によるとモデルのパラメータ数の10倍のデータ数が必要であるとされています。

この経験則によるとアレックスネットと呼ばれるモデルのパラメータ数は6000万個のため必要なデータ数は6億となります。


ディープラーニングの学習には、一般的に豊富な計算資源が必要となりますが、一部の大企業除いて大規模な計算環境を整えるにはコストの面から困難であるため、共有可能な環境を整備することが必要となっています。

学習時には大量のデータをメモリにロードし、反復しながら精度を高めていく計算が必要であるため計算性能が重要視されます。


ディープランニングの学習には一般的に豊富な計算資源が必要となりますが、一部の大企業を除いて大規模な計算環境を整えるには、コストの面から困難であるため、共有可能なクラウドサービスなどの環境を整備する必要があります。

クラウドサービスでは必要な量に応じてリソースを素早く増減することができます


ディープランニングの計算プラットフォームとして半導体メーカー NDIVIA が提供する GPU コンピューティング向け総合環境である CUDA が挙げられる 。C 言語独自拡張しているため C 言語のプログラミングの経験があれば扱いやすく NDIVIA 社のGPU に最適化されている。TensorやChainerといったフレームワークは CUDA のアクセスをサポートしている。 

2020年10月11日日曜日

テレビより映画のほうが良い

 11日、ようやく雨が上がる、曇り空で湿度が高い。
どこの家でも洗濯ものがたまっていそう。
当家でもそうだ。

猫達は寒がっているのにベランダに出たがる。窓を開けて30秒もしないうちに室内に・・・
猫は陽ざしがないと、寂しいようです。

雨が連日降り続き、散歩が良くできない、雨が降っていなければ遠回りをして歩数を稼ぐのですが、それができない。
運動不足は良くない。

今年は新型コロナウィルスの影響で春先からテレビを観ることが少なくなった。
話題が感染のことばかりで・・・心が落ち込む。
動画やDVDで映画やドラマを観ることが多くなる。
でも、鑑賞しすぎて、観るものが無くなってしまった(^_^;)

youtubeで音楽を聴くことが増えています



ディープラーニング その4

4章 機械学習の具体的な手法

4.1 学習の種類

教師あり学習

正解ラベルが未知であるサンプルに対して正解ラベルを予測するモデルを生成する

教師なし学習

データセット内の未知の構造を既存のラベルなしにモデル化することを目的とする

アンサンブル学習

複数の学習モデルが協調し、正解ラベルを予測するモデルを生成する

半教師あり学習

教師あり学習と教師なし学習を組み合わせた手法でラベル付きデータとラベルなしデータの両方を含むデータセットを使用します。必要十分なラベル付きデータが用意できない場合でもより精度を高めることができますが、ラベルなしデータに基づいてモデルが行った予測の精度が確認できないため、教師あり学習より精度が低くなる可能性があります。

強化学習

エージェントが得られる報酬を最大化するためにどのように行動するべきかを学習する



モデルとは入力値から出力値を予測するためのルールのことです。機械学習における学習とはモデルを調整することを言います

4.1.1 分類

教師あり学習における分類問題でデータを3種類以上のカテゴリーに分ける場合を他クラス分類という。

一方、データを類似度によってグルーピングするクラスタリングと呼ばれる手法もデータを分けるという意味では共通している。しかし、クラスタリングは教師なし学習の一種であり、分けるべきカテゴリーを明示的に指定することはない


4.2 代表的アルゴリズム


アルゴリズム

用途

教師あり学習

線形回帰

回帰

ロジステック回帰

分類

決定木

回帰・分類

ランダムフォレスト

回帰・分類

ブースティング

回帰・分類

サポートベクトルマシン

回帰・分類

ニューラルネットワーク

回帰・分類

教師なし学習

k-means(k-平均法)

クラスタリング

主成分分析

次元削減


半教師あり学習は ブートストラップ法とグラフベースアルゴリズムの大きく二つの手法に分かれます。

ブートストラップ法 は学習したモデルを用いて正解ラベルなしデータの推論を行い、推論結果をもとに正解ラベルなしデータに対して正確ラベルを付与しながら学習を進めていく手法です

グラフベースアルゴリズムはデータとデータの近さ(類似度)をもとに近いものは同じラベルだろうと考えて正解ラベルありデータから正解ラベルなしデータに正解ラベルを伝播しながら学習を進めていく手法です



4.2.1 アルゴリズムの内容

線形回帰

回帰は株価の予測や気温の予測といった問題に対して使われ、予測結果を連続値で出力するある事象を予測する際に必要となる値を説明変数、予測の対象となる値を目的変数という回帰分析をする際にはいくつかの手法がある。

利用する説明変数が一つのみの場合は単回帰分析といい、複数の場合は重回帰分析という。

また変数の数だけでなく変数の関係から回帰の種類を分類でき、特に説明変数と目的変数の関係を直線で表現できる回帰を線形回帰という

ロジスティック回帰

ロジスティック回帰は出力にシグモイド関数を用いることで確率を得ることができます。

例えば出力の値が0.5以上であれば正例、0.5未満であれば負例と設定しておくことで確率を元にデータを2種類に分類します。

決定木

選択肢がフリー状に枝分かれしていくモデルを構築しデータを選択肢に当てはめていくことで出力を決定する機械学習の手法を決定木という。

ランダムフォレスト

複数の決定木による多数決で最終的な出力を決定する手法をランダムフォレストという。

ランダムフォレストにおけるそれぞれの決定木はブートストラップサンプリングによってランダムに抽出したデータによって構築される。

ランダムフォレストのように複数の学習器を組み合わせた手法はアンサンブル学習と呼ばれる。アンサンブル学習の主な手法にバギングとブースティングがある。

バギング

ブースティング

バギングとブースティングも抽出した一部のデータを用いて複数の学習器を構築するが、バギングは並列的に学習することで比較的高速に学習し、ブースティングのは前の学習の結果を利用して逐次的に学習することで比較的高い精度を出す傾向にある。ブースティングを用いたアルゴリズムとして adaboost や勾配ブースティングが有名である。

サポートベクトルマシン

サポートベクトルマシンはマージン最大化という考え方で構成されており条件として線形分離ができなければならない

ニューラルネットワーク

人間の脳にはニューロンと呼ばれる神経細胞が数多く存在しネットワークを構成している。この人間の脳の神経回路を再現したアルゴリズムのことをニューラルネットワークと呼ぶ。ニューラルネットワークは入力層、隠れ層、出力層から構成される。隠れ層を深くしたディープランニングの登場により精度が向上し大きな注目を集めることになった

k-means

クラスタリングをするためのアルゴリズム。

クラスター(グループ)の数を決めて、同一のクラスターのデータの距離が近くなるように調整する

主成分分析

主成分分析はデータの中で相関を持つ多数の特徴量から、相関のない少数の特徴量へと次元削減する手法です。

似た特徴が多く存在するとデータが区別しにくくなり精度が下がりやすくなります。

主成分分析で次元を圧縮しデータを解釈しやすい状態にすることで精度の向上と計算量の削減が見込めます。



4.3 訓練データとテストデータ

機械学習の目的は、手元にあるデータを学習し特徴を掴むことによって、未知のデータに対して正しく予測・識別できるようになることである。この未知のデータに対する予測能力のことを汎化性能を呼ぶ。

最もシンプルな方法としてはモデルの汎化性能を評価するためデータ全体を訓練データとテストデータに分割する。


訓練データを用いてモデルの学習を行い、データの特徴を掴み、学習済みモデルを作成する。その後、テストデータを使用して学習済みモデルの汎化性能を評価する。

また訓練データに対してのみ予測能力は優れておりテストデータに対しての予測能力つまり汎化性能が劣ってしまう現象のことを過学習と呼ぶ


機械学習における検証の方法でデータの一部を学習データに使い、残りをテストデータに割り当てるというシンプルな方法をホールドアウト検証という。


これとは別によく利用される検証方法としては K 分割交差検証がある。K-分割交差検証ではデータをK個のサブセットに分割する。k-1個のサブセットのデータで学習を行い、残り一個のサブセットのデータでテストを行う。学習・テストに使うサブセットを換えながらえながらこれをk回繰り返す。 K-分割交差検証は少ないデータでも効率よく学習できるという利点がある


4.4 評価指標

2値分割において予測した分類結果と実際の正解ラベルをまとめてまとめた以下の表は混同行列と呼ばれる。


分類結果

スパムメールである:真

分類結果

スパムメールではない:偽

正解ラベル

スパムメールである:真

真陽性

(True Positive TP)

偽陰性

(False Negative FN)

正解ラベル

スパムメールではない:偽

偽陽性

(False Positive FP)

真陰性

(False Negative TN)


正解率= (TP +TN) / (TP + FP + TN + FN )

 全データの中で予測が当たった確率

適合率 = TP / (TP + FP)

 真と予測した中で、正解した(実際の真)割合

再現率 = TP / (TP + FN)

 真のデータの中で正解した(実際の真)割合

F= 2 * 適合率 * 再現率 / (適合率 + 再現率)

 適合率と再現率の調和平均 適合率と再現率とはトレードオフの関係にある



例)

工場で出荷する製品の不良品かどうかを機械学習で識別するとします。

1万個の製品中に不良品が50個含まれているケースで不良品を一個も見つけられなかった場合正解率は99.5%となる。

良品と不良品の割合に大きな差があるため正解率だけでは適切に評価できないこうした場合、他の評価指標を用いて精度を測ることができる。

不良品を見落とすことを避けたい場合は再現率が、ある良品を不良品と誤判定することを避けたい場合は適合率が指標として適する