Webサイトから組織のICTリテラシーを計測

Webサイトから組織のICTリテラシーを計測していきます。

複数のWebサイトから特定の文字を検索するためのアルゴリズム

世にあるOSSを活用して、地方自治体のWebサイトにおける全角スペースの使用について、自動で見つけるアルゴリズムを考えてみることにしました。

♩でっきるっかな♩

理由

その理由としては、Webページにおける全角スペースの使用(主に字下げ)は、なんの意味もないこと=無駄なことだと、数十年前から思っているためです。
半角スペースも同様なのですが、これはタグ内などで多用しますので、まずはそこには手を出しません。
そして、このレベルのことをもし実現できれば、SIerに頼らずとも、Webサイトに対する様々なことを、自動化できるであろうと考えたためです。

クローリング

まず必要になることは、各WebサイトのHTMLからテキスト情報を取り込むためのクローリングになります。
Pythonのライブラリですかね。

サーチ

次に、クローリングによって得られたテキスト情報から、全角スペースをサーチすることになります。
UNIXだとgrepawkperlでしょうが、これもPythonですね。

スクレイピング

grepなどによる検索結果は、リダイレクトによって出力するわけですが、それだけでは情報量が多過ぎますので、なんらかのパイプ=スクレイピングが必要になります。
そして、その出力内容をそのまま、情報発信できる形にすることがベストです。
これもPythonですね。

OSS

アルゴリズム自体は簡単ですので、上記を実現するためのOSSを探さなければなりません。
誰かに頼ることなどせずに、自力で探してみます。
今時点では、Python一択によってできそうな気がしております。
肝心なソースコードについては、Google検索という非常に便利なサービスがありますので、類似したソースコードを探すだけです。

頑張るぞー٩(^‿^)۶