複数のWebサイトから特定の文字を検索するためのアルゴリズム
世にあるOSSを活用して、地方自治体のWebサイトにおける全角スペースの使用について、自動で見つけるアルゴリズムを考えてみることにしました。
♩でっきるっかな♩
理由
その理由としては、Webページにおける全角スペースの使用(主に字下げ)は、なんの意味もないこと=無駄なことだと、数十年前から思っているためです。
半角スペースも同様なのですが、これはタグ内などで多用しますので、まずはそこには手を出しません。
そして、このレベルのことをもし実現できれば、SIerに頼らずとも、Webサイトに対する様々なことを、自動化できるであろうと考えたためです。
クローリング
まず必要になることは、各WebサイトのHTMLからテキスト情報を取り込むためのクローリングになります。
Pythonのライブラリですかね。