Python のサードパーティー製パッケージ Beautiful Soup に関する初歩的な事柄についてのメモ。

  • Beautiful Soup をいじる。クラス SoupStrainerBeautifulSoup.find 系引数の parse_only 引数をうまく組み合わせると、 必要な要素だけを解析させることができて高速化が期待できる。

  • クラス SoupStrainerBeautifulSoup.find 系引数の parse_only 引数をうまく組み合わせると、 必要な要素だけを解析させることができて高速化が期待できる。 例えば次の処理は data から a 要素しか解析・抽出しない。

    links = BeautifulSoup(data, 'html.parser', parse_only=SoupStrainer("a"))