phpで正規表現を弄り倒したからその時に使った関数とかをメモしとく

先日から内定先でバイトをはじめた。その中でメルマガの管理方法にちょいと非効率な点を見つけたので自動化するミニサイトを作った。そんときにhtmlのソースを正規表現で弄くりまわしたので使った関数とか自分用にメモしとく。

htmlのソースからほしい部分を抽出する
→preg_match(正規表現のパターン,ソース,マッチした箇所を格納する配列)
*返り値はマッチした箇所の数がintで返ってくる。


URLからソース取得
→file_get_contents(URL)
*返り値はString。


何個もpreg_matchで配列を作るとそれらをひとつにまとめるたくなる。そんときはこれ。
→array_push(配列,格納したい値)
*別にインデックスで指定していれても全然良いけど。


htmlタグを取り除く
→strip_tags(ソース,)
*optionで残したいタグを引数に書くとそのタグだけ取り除かずに残せる。


エンコーディングを逐一変えたい
→mb_convert_encoding(変えたい文字列,変えたい文字コード,現在の文字コード)
*同じサイト内でも文字コードが異なることとかあるので気をつけるべし。


その他、はまったとことか
→下手にhtmlspecialcharsを使ってクオートをエスケープしてしまうとpreg_matchのときにはまる。

→(.+)と\s+の使い勝手の良さは異常。



最後に・・・
バイト先に綺麗なお姉様方がたくさんいてこわいよ。