【PHP】特定のURLからそのAtomやRSSのフィードを抽出する方法

公開日: : PHP, 正規表現

スポンサーリンク

特定のURLからRSSやATOMのフィードを抽出する方法をメモ。
流れとしては指定のWebページHTMLを取得→RSS1.0、RSS2.0、atomのURLを正規表現で抽出という形になります。特になんかのライブラリとかは使っていません。

フィード抽出プログラム

まずはどういった文字列を含むリンクタグがフィードのURLを表しているのか決めておきます。今回は下記の3つをのどれかをtype属性として持つlinkタグを抽出することにします。

“application/atom+xml”
“application/rss+xml”
“application/rdf+xml”

PHPプログラム)

<?php
function get_rss_links($html) {
    $dst = null;
    if (preg_match_all('/type\=[\"|\']application\/(rss|atom|rdf)\+xml[\"|\'][^<>]*href=[\"|\']([^<>\"\']+)[\"|\']/i', $html, $m)) {
        $dst = array();
        $len = count($m[1]);
        for($i=0;$i<$len;$i++) {
            $tmp = array();
            array_push($tmp,$m[1][$i]);
            array_push($tmp,$m[2][$i]);
            array_push($dst,$tmp);
        }
    }
    return $dst;
}
//表示テスト
var_dump(get_rss_links(file_get_contents("http://mementoo.info")));

表示結果)

array(1) {
  [0]=>
  array(2) {
    [0]=>
    string(3) "rss"
    [1]=>
    string(34) "http://mementoo.info/archives/feed"
  }
}

上の例ではこのサイト(mementoo.info)からフィードを検出するということをしています。

get_rss_linksという関数がフィードを取得する関数です。これの戻り値がrdfかatomかrssか(単純にapplication/xxx+xmlのxxx部分です)といったフィードのタイプとそのリンクの配列となっており、複数のタイプのフィードが存在する場合にも対応しています。
(上の例では1種類しか検出できませんでしたが、例えばライブドアブログでは2種類備えているものが多い気がします。)

ちなみに何もフィードが無い場合NULLを返します。

上の正規表現で果たして良いのか不明ですが、ちゃんととれているので良い気がします。。。

サンプルデモ

上記の仕組みを利用して特定のURLからタイトルやURL、フィードを取得するデモを作成しました。
(タイトルの取得についてはホストURLから取得するという形をとっています。)

フィード抽出ツール(RSS1.0、RSS2.0、atom)

スポンサーリンク
Amazon
  • このエントリーをはてなブックマークに追加

関連記事

TwitterAPIでデベロッパー登録しようとすると携帯情報を追加しろと出る件について

TwitterAPIのデベロッパー登録ページ(https://dev.twitter.com)でアプ

記事を読む

【PHP】WebAPIのJSONファイルを読み込む

WebAPIでJSONファイルを使う機会があったので使い方をメモ。最近ではWebAPIはSNSやブロ

記事を読む

【PHP・MySQL】Fatal error: Class ‘mysqli’ not found

Fatal error: Class 'mysqli' not found このエラーはmys

記事を読む

【PHP】ミリ秒を取得することで制限時間を設けて処理をする

PHPで時間制限を設けてタイマーのような処理をするときの制限の付け方として、処理のはじめの時刻と処理

記事を読む

【PHP】usortのfunctionでCannot redeclare(再定義)される

初心者なのでusortがいいものかどうなのかよくわからないのですが、usortの関数定義をするとたま

記事を読む

ニコニコ動画のURLリンクから外部プレイヤーのスクリプトに正規表現で置換する

ニコニコ動画の動画のアドレスを抽出して外部プレイヤー貼りつけソースのスクリプトに変換するソースです。

記事を読む

【TwitterOauth】特定のつぶやきを取得してリツイート数順やランダム順にする【PHP】

TwitterOauthを利用して特定のワードをつぶやいたデータを取得してそれをリツイート順なりに並

記事を読む

【PHP】file_get_contentsでリンク元などのヘッダ情報を変更する

file_get_contentsで他サイトの情報を読み取る際などでリンク元を明記したい場合は以下の

記事を読む

【PHP】headerでContent-Typeを指定したのに効かない場合の対処法

PHPでサイトマップを作ろうと思い、XML形式のファイルを出力しようとしてheaderを指定したのに

記事を読む

【MySQL・PHP】WHERE句とORDER BY句を使った#1064エラーについて

MySQLで次のようなクエリを出すとエラーとなって帰ってきました。 SELECT * from

記事を読む

NVIDIA DIGITSをSupervisorを使って自動起動する

はじめに 先日Ubuntu14.04にDIGITS 5をGPUなしP

【2017年度】GeForce 1080 Ti搭載BTOパソコン比較

はじめに 最近ディープラーニング用にGPUのないPCにDIGITSを

Windows用のシンプルなストップウォッチソフト紹介

Windows(10)でも使える使いやすいKAZAMITimerという

MNISTをDIGITS 5のCPUのみで試す(GPUなし)

はじめに DIGITSを使えばGUI操作で簡単にディープラーニングが

Windowsユーザが初めてMacBookを購入したときの注意点や感想

最近12インチのMacBookを購入しました。今までWindowsしか

Redmine3.2をUbuntu14.04にインストールして躓いた所についてメモ

はじめに Ubuntu14.04 ServerにRedmine3.2

UWSCを使ったソフト自動立ち上げ【SoftEther VPN Server】

やりたいこと 最近SoftEtherという筑波大学発のベンチャー企業

→もっと見る

  • Author : ががんぼ
    プログラミングやWeb関係で気付いたことについてメモしていく予定。だいたいが備忘録ですが、自分でサンプルを作って動かしてみたりしています。
PAGE TOP ↑