世界各国の人口推移およびGDP推移を取得したい.そんな場合は国連や世界銀行のデータを活用する.今回は国連から人口推移,世界銀行からGDP推移のデータをそれぞれ取得したので経緯を紹介する.
日平均気温の過去30日間の移動平均をSQL Serverのウィンドウ関数を用いて計算する
熱中症の搬送人員数が月平均気温と負の相関があるとの情報を得た.普段涼しい地域ほど日最高気温の上昇に弱いという意味である.普段涼しいということを表現するには過去30日間の日平均気温の平均を取ればよいだろうと判断した.こうなるとSQL Serverのウィンドウ関数の出番である.
熱中症搬送人員数に都道府県人口をオフセット項として追加し一般化線形回帰分析を行う
以前の記事ではポアソン回帰モデルおよび負の二項分布モデルを用いて熱中症搬送人員数に対する日最高気温と平均水蒸気圧の回帰係数を推定した.
人口10万人あたり何名の罹患者数,というのは割り算値である.総務省消防庁の公開している熱中症搬送人員数は都道府県ごとの搬送数であり,もともと都道府県別人口が異なるのだから搬送人員数を都道府県人口で割った割合のほうが指標として適切なのではないか,という指摘は一理ある.
しかし,割り算値ではなく実数を解析すべきである.変形した観測値を統計モデルの応答変数にするのは不必要であるばかりか,誤った結果を導きかねないからである.割り算値からは確からしさの情報が失われること,変換された値の分布が不明であることから,割り算値は避けるべきである.その代わりに割り算の分母をオフセット項として線形予測子に組み込む手法がある.
熱中症搬送人員数はカウントデータであり,その期待値は集計ゾーンの集計対象人口に依存する.都道府県人口をオフセット項とすることで,都道府県の人口規模の影響を調整した回帰分析ができる.今回は都道府県人口をオフセット項として線形予測子に組み込み,一般化線形回帰分析を行ってみた.
国土数値情報の医療機関のPointデータをダウンロードしQGIS経由でSQL Serverにアップロードする
国土数値情報ダウンロードサービスには医療機関や医療圏の位置情報もある.今回は医療機関の Point データをダウンロードし,SQL Server にアップロードする方法を見つけたので備忘録として記載する.
“国土数値情報の医療機関のPointデータをダウンロードしQGIS経由でSQL Serverにアップロードする” の続きを読む
QGIS から SQL Server へデータをアップロードする際の勘所
QGIS から SQL Server 2008 R2 に空間データをアップロードする際には Shape2SQL というツールを使った.便利なツールではあるが,国土数値情報の河川データの属性テーブルの日本語が文字化けするという問題を抱えており,何とかならないかと試行錯誤した結果を備忘録として投稿する.
国土数値情報の河川データの水域系コードを探索する
国土交通省の国土数値情報は興味深い.以前の投稿では SQL Server にアップロードできなかったが,QGIS 経由でアップロードできた.その際,水域系コードや河川コードを取り扱った.今回はコードの対応について考察する.
USGSの地震データをインポートし,データベースのバックアップを取る
環境省の捕獲鳥獣数の統計を折れ線グラフにする
また面倒な統計を見つけてしまった.Power Query に食わせれば早いのかも知れないが,どうにも埒が明かないので手動でデータを整形することになった.頼むから第一正規形で公開してくれ…
PowerPivotで100万件超えのデータを取り出す
EXCEL のワークシートの仕様上,100 万件を超えるデータは扱えない.これは大規模なデータを扱う際の制約である.180万件のデータをPower Queryで処理してEXCELがオーバーフローした話 でも述べたが,この制約を乗り越えてデータをインポートするにはデータモデルに読み込むほかはない.
SQL Server で PowerQuery が使えればこういった制約を回避できるのだが,ないものは仕方がない.今回は PowerPivot を用いてデータモデルに蓄積したデータを取り出す方法を見つけたので備忘録として記す.
全国の市区町村の財政
総務省の e-Stat から全国の市区町村の財政状況を垣間見る.衰退する都市には財政破綻の徴候が見られるはずである.今回は財政力指数,経常収支比率,実質公債費比率,地方債現在高に注目する.