1920年から2015年までの都道府県別の5歳階級別人口推移

1920年から2015年までの都道府県別の5歳階級別人口推移

 e-Stat を渉猟していると面白いファイルを見つけた.国勢調査は 1920 年から開始されており, 2020 年 3 月現在では最新の調査結果は 2015 年のものである.20 回分の人口データが一つのファイルにまとめられており,グラフ化するには格好のデータである.

 年齢(5歳階級),男女別-都道府県(大正9年~平成27年)というファイルである.リンク先のページにはファイルが 3 つあるが,最後のものが最も粒度が細かいので,これをグラフ化する.

年齢(5歳階級),男女別人口-都道府県(大正9年~平成27年)
年齢(5歳階級),男女別人口-都道府県(大正9年~平成27年)

“1920年から2015年までの都道府県別の5歳階級別人口推移” の続きを読む

厚労省「地域ごとのまん延の状況に関する指標等」の PDF から Power BI Desktop でデータを抽出し EXCEL のグラフに表現する

各都道府県の新型コロナウイルス確定患者数の推移

 新型コロナウイルスのパンデミック宣言以降,Twitter でフォローしているアカウントに自然と相互協調の動きがみられる.

 このツイートから始まった一連のやりとりで,厚労省の発表した PDF からテーブルを抽出するくだりに注目した.

 今回はここを画像つきで実施してみた.

“厚労省「地域ごとのまん延の状況に関する指標等」の PDF から Power BI Desktop でデータを抽出し EXCEL のグラフに表現する” の続きを読む

国勢調査から5歳階級の人口推移を調べる

日本人口の年齢階級推移(国勢調査より筆者作成)

 人口統計は最も重要な基幹統計の一つである.総務省の e-Stat は確かに有用であるが,かゆいところに手が届かない.例えば「市区町村ごと,年齢5歳階級ごとの人口構成の国勢調査ごとの推移を知りたい」という要求には全く無力である.

 主として技術的な理由によるものと,統計調査の粒度の細かさによる.技術的な理由としては,データベースの画面表示セル数の上限を容易に超えてしまうデータ量になってしまうことである.しかし,根本的な理由は調査の粒度の細かさである.

 2005 年以前と 2010 年以降とでは調査の精度が違う.今後は高精度なデータファイルが e-Stat に掲載されていくものと思われるが,2005 年以前に関しては都道府県より細かい粒度は存在しない.そこを求めると手作業になってしまい,現実的ではない.国立社会保障・人口問題研究所ならデータを持っているかもしれない.

 2020 年は国勢調査の年にあたる.総務省にはできるだけ細かい粒度でのデータ掲載を望むものである.

“国勢調査から5歳階級の人口推移を調べる” の続きを読む

PowerPivotで100万件超えのデータを取り出す

「Power Pivot」タブ「データモデル」から「管理」

 EXCEL のワークシートの仕様上,100 万件を超えるデータは扱えない.これは大規模なデータを扱う際の制約である.180万件のデータをPower Queryで処理してEXCELがオーバーフローした話 でも述べたが,この制約を乗り越えてデータをインポートするにはデータモデルに読み込むほかはない.

 SQL Server で PowerQuery が使えればこういった制約を回避できるのだが,ないものは仕方がない.今回は PowerPivot を用いてデータモデルに蓄積したデータを取り出す方法を見つけたので備忘録として記す.

“PowerPivotで100万件超えのデータを取り出す” の続きを読む

SPSS から Ubuntu 上の SQL Server に接続する

 最近 Ubuntu 環境の構築SQL Server のインストールWindows からのリモート接続を行った.

 以前 SPSS から SQL Server に接続したのを思い出し,Windows 環境の SPSS から Ubuntu 上の SQL Server にリモート接続できないか試してみたら,あっさり接続できたので書き記す.

“SPSS から Ubuntu 上の SQL Server に接続する” の続きを読む

SPSSからSQL Serverに接続する

 SQL Server に蓄積したデータを SPSS で解析する際には一旦 EXCEL のワークシートに出力していたのだが,この一手間が面倒になってきた.SPSS のメニューを眺めていると「データベースを開く」というメニューがある.これを使えないか?と試行錯誤した結果を備忘録として記す.

“SPSSからSQL Serverに接続する” の続きを読む

日本標準食品成分表2015をダウンロードし,データクレンジングを行う

 文部科学省には日本標準食品成分表のデータがある.食品の栄養素の計算に用いられるデータで,食品成分データベースやフィットネス,ダイエット関連アプリのデータベースの基本となっているものである.

 このデータは 5 年ごとに更新されており,最新のデータは 2015 年のものである.次の更新は 2020 年の予定である.今回の記事ではこのデータをダウンロードし,クレンジングを行う.

“日本標準食品成分表2015をダウンロードし,データクレンジングを行う” の続きを読む