データクレンジング

2023年8月31日2023年7月10日

e-Statからの社会疫学的指標を加えて熱中症搬送人員数を分析する

　総務省の公開しているe-Statには社会疫学的指標が多く含まれる．今回熱中症搬送人員数に様々な指標を加えて解析してみた．

　説明変数として日最高気温，日平均水蒸気圧，都道府県人口に加えて過去30日間の平均気温，エアコン保有台数，年間収入のジニ係数，光熱・水道費，実収入，第1次産業就業者比率，第2次産業就業者比率，都市公園数，都市緑化割合，自然公園割合，自然公園数，生活保護被保護人員を加えた．

　すべての変数が有意であったが，VIFを見ると多重共線性を疑わせる変数もあり，良いモデルとは言えない結果となった．

“e-Statからの社会疫学的指標を加えて熱中症搬送人員数を分析する” の続きを読む

2022年9月15日2022年7月13日

都道府県別の納税義務者数と課税対象所得の推移を散布図に示す

　eStatには納税義務者数（所得割）と課税対象所得のデータが1985年から2020年まである．今回は都道府県別の自治体ごとの納税義務者数と課税対象所得の散布図を示す．

“都道府県別の納税義務者数と課税対象所得の推移を散布図に示す” の続きを読む

2022年8月11日2022年7月5日

eSTATの小地域（町丁・字等別）毎の年齢（５歳階級、４区分）別、男女別人口をSQL ServerにBULK INSERTする

　2020 年の国勢調査の結果がようやくeSTATに反映された．日本の市区町村よりも粒度の細かい小地域（町丁・字等別）の人口構成が公表されたのは2022年6月24日付である．今回はこのデータをSQL Serverに取り込んでみたい．

“eSTATの小地域（町丁・字等別）毎の年齢（５歳階級、４区分）別、男女別人口をSQL ServerにBULK INSERTする” の続きを読む

2022年4月21日2022年4月20日

東日本大震災の避難者数の統計を調べる

　件の統計は復興庁の全国の避難者の数（所在都道府県別・所在施設別の数にあるが，このページはトップページから辿ることができず，検索からのみ到達できる．時系列でのデータは必須と思われるが，トップページから辿れるのは最新の情報のみであり，これは国民の利益に反する．

“東日本大震災の避難者数の統計を調べる” の続きを読む

2021年9月30日2022年6月30日

日別平均水蒸気圧と熱中症搬送人員との相関を可視化する

　熱中症の搬送人員と最高気温との相関関係を可視化し閾値をχ二乗検定するでは最高気温と搬送人員との相関関係を解析した．今回は水蒸気圧と搬送人員との関係を可視化し，閾値を求めた．重症度別の搬送人員についての検討は日平均蒸気圧と熱中症の重症度別搬送人員との関連を調べるに記述した．

“日別平均水蒸気圧と熱中症搬送人員との相関を可視化する” の続きを読む

2021年9月16日2022年6月28日

熱中症の重症度別搬送人員数を最高気温と平均湿度別にプロットする

　熱中症の搬送人員と最高気温との相関関係を可視化し閾値をχ二乗検定するでは最高気温と搬送数をプロットした．今回は気象庁から湿度のデータをダウンロードし，重症度別にプロットして可視化する．

“熱中症の重症度別搬送人員数を最高気温と平均湿度別にプロットする” の続きを読む

2021年8月5日2022年7月7日

熱中症の搬送人員と最高気温との相関関係を可視化し閾値をχ二乗検定する

　最高気温と熱中症の搬送人数との間に相関関係はあるだろうか．熱中症で救急搬送された人数は総務省の消防庁のサイトにある．これと気象庁のデータを結合してみた．

“熱中症の搬送人員と最高気温との相関関係を可視化し閾値をχ二乗検定する” の続きを読む

2020年5月21日2020年4月25日

USGSの地震データをインポートし，データベースのバックアップを取る

　USGS (United States Geological Survey) はアメリカ地質調査所とも呼ばれ，全世界の地震データを蓄積しているデータベースである．

　かつてここの地震データをダウンロードしたことがあった．合計 72 万件にも及ぶ巨大なファイルである．どのリンクからダウンロードしたのか，今となっては記憶が定かでない．ファイルのプロパティを見ると 2017 年 11 月作成となっていた．これを SQL Server にインポートする．

“USGSの地震データをインポートし，データベースのバックアップを取る” の続きを読む

2020年5月7日2020年4月25日

1920年から2015年までの都道府県別の5歳階級別人口推移

　e-Stat を渉猟していると面白いファイルを見つけた．国勢調査は 1920 年から開始されており， 2020 年 3 月現在では最新の調査結果は 2015 年のものである．20 回分の人口データが一つのファイルにまとめられており，グラフ化するには格好のデータである．

　年齢（5歳階級），男女別-都道府県（大正9年～平成27年）というファイルである．リンク先のページにはファイルが 3 つあるが，最後のものが最も粒度が細かいので，これをグラフ化する．

“1920年から2015年までの都道府県別の5歳階級別人口推移” の続きを読む

2020年3月26日2020年1月23日

国勢調査から５歳階級の人口推移を調べる

　人口統計は最も重要な基幹統計の一つである．総務省の e-Stat は確かに有用であるが，かゆいところに手が届かない．例えば「市区町村ごと，年齢５歳階級ごとの人口構成の国勢調査ごとの推移を知りたい」という要求には全く無力である．

　主として技術的な理由によるものと，統計調査の粒度の細かさによる．技術的な理由としては，データベースの画面表示セル数の上限を容易に超えてしまうデータ量になってしまうことである．しかし，根本的な理由は調査の粒度の細かさである．

　2005 年以前と 2010 年以降とでは調査の精度が違う．今後は高精度なデータファイルが e-Stat に掲載されていくものと思われるが，2005 年以前に関しては都道府県より細かい粒度は存在しない．そこを求めると手作業になってしまい，現実的ではない．国立社会保障・人口問題研究所ならデータを持っているかもしれない．

　2020 年は国勢調査の年にあたる．総務省にはできるだけ細かい粒度でのデータ掲載を望むものである．

“国勢調査から５歳階級の人口推移を調べる” の続きを読む