二乗平均平方根誤差で回帰モデルの当てはまりを検討する

 二乗平均平方根誤差とは英語では Root Mean Squared Error (RMSE) と書く.真値と予測値との乖離(誤差)を二乗し,その平均値をとり,その平方根を求めた値のことである.非負の値を取り,0に近いほど優れたモデルであることを示唆する.

 今回使用するのはe-Statからの社会疫学的指標を加えて熱中症搬送人員数を分析するで使用したデータベースである.先の記事では回帰モデルを評価する指標が必要との認識であった.

“二乗平均平方根誤差で回帰モデルの当てはまりを検討する” の続きを読む

総務省の都道府県・市区町村別統計表をデータクレンジングする

都道府県・市区町村別統計表(国勢調査)

 日本の人口統計は総務省が 5 年おきに行う国勢調査が元になっている.日本の市の人口順位をEXCELにダウンロードして散布図に描くでは日本全国の都市の人口増減率と人口の関係を時系列で流すとどう推移するか予測した.今回はその予測が実態と合っているか乖離しているかの検証を行う.

“総務省の都道府県・市区町村別統計表をデータクレンジングする” の続きを読む