テキストのないPDFファイルからテキストを抽出するには

 先日公開した記事トレーニングの最適化:安全な筋力トレーニングにおける新しい進展で参照していた引用元の論文からダウンロードできるファイルは PDF であるが,画像として保存されており,テキスト情報が抽出できなかった.以前ならスキャナから OCR ソフトで文字情報を抽出したが,最近だと Google ドキュメントが優秀なので,こちらを使ってテキスト情報を抽出してみた.

“テキストのないPDFファイルからテキストを抽出するには” の続きを読む

英語の論文の翻訳

 実を言うと,英語はあまり詳しくない.学術論文を一本読むのに数日かかる.読み慣れてくる頃には疲れてしまってやる気が失せている.

 読み慣れる,と書いた.読み進めて行くうちに,脳が英語のまま理解し始める瞬間がある.英語で読み,英語で思考し,英語でアウトプットする.これを勝手に「英語モード」と呼ぶことにする.なんというか,脳の中に新しいモジュールが一個できる感じ.

 脳が英語モードに入ってしまえばこっちのものだ.普段考えてる時は,頭の中では日本語で喋ってるだろう?その思考自体が英語になる.俺の脳が英語で喋ってる,俺スゲー!となる.しかしそこまで行くにはかなり集中力がいる.その前段階の話である.

“英語の論文の翻訳” の続きを読む