PDFの文字を読み取ってテキスト化!無料で使えるGoogleドライブ&Windowsのスクショ機能で業務効率化
- PDFファイルの文字を簡単に抽出したい方
- 無料ツールで効率的にテキスト化を進めたい方
PDFや画像ファイルからテキストを抽出したいけれど良い方法が見つからず、手間取ってしまうことありませんか?
PDFのテキストをいちいち手入力するのは面倒ですし、時間がかかることも多いですよね。
この記事では、PDFから文字を読み取って簡単にテキスト化できるGoogleドライブのOCR機能(光学文字認識)と、画像からの文字抽出に便利な Shipping Tool の2つの方法をご紹介します。
これらのツールを使うことで、時間と労力を節約できるようになります。
完成イメージ
元のPDFファイル
Googleドキュメント(テキスト抽出後)
こちらはサンプルのPDFファイルから、GoogleドライブのOCR機能でテキスト抽出した結果です。
PDF内の文字がそのままテキストデータとなり、手作業での文字起こしを省略できます。
ただし、レイアウトが崩れていたり、精度の問題もあるため多少の調整は必要です。
(今回の結果もレイアウトが少しずれていますが、調整せずそのまま載せてています。)
Shipping Tool(テキスト抽出後)
こちらはShipping Toolを使った結果です。
スクリーンショットを撮って、PDFファイルの選択範囲を画像として扱います。
Shipping ToolはPDFのほか、JPEGなどの画像内のテキスト抽出も簡単に行えます。
Googleドライブを使ったPDFテキスト抽出方法
最初に、PDFファイルからテキストを抽出する方法として、GoogleドライブのOCR機能をご説明します。
Googleドライブは無料で使えるうえ、PDFファイルの文字情報を自動で抽出する機能があります。
手順
Googleドライブ画面上の「新規」ボタンをクリックし、「ファイルのアップロード」を選んでPDFを追加します。
アップロードしたPDFファイルを右クリックもしくはオプションメニューから、「アプリで開く」ー「Googleドキュメント」を選びます。
このステップで自動的にOCR(光学文字認識)が実行され、PDF内のテキストが抽出されてGoogleドキュメント上に表示されます。
抽出されたテキストはそのままではレイアウトが崩れていることもあるので、必要に応じて整えます。
メリット | デメリット |
---|---|
無料で使える 手軽にPDFや画像ファイルからテキストを取り出せる ファイル全体をテキスト抽出したい時に便利 | 画像が含まれるPDFの場合、精度が低下する可能性がある |
JPEGなどの画像ファイルもGoogleドキュメントで開くことで、テキスト抽出できます。
Windows標準搭載 Shipping Tool を使った方法
PDFファイルの一部分だけテキストを必要とする場合や、JPEGなどの画像ファイルからテキスト抽出する場合には、Windowsに標準搭載されている Shipping tool を使うと便利です。
手順
「 Windows ロゴ キー + Shift + S 」のショートカットキーで、選択した領域のスクリーンショットを撮ります。
スクリーンショットを撮影した後、画像は自動的にShipping Tool クリップボードにコピーされます。
Shipping Tool 画面のメニューにある「テキストアクション」を押して、テキストを抽出します。
テキストをコピーしてGoogleドキュメントなどのファイルに貼り付けます。
メリット | デメリット |
---|---|
Windows標準搭載で、追加インストールが不要 素早く画像からテキストを抽出できる 必要な範囲だけ選択してテキスト抽出できる | 大量の画像処理には手作業が増えるため不向き |
GoogleドライブとShipping Toolの使い分け
- PDFファイル全体のテキストを文字起こししたい場合。
- 簡単なドキュメントや契約書類などの文字起こしに。
- PDFに含まれる画像情報や複雑なレイアウトが多い場合。
- 画像ファイルからテキストを抽出したい場合。
まとめ
PDFや画像ファイルからテキストを取り出すのは、ツールを使うことで簡単にできます。
GoogleドライブのOCR機能やShipping Toolを使いこなせば、面倒だった文字起こしの作業も短時間で完了できるので、ぜひ試して業務を効率化してみてはいかがですか。
弊社では、Google Apps Script(GAS)を活用した業務効率化サポートのほか、ITツールの導入支援やIT導入補助金の申請サポートも行っております。
ぜひお気軽にご相談ください。貴方の業務改善を全力でサポートいたします。
コメント