ExtractText.cs
//
// このコードは、DioDocs for PDF のサンプルの一部として提供されています。
// © MESCIUS inc. All rights reserved.
//
using System;
using System.IO;
using System.Drawing;
using System.Numerics;
using System.Collections.Generic;
using System.Linq;
using GrapeCity.Documents.Text;
using GrapeCity.Documents.Drawing;
using GrapeCity.Documents.Pdf;
using GrapeCity.Documents.Pdf.Annotations;
using GrapeCity.Documents.Pdf.Graphics;
using GCTEXT = GrapeCity.Documents.Text;
using GCDRAW = GrapeCity.Documents.Drawing;
namespace DsPdfWeb.Demos
{
// このサンプルは、既存のPDFからテキストを抽出する方法を示しています。
// 任意の PDF を一時的な GcPdfDocument に読み込み、Page.GetText() メソッドを
// 使用してそのドキュメントの各ページからテキストを取得し、それらのテキストを
// すべて TextLayout に追加して、現在のドキュメントにレンダリングします。
// Page.GetText() の代わりに、ドキュメント全体からテキストを一度に取得する
// GcPdfDocument.GetText() メソッドもあります。
public class ExtractText
{
public int CreatePDF(Stream stream)
{
var doc = new GcPdfDocument();
var page = doc.NewPage();
var rc = Common.Util.AddNote(
"これはPDF文書全体からテキストを一度に取得するサンプルです。" +
"任意の PDF を一時的な GcPdfDocument に読み込んでから、" +
"Page.GetText() メソッドを使用して読み込まれたドキュメントの各ページからテキストを取得します。" +
"読み込んだテキストをすべて TextLayout に追加して出力用のドキュメントに描画します。" +
"Page.GetText() の代わりに、GcPdfDocument.GetText() メソッドもあります。",
page);
// キャプションのテキスト書式。
var tf = new TextFormat()
{
Font = GCTEXT.Font.FromFile(Path.Combine("Resources", "Fonts", "yumin.ttf")),
FontSize = 14,
ForeColor = Color.Blue
};
// テキストを描画するためのテキストレイアウト。
var tl = new TextLayout(72);
tl.DefaultFormat.Font = Common.Util.getFont();
tl.DefaultFormat.FontSize = 12;
tl.MaxWidth = doc.PageSize.Width;
tl.MaxHeight = doc.PageSize.Height;
tl.MarginAll = rc.Left;
tl.MarginTop = rc.Bottom + 36;
// widow/orphan 制御のテキスト分割オプション。
var to = new TextSplitOptions(tl)
{
MinLinesInFirstParagraph = 2,
MinLinesInLastParagraph = 2,
RestMarginTop = rc.Left,
};
// 任意の PDF を開き、それを一時ドキュメントに読み込んで、すべてのページテキストを取得します。
using var fs = File.OpenRead(Path.Combine("Resources", "PDFs", "diodocs_pricelist.pdf"));
var doc1 = new GcPdfDocument();
doc1.Load(fs);
// 読み込まれたドキュメントのページのテキストを取得します。
var texts = new List<string>();
doc1.Pages.ToList().ForEach(p_ => texts.Add(p_.GetText()));
// テキストレイアウトにテキストとキャプションを追加します。
for (int i = 0; i < texts.Count; ++i)
{
tl.AppendLine(string.Format("読み込まれた PDF ファイルの {0} ページ目のテキスト:", i + 1), tf);
tl.AppendLine(texts[i]);
}
tl.PerformLayout(true);
while (true)
{
// 'rest' は、収まりきらなかったテキストを受け入れます。
var splitResult = tl.Split(to, out TextLayout rest);
doc.Pages.Last.Graphics.DrawTextLayout(tl, PointF.Empty);
if (splitResult != SplitResult.Split)
break;
tl = rest;
doc.NewPage();
}
// PDF ドキュメントを保存します。
doc.Save(stream);
return doc.Pages.Count;
}
}
}