ExtractParagraphs.cs
// 
// このコードは、DioDocs for PDF のサンプルの一部として提供されています。
// © MESCIUS inc. All rights reserved.
// 
using System;
using System.IO;
using System.Drawing;
using System.Numerics;
using System.Collections.Generic;
using System.Linq;
using GrapeCity.Documents.Text;
using GrapeCity.Documents.Drawing;
using GrapeCity.Documents.Pdf;
using GrapeCity.Documents.Pdf.Annotations;
using GrapeCity.Documents.Pdf.Graphics;
using GCTEXT = GrapeCity.Documents.Text;
using GCDRAW = GrapeCity.Documents.Drawing;

namespace DsPdfWeb.Demos
{
    // このサンプルは、既存のPDFから段落ごとにテキストを抽出する方法を示しています。
    // 任意の PDF を一時的な GcPdfDocument に読み込み、Page.GetText().Paragraphs プロパティを
    // 使用して、そのドキュメントの各ページから段落を取得し、それらの段落を
    // すべて TextLayout に追加して、現在のドキュメントにレンダリングします。
    // ページからテキストを取得するPage.GetText() メソッドや、ドキュメント全体からテキストを
    // 一度に取得するGcPdfDocument.GetText() メソッドもあります。
    // このサンプルで使用した元のPDFは、 PaginatedTextによって生成されたものです。
    public class ExtractParagraphs
    {
        public int CreatePDF(Stream stream)
        {
            const int margin = 36;
            var c1 = Color.PaleGreen;
            var c2 = Color.PaleGoldenrod;

            var doc = new GcPdfDocument();
            var page = doc.NewPage();

            var rc = Common.Util.AddNote(
                "このサンプルでは、既存のPDFを一時的なGcPdfDocument に読み込んだ後、" +
                "各ページから段落ごとにテキストを取得し、別のPDFへ出力します。" +
                "なお、段落ごとの境界がより明確になるよう、段落の背景色を変更してあります。" +
                "また、元のPDFは、最終的に生成されるPDFに追加されます。",
                page, 
                new RectangleF(margin, margin, page.Size.Width - margin * 2, 0));

            // キャプションのテキスト書式。
            var tf = new TextFormat()
            {
                Font = Common.Util.getFont(),
                FontBold = true,
                FontSize = 14,
                ForeColor = Color.Blue
            };
            // 段落のテキスト書式。
            var tfpar = new TextFormat()
            {
                Font = tf.Font,
                FontSize = 12,
                BackColor = c1,
            };
            // テキストを描画するためのテキストレイアウト。
            var tl = page.Graphics.CreateTextLayout();
            tl.MaxWidth = doc.PageSize.Width;
            tl.MaxHeight = doc.PageSize.Height;
            tl.MarginAll = rc.Left;
            tl.MarginTop = rc.Bottom + 36;
            // widow/orphan 制御のテキスト分割オプション。
            var to = new TextSplitOptions(tl)
            {
                MinLinesInFirstParagraph = 2,
                MinLinesInLastParagraph = 2,
                RestMarginTop = rc.Left,
            };

            // 任意の PDF を開き、それを一時ドキュメントに読み込んで、すべてのページテキストを取得します。
            using var fs = File.OpenRead(Path.Combine("Resources", "PDFs", "StrongInTheRain.pdf"));
            
                var doc1 = new GcPdfDocument();
                doc1.Load(fs);

                for (int i = 0; i < doc1.Pages.Count; ++i)
                {
                    tl.AppendLine(string.Format("読み込まれた PDF ファイルの {0} ページ目のパラグラフ:", i + 1), tf);

                    var pg = doc1.Pages[i];
                    var pars = pg.GetTextMap().Paragraphs;
                    foreach (var par in pars)
                    {
                        tl.AppendLine(par.GetText(), tfpar);
                        tfpar.BackColor = tfpar.BackColor == c1 ? c2 : c1;
                    }
                }

                tl.PerformLayout(true);
                while (true)
                {
                    // 'rest' は、収まりきらなかったテキストを受け入れます。
                    var splitResult = tl.Split(to, out TextLayout rest);
                    doc.Pages.Last.Graphics.DrawTextLayout(tl, PointF.Empty);
                    if (splitResult != SplitResult.Split)
                        break;
                    tl = rest;
                    doc.NewPage();
                }
                // 参照用に元の文書に追加します。
                doc.MergeWithDocument(doc1, new MergeDocumentOptions());
                // PDF ドキュメントを保存します。
                doc.Save(stream);
            
            return doc.Pages.Count;
        }
    }
}