Word文档内容结构分析

发布时间:2023-02-28 12:15:08

下面是小编为大家整理的Word文档内容结构分析,供大家参考。

Word文档内容结构分析

闲来无事把docx文档解压,解压之后得到内容大致如下:

├── [Content_Types].xml   // 描述的是整个文档的内容。把各个XML文件组合成一个整体├── _rels                 // 定义Package(Zip包)和它所直接包含的Part之间的关系。对于一个 Part 来说,如果它依赖其他 Part,那么需要为这个 Part 创建一个目录,并且也有一个 _rels 目录,目录下面会有一个 partname.rels 文件。比如 /word/document.xml 就是很典型的例子├── docProps              // 记录docx文档的主要属性信息│   ├── app.xml          // 描述文档的文档类型、版本、只读信息、共享、安全属性等信息│   └── core.xml         // 描述文档的创建时间、标题、主题和作者等基于Open XML约定文档格式的通用文件属性信息└── word    ├── _rels    │   └── document.xml.rels    ├── charts    │   ├── _rels    │   │   ├── chart1.xml.rels  \\ 映射表存放文件文本框文件的位置    │   ├── chart1.xml    │   ├── colors1.xml    │   ├── colors2.xml    │   ├── style1.xml    │   ├── style2.xml    ├── document.xml    // 文档中所有可见文字的内容和属性及不可见部分的内容和属性    ├── embeddings    │   ├── Microsoft_Excel_Worksheet.xlsx    │   ├── Microsoft_Excel_Worksheet1.xlsx    │   ├── oleObject1.bin  // OLE是Object Linking and Embedding的缩写,直译为对象连接与嵌入;
满足用户在一个文档中加入不同格式数据的需要(如文本、图像、声音等),即解决建立复合文档问题。    │   ├── oleObject2.bin    │   ├── oleObject3.bin    │   ├── oleObject4.bin    ├── endnotes.xml     ├── fontTable.xml    // 文档所使用的字体信息    ├── footer1.xml    ├── footer2.xml    ├── footnotes.xml    // 文档中脚注部分信息    ├── header1.xml    ├── header2.xml    ├── media               // Word中的多媒体文件,如插入的图片、公式对应的wmf文件等    │   ├── image1.emf    │   ├── image2.png    │   ├── image3.jpeg    │   ├── image4.wmf    │   ├── image5.emf    ├── numbering.xml          // Word中的有序列表、无序列表等的信息,定义了列表的样式、序号等信息    ├── settings.xml           // 文档的总体设置信息    ├── styles.xml             // Word的样式信息,定义样式的展示优先级以及段落、表格等样式    ├── theme                  // 文档的主题的所有信息,如颜色、字体大小    │   ├── theme1.xml    │   ├── themeOverride1.xml    │   └── themeOverride2.xml    └── webSettings.xml        // 文档左右间距等的样式信息

我们只要针对document.xml文件内容进行修操作,然后压缩扩展名改回doc

推荐访问:

版权所有:众一秘书网 2005-2024 未经授权禁止复制或建立镜像[众一秘书网]所有资源完全免费共享

Powered by 众一秘书网 © All Rights Reserved.。备案号: 辽ICP备05005627号-1