10分钟掌握XML、JSON及其解析

By Long Luo
引言
NOKIA 有句著名的广告语:“科技以人为本” 。任何技术都是为了满足人的生产生活需要而产生的 。具体到小小的一个手机,里面蕴含的技术也是浩如烟海,是几千年来人类科技的结晶,单个人穷其一生也未必能掌握其一角 。不过个人一直认为基本的技术和思想是放之四海而皆准的,许多技术未必需要我们从头到尾再研究一遍,我们要做的就是站在巨人的肩膀上,利用其成果来为人们的需求服务 。
随着移动互联网时代的大潮 , 越来越多的App不光是需要和网络服务器进行数据传输和交互,也需要和其他 App 进行数据传递 。承担App与网络来进行传输和存储数据的一般是XML或者JSON 。在移动互联网时代,XML和JSON很重要 。
最近一段时间,个人综合了之前对XML、JSON的一些了解,参考了相关资料 , 再结合视频的代码,把自己的一些思考融入了这篇总结文档中,同时尝试用通俗诙谐的语言风格来阐述,期望能给感兴趣的读者带来帮助 。
为了不和时代落伍,我们必须要学习 XML 和 JSON,但同时它们也很容易学习,Let&39;t forget the meeting!</body>
</note>
上面的这条便签具有自我描述性 。它拥有标题以及留言 , 同时包含了发送者和接受者的信息 。但是,这个 XML 文档仍然没有做任何事情 。它仅仅是包装在XML标签中的纯粹的信息 。我们需要编写软件或者程序,才能传送、接收和显示出这个文档 。
1.1.3 XML仅仅是纯文本
XML没什么特别的 。它仅仅是纯文本而已 。有能力处理纯文本的软件都可以处理XML 。不过,能够读懂 XML 的应用程序可以有针对性地处理 XML 的标签 。标签的功能性意义依赖于应用程序的特性 。
1.1.4 XML允许自定义标签
上例中的标签没有在任何XML标准中定义过(比如和) 。这些标签是由文档的创作者发明的 。这是因为XML没有预定义的标签 。
在HTML中使用的标签(以及HTML的结构)是预定义的 。HTML文档只使用在HTML标准中定义过的标签(比如<p>,<h1> 等等) 。
XML允许创作者定义自己的标签和自己的文档结构 。
1.1.5 XML不是对HTML的替代
XML是对HTML的补充 。
XML不会替代HTML , 理解这一点很重要 。在大多数 web 应用程序中 , XML用于传输数据 , 而HTML用于格式化并显示数据 。
1.2 XML的语法
XML的语法规则很简单,且很有逻辑 。这些规则很容易学习,也很容易使用 。
1.2.1 所有元素都必须有关闭标签
在XML中,省略关闭标签是非法的 。所有元素都必须有关闭标签 。在HTML,经常会看到没有关闭标签的元素:
<p>This is a paragraph
<p>This is another paragraph
在XML中,省略关闭标签是非法的 。所有元素都必须有关闭标签:
<p>This is a paragraph</p>
<p>This is another paragraph</p>
注释:您也许已经注意到XML声明没有关闭标签 。这不是错误 。声明不属于XML本身的组成部分 。它不是XML元素,也不需要关闭标签 。
1.2.2 XML标签对大小写敏感
【10分钟掌握XML、JSON及其解析】XML元素使用XML标签进行定义 。
XML标签对大小写敏感 。在XML中,标签与标签是不同的 。
必须使用相同的大小写来编写打开标签和关闭标签:
<Message>这是错误的 。</message>
<message>这是正确的 。</message>1.2.3 XML标签对大小写敏感
在 HTML 中,常会看到没有正确嵌套的元素:
<b><i>This text is bold and italic</b></i>
在 XML中,所有元素都必须彼此正确地嵌套:
<b><i>This text is bold and italic</i></b>
在上例中,正确嵌套的意思是:由于<i>元素是在<b>元素内打开的,那么它必须在<b>元素内关闭 。
1.2.4 XML文档必须有根元素
XML文档必须有一个元素是所有其他元素的父元素 。该元素称为根元素 。
<root>
<child>
<subchild>…..</subchild>
</child>
</root>1.2.5 XML的属性值须加引号
与 HTML 类似 , XML 也可拥有属性(名称/值的对) 。在 XML 中,XML 的属性值须加引号 。请研究下面的两个 XML 文档 。第一个是错误的,第二个是正确的:
<note date=08/08/2008>
<to>George</to>
<from>John</from>
</note>
<note date=&34;>
<to>George</to>
<from>John</from>
</note>
在第一个文档中的错误是,note 元素中的 date 属性没有加引号 。
1.2.6 实体引用
在 XML 中 , 一些字符拥有特殊的意义 。如果你把字符 &34; 放在 XML 元素中,会发生错误 , 这是因为解析器会把它当作新元素的开始 。这样会产生 XML 错误:
<message>if salary < 1000 then</message>
为了避免这个错误,请用实体引用来代替 &34; 字符:
<message>if salary < 1000 then</message>
在 XML 中,有 5 个预定义的实体引用:
<<小于
>>大于
&&和号
&39;单引号
&34;引号
注释:在 XML 中,只有字符 &34; 和 &34; 确实是非法的 。大于号是合法的,但是用实体引用来代替它是一个好习惯 。
1.2.7 XML中的注释
在 XML 中编写注释的语法与 HTML 的语法很相似:
<!– This is a comment –>
在 XML 中,空格会被保留 HTML 会把多个连续的空格字符裁减(合并)为一个:
HTML:Hellomy name is David.
输出: Hello my name is David. 在 XML 中,文档中的空格不会被删节 。
1.2.8 以 LF 存储换行
在 Windows 应用程序中,换行通常以一对字符来存储:回车符和换行符。这对字符与打字机设置新行的动作有相似之处 。在 Unix 应用程序中,新行以 LF 字符存储 。而 Macintosh 应用程序使用CR来存储新行 。
1.3 XML CDATA
所有XML文档中的文本均会被解析器解析 。
只有CDATA区段(CDATA section)中的文本会被解析器忽略 。
1.3.1 PCDATA
PCDATA指的是被解析的字符数据(Parsed Character Data) 。
XML解析器通常会解析XML文档中所有的文本 。当某个XML元素被解析时 , 其标签之间的文本也会被解析:
<message>此文本也会被解析</message>
解析器之所以这么做是因为 XML 元素可包含其他元素 , 就像这个例子中 , 其中的元素包含着另外的两个元素:
<name><first>Bill</first><last>Gates</last></name>
而解析器会把它分解为像这样的子元素:
<name>
<first>Bill</first>
<last>Gates</last>
</name>1.3.2 转义字符
非法的XML字符必须被替换为实体引用(entity reference) 。
假如您在XML文档中放置了一个类似 &34; 字符,那么这个文档会产生一个错误,这是因为解析器会把它解释为新元素的开始 。因此你不能这样写:
<message>if salary < 1000 then</message>
为了避免此类错误,需要把字符 &34; 替换为实体引用,就像这样:
<message>if salary < 1000 then</message>
在 XML 中有 5 个预定义的实体引用:
<<小于
>>大于
&&和号
&39;省略号
&34;引号
注释:严格地讲,在XML中仅有字符&34;和&34;是非法的 。省略号、引号和大于号是合法的,但是把它们替换为实体引用是个好的习惯 。
1.3.3 CDATA
术语CDATA指的是不应由XML解析器进行解析的文本数据(Unparsed Character Data) 。
在 XML 元素中,&34; 和 &34; 是非法的 。
&34; 会产生错误,因为解析器会把该字符解释为新元素的开始 。&34; 也会产生错误 , 因为解析器会把该字符解释为字符实体的开始 。
某些文本,比如 JavaScript 代码,包含大量 &34; 或 &34; 字符 。为了避免错误 , 可以将脚本代码定义为 CDATA 。CDATA 部分中的所有内容都会被解析器忽略 。CDATA 部分由 &34; 开始,由 &34; 结束:
<script>
<![CDATA[
function matchwo
{
ifthen
{
return 1;
}
else
{
return 0;
}
}
]]>
</script>
在上面的例子中,解析器会忽略 CDATA 部分中的所有内容 。
关于CDATA 部分的注释: CDATA部分不能包含字符串 &34; 。也不允许嵌套的CDATA部分 。标记CDATA部分结尾的&34; 不能包含空格或折行 。
1.4 举个栗子
上面关于XML讲了这么多,大家都表示一头雾水了吧?
没关系,我们来举个栗子,让大家有个直观的感受:-)
以目前视频使用的iQiyi提供的频道接口为例:
iQiyi提供的电影频道的XML电影数据如下:<?xml version=&34; encoding=&34;?>
<response>
<header>
<respcode>0</respcode>
<total>1736</total>
</header>
<result>
<album>
<album_id>320305900</album_id>
<title> <![CDATA[ 电影侃侃之初恋永不早 ]]> </title>
<tag> <![CDATA[ 18岁以上 当代 暧昧 华语 ]]> </tag>
<img>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_120_160.jpg</img>
<img180236>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_180_236.jpg</img180236>
<img11577>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_115_77.jpg</img11577>
<img220124>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_284_160.jpg</img220124>
<category_id>1</category_id>
<score>0.0</score>
<voters>0</voters>
<tv_sets>0</tv_sets>
<duration>00:38:57</duration>
<year> <![CDATA[ 2014 ]]> </year>
<tv_focus>跟爱情片学把妹心经</tv_focus>
<episode_count>1</episode_count>
<directors> <![CDATA[ 关雅荻 ]]> </directors>
<mainactors> <![CDATA[ 关雅荻 ]]> </mainactors>
<actors> <![CDATA[ ]]> </actors>
<vv2> <![CDATA[ 15 ]]> </vv2>
<timeText> <![CDATA[ 今天 ]]> </timeText>
<first_issue_time> <![CDATA[ 2014-10-16 ]]> </first_issue_time>
<up>0</up>
<down>0</down>
<download>1</download>
<purchase_type>0</purchase_type>
<hot_or_new>0</hot_or_new>
<createtime>2014-10-16 12:25:08</createtime>
<purchase>0</purchase>
<desc> <![CDATA[
本期节目主持人介绍新近上映的口碑爱情片 ,  。主持人轻松幽默的罗列出胡鳄鱼导演拍摄的爱情片越来越接地气,博得观众的认同和追捧,更提出“初恋永远不嫌早”的口号 。观众可以跟着爱情片学习把妹心经 。
]]> </desc>
<ip_limit>1</ip_limit>
<episodes/>
</album>
</result>
</response>这是展示一部电影的具体数据,包括标题、介绍、内容、导演、演员、时长、上映年份等很多内容 。1.5 XML树结构
XML文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶” 。
1.5.1 一个XML文档实例
XML使用简单的具有自我描述性的语法:
<?xml version=&34; encoding=&34;?>
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don&39;t forget the meeting!</body>
最后一行定义根元素的结尾:
</note>
从本例可以设想,该XML文档包含了John给George的一张便签 。

  • XML具有出色的自我描述性,你同意吗?
  • XML文档形成一种树结构
  • XML文档必须包含根元素 。该元素是所有其他元素的父元素 。
  • XML文档中的元素形成了一棵文档树 。这棵树从根部开始,并扩展到树的最底端 。
所有元素均可拥有子元素:
<root>
<child>
<subchild>…..</subchild>
</child>
</root>
父、子以及同胞等术语用于描述元素之间的关系 。父元素拥有子元素 。相同层级上的子元素成为同胞(兄弟或姐妹) 。
所有元素均可拥有文本内容和属性(类似HTML中) 。
1.6 XML DOM
想到这里,大家都有点迫不及待了 , XML 文件到底如何解析呢?
但是,别急 , 让子弹先飞会儿:-)
在XML解析之前,我们必须系统性的学习一下 XML DOM 知识:
1.6.1 定义
XML DOM 定义了访问和操作XML文档的标准方法 。
DOM把XML文档作为树结构来查看 。能够通过DOM树来访问所有元素 。可以修改或删除它们的内容,并创建新的元素 。元素,它们的文本,以及它们的属性,都被认为是节点 。
XML DOM是:
  • 用于XML的标准对象模型
  • 用于XML的标准编程接口
  • 中立于平台和语言
  • W3C的标准
XML DOM定义了所有XML元素的对象和属性,以及访问它们的方法(接口) 。
换句话说:
XML DOM是用于获取、更改、添加或删除XML元素的标准DOM将XML文档作为一个树形结构,而树叶被定义为节点 。1.6.2 总结
XML DOM其实比较复杂,在这么短的篇幅里也无法一一进行讲解 。想详细了解XML DOM可以好好去学习下
1.7 XML如何解析?
上面讲了这么多关于XML的东西,那么XML文件应该如何解析呢?
终于到了我们的重头戏了
下面以视频项目为例,展示如何解析XML文件:
1.7.1 Step 1XML文件是一棵树,首先需要找到对应的节点,然后从节点开始解析,比如搜索找到的就是result/weights/weight 和result/weights/weight 2个节点,分别从这个开始解析:public ResultInfo onParser {
int resp = -1;
try {
String elName = &34;;
resp = Integer.parseInt);
} catch{
e.printStackTrace;
}
Log.d;
if{
return null;
}
ResultInfo searchResultInfo = new ResultInfo;
// Parse Search Weight
@SuppressWarnings
final List weights = rootElement.selectNodes + &34;
+ &34;);
ResultInfo[] resultFilterInfos = parseVideos;
if{
ResultInfo weight = new ResultInfo;
weight.putResultInfoArray;
searchResultInfo.putResultInfo;
}
// Parse Albums
@SuppressWarnings
final List albums = rootElement.selectNodes + &34;
+ &34;);
ResultInfo[] resultInfos = parseVideos;
if{
ResultInfo album = new ResultInfo;
album.putResultInfoArray;
searchResultInfo.putResultInfo;
}
return searchResultInfo;
}1.7.2 Step 2找到了对应的Node,即从对应的Node开始递归的查找,直到找到最小的节点,也就是最基本的单元Element 。再对每一个Element进行解析:private ResultInfo[] parseVideos {
if> 0) {
final int size = nodes.size;
final ResultInfo[] vis = new ResultInfo[size];
int i = 0;
for{
if{
final Element videoElement =o;
ResultInfo vi = parseVideo;
vis[i] = vi;
}
i++;
}
return vis;
}
return null;
}1.7.3 Step 3针对获取到的Element,解析出对应的String将数据传递给VideoInfo这个类:private ResultInfo parseVideo {
final String id = videoElement.elementText;
final String title = videoElement.elementText;
final String categoryId = videoElement.elementText;
final String categoryName = videoElement.elementText;
final String count = videoElement.elementText;
final String imgUrl = videoElement.elementText;
final String duration = videoElement.elementText;
final String mainactors = videoElement.elementText;
final String sitename = videoElement.elementText;
final String videourl = videoElement.elementText;
final String sort = videoElement.elementText;
final String tv_id = videoElement.elementText;
ResultInfo vi = new ResultInfo;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
vi.putString;
return vi;
}1.7.4 Step 4当使用XML解析器将XML数据解析出来之后 。需要将这些数据提取出来 , 也是通过连续2层提取,将数据定位到每个video,将每个video里的数据传递给SearchVideoInfo这个ArrayList,然后将ArrayList中的数据和对应的Adapter数据关联起来:public static ArrayList<SearchVideoInfo> getSearchVideoInfo {
ResultInfo resultInfo = null;
ResultInfo[] videos = null;
ArrayList<SearchVideoInfo> searchVideoInfos = null;
if{
resultInfo = searchResultInfo.getResultInfo;
}
if{
videos = resultInfo.getResultInfoArray;
}
if{
searchVideoInfos = new ArrayList<SearchVideoInfo>;
for{
SearchVideoInfo searchInfo = new SearchVideoInfo;
searchInfo.setAlbum_id);
searchInfo.setTitle);
searchInfo.setChannel_id);
searchInfo.setImgUrl);
searchInfo.setDuration);
searchInfo.setMainActors);
searchInfo.setSiteName);
searchInfo.setVideo_url);
searchInfo.setOrder);
searchInfo.setTv_id);
// searchInfo.setContinueType);
searchVideoInfos.add;
}
}
if{
MyLog.e;
}
return searchVideoInfos;
}
以上就是朝夕生活(www.30zx.com)关于“10分钟掌握XML、JSON及其解析”的详细内容,希望对大家有所帮助!

猜你喜欢