Yes it works, but should we move to FSC anyway? (now that we know how to do that) I thought you wanted to get rid of SPPP (are we the only ones using SPPP?)... We could use SPPP with LKB and FSC with PET until there&#39;s support for FSC in LKB. <br>
<br><br><div class="gmail_quote">On Mon, Jul 18, 2011 at 12:25 PM, Lluís Padró <span dir="ltr">&lt;<a href="mailto:padro@lsi.upc.edu">padro@lsi.upc.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
   We tried that and it works.  It builds the right tokens based on the character-wise positions.<br>
<br>
   So, I guess we&#39;ll continue using SPPP, and wait for FSC support in LKB...<br>
<br>
        thank you very much<br>
<br>
            Lluis<div class="im"><br>
<br>
<br>
On 15/07/11 13:21, Stephan Oepen wrote:<br>
</div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><div class="im">
yes, sorry: that&#39;s what i meant.  well, SPPP only &#39;positions&#39; its<br>
tokens in terms of character start and end indices (whereas in<br>
my example below i was assuming inter-token vertices, as are<br>
used in YY).  SPPP will create the actual lattice by setting up<br>
vertices &#39;as appropriate&#39; and arranging tokens relative to these<br>
(see sppp-serialize-tokens() for the current implementation).<br>
<br>
so it *should* work to just have three &#39;token&#39; elements, where &quot;sin&quot;<br>
and &quot;sin embargo&quot; have the same &#39;from&#39; value, and &quot;embargo&quot; and<br>
&quot;sin embargo&quot; have the same &#39;to&#39; value.  could you give this a<br>
quick shot (and use inspect the LKB SPPP internals and token<br>
chart to see what the results are; e.g. print-tchart())?<br></div><div><div></div><div class="h5">
nb: for the record, i consider the lack of explicit vertices in SPPP<br>
a design flaw nowadays, seeing that we consider the input to<br>
parsing a lattice of tokens.  hence, a moderately extended FSC<br>
supported in both PET and the LKB seems like the right way<br>
forward, in principle.<br>
On Fri, Jul 15, 2011 at 22:04, Lluís Padró&lt;<a href="mailto:padro@lsi.upc.edu" target="_blank">padro@lsi.upc.edu</a>&gt;  wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
I guess you mean<br>
<br>
  0, 1, &quot;sin&quot;<br>
  1, 2, &quot;embargo&quot;<br>
  0, 2, &quot;sin embargo&quot;<br>
<br>
  ... Then it looks we have been working much more that it was necessary...<br>
  :}<br>
<br>
  Could you provide more information on the right XML syntax to do that in<br>
SPPP ?<br>
<br>
<br>
On 15/07/11 12:59, Stephan Oepen wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
hmm, both YY and SPPP support actual lattices, so why should it not work<br>
to have an input like the following?<br>
<br>
  0, 1, &quot;sin&quot;<br>
  1, 2, &quot;embargo&quot;<br>
  0, 1, &quot;sin embargo&quot;<br>
<br>
in fact, even the current LKB should support this; does it not?<br>
<br>
cheers, oe<br>
<br>
<br>
On 15. juli 2011, at 21.26, Lluís Padró&lt;<a href="mailto:padro@lsi.upc.edu" target="_blank">padro@lsi.upc.edu</a>&gt;  wrote:<br>
<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hi Stephan<br>
<br>
  Out motivation is not improving integration with PET, but to be able to<br>
feed ambiguous tokenization into the SRG (e.g. expressing that the multiword<br>
expression &quot;sin_embargo&quot; may be either an actual multiword (one single<br>
token) or two separate words (hence two tokens &quot;sin&quot;+&quot;embargo&quot;).<br>
<br>
  As far as we understand, SPPP (or YY) is not capable of representing<br>
this kind of ambiguity, while FSC is.<br>
<br>
  We do not use token mapping rules.  We tried, but realized they are not<br>
what we need.<br>
  We use chart mapping machinery only because it supports FSC input .The<br>
FreeLing interface (chartMap.cc) will take care of all token management and<br>
produce the final lattice that has to be loaded into the grammar, so no need<br>
for chart mapping rules.<br>
<br>
  For the integration of the morphological information coming from<br>
FreeLing, we wrote some lexical rules that do the same work than the<br>
ortographemic rules in SPPP, and load the morpohlogical information form the<br>
PoS tag into the FS.<br>
<br>
  So far, it seems to work with cheap.  Next step will be testing it with<br>
[incr tsdb()], which we assume should work also.<br>
<br>
  In summary, if LKB accepted FSC input format (even with no mapping<br>
rules), we could forget about SPPP.<br>
  Meanwhile, we will keep both interfaces.<br>
<br>
    Thank you<br>
<br>
           Montse&amp;  Lluis<br>
<br>
<br>
On 15/07/11 12:02, Stephan Oepen wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
hi montse,<br>
<br>
i&#39;m not sure i understand exactly what you&#39;re planning to do here, but<br>
i see that dan sent you a link to the general chart mapping machinery,<br>
and i noticed the new ChartMap.cc in FreeLing, which appears to<br>
output (more or less, i would guess) the same information as<br>
LKBAnalyzer.cc, but in the FSC format rather than SPPP.<br>
<br>
for FL integration with the LKB, SPPP currently is your only (supported)<br>
option, i.e. not requiring you to provide your own Lisp code to call out<br>
to<br>
the tagger and interpret its results (this is what Jacy still does for<br>
ChaSen,<br>
but mostly because that interface was built prior to SPPP).<br>
<br>
so i am assuming you want to improve integration with PET here?  as it<br>
is currently, you can only use PET in connection with [incr tsdb()],<br>
which<br>
will then invoke FL through the SPPP interface and reformat its result<br>
in<br>
a form suitable for input to PET.  there are currently two such formats<br>
(that are officially supported): YY and FSC.  YY is equivalent to SPPP<br>
in what it can express, but using a more compact, non-XML syntax.  for<br>
more details, please see:<br>
<br>
  <a href="http://wiki.delph-in.net/moin/PetInput" target="_blank">http://wiki.delph-in.net/moin/<u></u>PetInput</a><br>
<br>
FSC is a more recent invention (by peter adolphs) that seeks to further<br>
generalize what can be provided as input to PET, going all the way to a<br>
lattice of (arbitrary) token feature structures.  however, for all i<br>
recall, in<br>
FSC input mode there is currently no support for &#39;annotating&#39; tokens<br>
with<br>
information about mandatory orthographemic rules (i.e. setting what in<br>
PET internally is known as the inflr_todo list on lexical items).  i<br>
recall<br>
peter and i discussed the necessity of this feature (which is available<br>
in<br>
YY mode) several times and concluded it was maybe unneeded.  one<br>
could &#39;mimic&#39; the intended effect in the feature structures of the<br>
rules,<br>
i.e. have a list (+RULES or so) on each token feature structure, where<br>
members in this list could be strings naming orthographemic rules.  to<br>
enforce the application of a specific chain of orthographemic rules, the<br>
grammar would have to (a) percolate the +RULES value on all lexical<br>
signs (lexical entries and lexical rules); (b) make each orthorgraphemic<br>
rule require its own name to be the &#39;next&#39; rule to be called for (e.g.<br>
the<br>
value of a path like ARGS.FIRST.+RULES.FIRST); (c) &#39;pop&#39; the +RULES<br>
list upon application of an orthographemic rule, i.e. percolate up to<br>
the<br>
mother ARGS.FIRST.+RULES.REST; and (d) require an empty +RULES<br>
value on all arguments to syntactic rules.<br>
<br>
i am not quite sure i would actually recommend the above approach to<br>
anyone.  one issue i see with it just now reflects recent discussion i<br>
had with dan and others about extending our notion of a derivation, to<br>
actually record additional information about the string-level effects<br>
upon<br>
application of each orthographemic rule (so as to be able to recover the<br>
corresponding surface form at the rule daughter and mother, e.g. if one<br>
were to accomodate tokenization conventions that split off punctuation<br>
marks).  in the approach sketched above, this information would not<br>
be available---whereas it could be when PET (like the LKB) remains in<br>
full control of the application of orthographemic rules.  however, when<br>
working with an external morphological analyzer (as is the case for<br>
the SRG), one would still need more information than is currently<br>
supported in YY.  for example, one could imagine extending the FSC<br>
&#39;edge&#39; element with an &#39;analysis&#39; element quite similar to the one in<br>
SPPP.  this is an area for revision that i would like to discuss with<br>
peter aver the holidays.<br>
<br>
--- in summary, your (assumed) desire to improve integration of PET<br>
and FL (without requiring the assistance of [incr tsdb()]) has prompted<br>
me to recall some remaining open questions in the token lattice input<br>
design for PET, particularly in connection with an external<br>
morphological<br>
analyzer.  i plan on returning to these jointly with peter before too<br>
long.<br>
<br>
in the meantime, i suspect you might actually be better served using YY<br>
input format for PET (which, after all, is what [incr tsdb()] converts<br>
to from<br>
SPPP inputs).  fortunately, the specific input format used (YY or FSC)<br>
is<br>
independent of the use of chart mapping.  that is, using either format,<br>
as<br>
soon as the initial lattice of token feature structures is created in<br>
PET,<br>
everything else remains the same.  thus, if you were looking to utilize<br>
chart mapping to improve your treatment of numbers, dates, or other<br>
named entities that can be recognized in terms of regular expressions,<br>
you could do so by adding a set of token mapping rules to the SRG<br>
(much like we have in the ERG).  that would remain valid no matter<br>
what revisions to FSC (and possibly YY) might be down the road :-).<br>
<br>
i hope there may be some useful information in this partly self-serving<br>
message to you!<br>
<br>
best, oe<br>
<br>
<br>
<br>
On Thu, Jul 7, 2011 at 18:46, Montserrat Marimon<br>
&lt;<a href="mailto:montserrat.marimon@ub.edu" target="_blank">montserrat.marimon@ub.edu</a>&gt;    wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hi everybody,<br>
<br>
Since the SRG is the only grammar which integrates a tagger using SPPP,<br>
we&#39;ve decided to use chart parsing to integrate it.<br>
Is there any document we could read?<br>
<br>
Thanks,<br>
<br>
--<br>
Montserrat Marimon<br>
Departament de Lingüística General<br>
Facultat de Filologia - Universitat de Barcelona<br>
Edifici Josep Carner, 5a planta<br>
Gran Via de les Corts Catalanes, 585<br>
08007 BARCELONA<br>
tel.: <a href="tel:%2B%2034%2093%204034695" value="+34934034695" target="_blank">+ 34 93 4034695</a><br>
<br>
<a href="http://stel.ub.edu/linguistica-ub/" target="_blank">http://stel.ub.edu/<u></u>linguistica-ub/</a><br>
<br>
<br>
</blockquote></blockquote></blockquote></blockquote>
<br>
</blockquote></div></div></blockquote>
<br>
</blockquote></div><br><br clear="all"><br>-- <br>Montserrat Marimon<br>Departament de Lingüística General<br>Facultat de Filologia - Universitat de Barcelona<br>Edifici Josep Carner, 5a planta<br>Gran Via de les Corts Catalanes, 585<br>
08007 BARCELONA<br>tel.: + 34 93 4034695<br><br><a href="http://stel.ub.edu/linguistica-ub/" target="_blank">http://stel.ub.edu/linguistica-ub/</a><br>
<br>